第二十屆中國IDC產業年度大典(IDCC2025)暨數字基礎設施科技展(DITExpo)即將于北京首鋼國際會展中心1號館拉開帷幕。這場以“重塑算力 破界而生”為主題的行業盛會,將于2025年12月10日至11日期間,匯聚數萬名算力產業從業者,共同探討技術突破與商業模式創新的前沿議題。活動報名通道現已開啟,誠邀各界人士共襄盛舉。
當前,人工智能大模型的參數規模正從百億級向萬億級躍遷,驅動算力基礎設施進入“萬卡集群”時代。從OpenAI的GPT-4到國內“百模大戰”的激烈競爭,“萬卡”已成為AI巨頭參與全球競爭的核心門檻。然而,這場變革的實質遠不止于機柜功率提升或液冷技術普及,其核心在于推動數據中心從傳統“房地產”模式向“超級計算機”模式全面轉型。
傳統數據中心的建設邏輯長期遵循“基建先行”原則,即先構建標準化供配電、制冷和網絡布線的“白色空間”,再由IT設備“拎包入住”。這種模式雖具備通用性和靈活性,卻難以滿足萬卡級AI集群的極端需求。以GPU為核心的萬卡集群本質上是“單一系統”,其系統架構、網絡拓撲和功耗管理均需高度定制化,迫使數據中心建設邏輯從“機房適配IT”轉向“IT定義機房”。
以NVIDIA DGX SuperPOD架構為例,其設計需預先鎖定GPU服務器型號、InfiniBand交換機布局、光纖連接方式及機柜峰值功耗(可達60kW至100kW)。這意味著土建、暖通和電氣設計必須從IT架構圖出發,而非傳統建筑圖紙。機電工程師需與IT架構師、網絡工程師協同,精確規劃液冷管路走向、配電單元點位及高密度光纖管理方案,將數據中心建設從“建筑設計”升級為“系統工程”。
在萬卡集群中,網絡的重要性首次超越計算本身,成為制約系統效能的關鍵瓶頸。大模型訓練依賴數千顆GPU的高頻集體通信(如All-Reduce操作),任何單顆GPU的延遲或數據包丟失均會導致整個集群算力空轉。這一特性使得InfiniBand網絡憑借RDMA技術和高效擁塞控制機制占據主導地位,但其高昂成本和復雜拓撲結構(如“胖樹”網絡)也帶來挑戰。與此同時,以太網陣營通過RoCE技術追趕,但需深度優化交換機、網卡和軟件協議棧以實現“無損”通信。
網絡性能直接決定集群有效算力利用率,迫使行業重新設計AI數據中心系統。網絡架構師的角色愈發關鍵,其需在成本、規模和效率間尋求平衡。例如,構建支撐萬卡節點的網絡,需規劃復雜的拓撲結構并完成高強度調試,這本身已成為一項全球性工程挑戰。
面對AI大模型“日新月異”的迭代速度,傳統數據中心18至24個月的建設周期已難以為繼。“上市時間”(Time to Market)成為算力競爭的生命線,推動交付模式從“工程項目”向“產品制造”轉型。工廠預制與模塊化集成成為核心解決方案,例如NVIDIA SuperPOD架構不僅提供硬件清單,更包含完整的“制造藍圖”。
在這一模式下,系統集成在工廠潔凈環境中完成,GPU服務器、網絡交換機、液冷歧管、PDU及管理軟件被預集成至“Pod”或“AI模塊”,并經高壓測試。現場部署則簡化為“樂高式”拼接,預制模塊運抵后僅需“即插即用”式組裝。這種模式將現場調試時間從數月壓縮至數周,但要求GPU廠商、網絡廠商、服務器廠商及數據中心運營商形成“命運共同體”,以一體化設計和聯合研發替代傳統分包模式。
萬卡AI集群的建設浪潮,標志著數據中心從“被動容納”向“主動生產”的范式轉移。其建設邏輯、系統瓶頸和交付模式的變革,正在重塑整個產業鏈。那些仍以“蓋房子”思維建設“超級計算機”的參與者,終將被這場革命的浪潮所淘汰。





















