近日,中國移動宣布其建設的國內運營商最大規模單集群智算中心——中國移動智算中心(哈爾濱)正式投入運營。這一里程碑式的成果,將為全國科技創新與產業升級注入強勁動力,標志著我國在智能算力領域邁出重要一步。
該智算中心在硬件配置上堪稱行業標桿,部署了超過1.8萬張AI加速卡,且全部采用國產芯片,國產化率達到100%。其智能算力規模高達6.9EFLOPS,即每秒可完成690億億次浮點運算。通過自主研發的國產網絡設備,所有加速卡被整合為一個超大規模集群,實現了1.8萬張卡的全量并行訓練與自動續訓功能,為萬億級參數模型訓練提供了穩定可靠的算力支撐。
在技術架構層面,中心采用參數面與數據面分離的RDMA組網方案。參數面帶寬達1.6Tbps,數據面吞吐量突破15TB/s,這種設計有效保障了大規模并行計算和復雜模型訓練的效率。更值得關注的是,該中心實現了三大技術突破:超大規模云化納管1.8萬張加速卡、萬卡級并行訓練能力,以及分鐘級斷點自動恢復訓練功能,這些創新顯著提升了大模型訓練的穩定性和資源利用率。
為確保系統穩定運行,移動云自主研發的智算管控平臺發揮了核心作用。該平臺具備三大核心能力:統一管理多類型AI加速卡的異構算力資源;對集群內計算、存儲、網絡等全量軟硬件進行一站式健康監測;實現AI任務全生命周期的精準調度與故障自動修復。當集群出現異常時,系統可在短時間內定位問題并恢復運行,為智算中心提供了可靠的技術保障。
隨著哈爾濱智算中心的投產,移動云的國產化算力服務能力得到質的提升。目前,移動云已形成覆蓋公有云、私有云、邊緣計算的多場景資源池建設方案,提供從硬件集成到性能調優的全流程服務。在模型適配方面,已完成LLaMA、GPT、GLM等數十款主流模型的云端遷移,構建起涵蓋預訓練、遷移學習、精調微調到推理部署的完整技術鏈條,能夠為企業客戶提供定制化的AI解決方案。





















