在人工智能領域,算力集群的持續擴張正面臨前所未有的挑戰。如何確保算力隨著集群規模的擴大而線性增長,成為業界亟待解決的難題。傳統的并行計算方式,通過將模型參數與數據分散到多個GPU上協同作業,雖然能有效利用多GPU的算力,但同時也引發了數據交換需求的激增,對網絡帶寬提出了更高要求。
大模型訓練中的數據同步呈現出明顯的周期性特點,這意味著集群中的任何性能瓶頸,無論是鏈路擁塞還是設備故障,都可能對整個任務的進度與穩定性構成威脅。為了保持集群算力的線性擴展,構建能夠長期維持高帶寬、低延遲和穩定性能的互聯體系至關重要。然而,傳統網絡設計并未針對GPU間密集通信場景進行優化,難以滿足高強度AI負載的需求。
為了應對這一挑戰,業界開始探索以GPU為核心的全新網絡架構。這種架構從拓撲設計、協議選擇、鏈路管理到擁塞控制,均針對AI的特點進行了專門優化,旨在滿足GPU間高速通信的需求。在全球范圍內,這一難題的解決不僅依賴于硬件的堆疊,更需要一系列體系化的技術架構創新,包括拓撲優化、協議演進、鏈路管理與智能調度等方面的突破。
在這一背景下,阿里云與中國科學院計算技術研究所攜手,于2022年7月啟動了高通量以太網(ETH+)協議的制定工作。一年后,由雙方發起的“高通量以太網聯盟”正式成立,成員單位已超過50家,涵蓋了云廠商、芯片廠商、系統集成商、科研院所等多個領域。該聯盟致力于制定面向AI智算場景的高通量以太網協議,推動國內智算網絡標準化,并積極融入國際智算網絡組織,構建開源開放、融合共贏的產業生態。
在Scale-Out階段,“高通量以太網聯盟”率先提出了構建面向AI智算領域的以太網生態,并實現了Scale-Out網絡協議的收斂、協議標準發布及芯片化落地。例如,網卡芯片、交換芯片、硅光芯片等關鍵成果相繼問世,同時基于阿里云HPN架構體系,實現了全國產的落地方案。隨著戰局的不斷推進,超節點開始走進數據中心組網,Scale-Up場景成為關注焦點。在這一場景下,“高通量以太網聯盟”促進產業共識,推動協議制定和原型驗證,始終堅持Scale-Out和Scale-Up網絡融合發展的理念,并基于以太網大芯片容量和光互連技術,構建了全解耦的UPN(超性能網絡)架構解決方案。
在2025年8月14日于鄂爾多斯舉辦的高通量以太網聯盟年度發布會上,聯盟發布了涵蓋Scale-Up和Scale-Out網絡場景的多項重要成果。其中包括高通量以太網(ETH+)協議1.1聯盟標準的重磅發布,以及全量支持高通量以太網特性的首款國產400G智能網卡芯片、首款國產25.6T交換芯片、支持高通量以太網ERack+、ORack+的國產硅光芯片等。還推出了首款高通量以太網64超節點高超柜(ERack+)以及基于高通量以太網光互聯的超節點解決方案UPN 512。
高超柜在設計上充分考慮了高密高帶寬高速率的需求,相比其他Scale-Up技術方案,以太網交換芯片具有大帶寬、大Radix、高速率的優勢。同時,高超柜支持CPU和GPU的解耦和靈活配比,以適應不同業務需求。作為一個開放的系統,高超柜以開放架構支持高通量以太網生態的芯片和系統快速落地,從機柜到Switch tray、Compute tray,均采用開放解耦思想,便于不同芯片根據規范快速適配和集成。高超柜在關鍵部件選擇上均考慮了國產化,為國產化貢獻力量。
聯盟認為,Scale-Up場景的發展需要分階段推進。第一階段已經完成了高通量以太網協議1.1的發布以及ERACK+ 64原型系統的驗證。第二階段將推動UPN新型系統架構的設計和標準制定,構建基于以太網光互聯技術的分布式可擴展系統。隨著AI格局的快速重塑,不同企業的私有協議與聯盟此起彼伏,生態分化明顯。以太網憑借長期積累的生態與廣泛的兼容性,展現出獨特的規模優勢。為了將這一優勢進一步轉化為產業競爭力,“高通量以太網聯盟”正承擔起推動國產化與體系化落地的使命,致力于通過打造具備國際競爭力的智算網絡,實現AI智算大集群到AI智算大算力的質變。