亞馬遜在AWS re:Invent大會上正式推出了其最新一代的AI訓練芯片Trainium3,并預告了Trainium4的研發計劃。這一舉措標志著亞馬遜在數據中心定制芯片領域進一步鞏固了其領先地位。Trainium3的發布不僅展示了其在性能上的飛躍,還體現了亞馬遜在硬件架構、系統設計及軟件生態方面的全面創新。
Trainium3在硬件設計上采取了多項創新,以優化總體擁有成本(TCO)下的性能。芯片采用臺積電的3納米N3P工藝,相比前代N5節點,N3P在相同漏電情況下速度提升約5%,或在相同頻率下功耗降低5%—10%。這一工藝升級使得Trainium3在性能和能效上均有了顯著提升。Trainium3的計算核心由8個大型NeuronCore組成,每個核心包含張量、矢量、標量和GPSIMD四個引擎,特別適合處理大規模生成式AI工作負載。
在內存和帶寬方面,Trainium3同樣進行了大幅升級。芯片配備了12層HBM3E內存,總容量達到144GB,內存帶寬提升至9.6Gbps,相比前代提升了70%。這一提升得益于亞馬遜從三星轉向海力士和美光的內存供應,從而實現了更高的引腳速度。Trainium3還支持PCIe Gen 6擴展,每條通道帶寬達到64Gbps,使得芯片間的擴展帶寬翻倍,支持高達1.2TB/s的單向擴展帶寬。
系統架構方面,Trainium3引入了獨特的交換式橫向擴展拓撲結構,相比前代的三維環形網格拓撲,這一設計在混合專家(MoE)模型架構下具有更高的絕對性能和更優的TCO表現。Trainium3提供了兩種機架式SKU:NL32x2 Switched和NL72x2 Switched,分別采用風冷和液冷散熱方式,以適應不同的數據中心環境。NL72x2 Switched機架設計尤為引人注目,它通過跨機架連接實現了144個芯片的全球規模,支持更大的模型并行計算需求。
在軟件生態方面,亞馬遜同樣進行了大規模的戰略轉型。AWS宣布開源其原生PyTorch后端、內核語言編譯器NKI以及內核和通信庫,旨在構建一個開放的開發者生態系統。這一舉措被視為對英偉達CUDA護城河的直接挑戰,亞馬遜希望通過吸引外部開發者貢獻,快速擴大其軟件棧的應用范圍。AWS還計劃在未來開源其XLA圖編譯器和JAX軟件棧,進一步鞏固其在AI軟件領域的地位。
Trainium3的發布不僅對亞馬遜自身意義重大,也對整個AI芯片市場產生了深遠影響。隨著Trainium3的逐步部署,亞馬遜將能夠更好地滿足內部和外部客戶對高性能、低成本AI訓練芯片的需求。同時,Trainium4的研發計劃也預示著亞馬遜在AI芯片領域的長期投入和持續創新。面對來自英偉達、谷歌和AMD等競爭對手的激烈競爭,亞馬遜憑借其全面的技術實力和靈活的市場策略,有望在AI芯片市場中占據更加有利的位置。





















