科大訊飛與華為昇騰攜手,在“飛星一號”平臺上實現了MoE模型集群推理性能的顯著提升。這一突破性進展,標志著國產算力在AI領域的應用邁出了重要一步。
據悉,雙方聯合團隊通過一系列創新優化手段,成功將MoE模型在“飛星一號”平臺上的集群推理性能翻倍。這一成就不僅彰顯了國產算力在處理復雜AI任務方面的潛力,更為AI技術的廣泛應用提供了有力支持。
在此次優化過程中,聯合團隊針對MoE模型的特性,升級了PD分離+大規模專家并行系統解決方案。他們通過定制集合通信協議,有效消除了集合通信流量沖突,解決了推理過程中Prefill階段和Decode階段的相互干擾問題。這一創新舉措使得P實例和D實例均達到了系統最優狀態,性能提升超過20%。
聯合團隊還在國產算力上實現了MTP多token預測技術,這一技術的引入顯著降低了MTP層的計算耗時,整體性能提升超過30%。同時,他們還對專家負載均衡算法進行了升級,實現了多DP負載均衡,卡間負載均衡差異小于8%,集群推理吞吐性能因此提升了30%以上。
聯合團隊還創新性地實現了異步雙發射技術。這一技術有效解決了高并發下的高CPU負載問題,實現了CPU和NPU的高效協同。通過降低服務請求調度耗時,系統性能得到了進一步提升,提升幅度達到10%。
基于上述一系列創新解決方案的迭代與升級,聯合團隊在“飛星一號”平臺上對星火MoE模型、DeepSeekV3/R1進行了實測。測試結果顯示,推理性能相較于上一個版本有了顯著提升,幾乎逼近了國產算力上MoE集群推理的性能上限。這一突破性進展無疑為國產算力在AI領域的應用注入了新的活力。