華為近日正式宣布,其DeepSeek系列中的DeepSeek-R1、DeepSeek-V3、DeepSeek-V2以及Janus-Pro模型已在昇騰社區上線。這一系列舉措意味著用戶現在可以一鍵獲取DeepSeek系列模型,并且在昇騰硬件平臺上實現開箱即用的便捷體驗。
據悉,DeepSeek-V3模型早在2024年便推出了首個版本,并同步進行了開源。作為一款自研的MoE模型,DeepSeek-V3擁有671B的參數,其中37B被激活,并在14.8T的token數據上進行了預訓練。這樣的配置使其在多個評測中展現出了卓越的性能。
DeepSeek方面透露,DeepSeek-V3在多項評測中的表現已經超越了Qwen2.5-72B和Llama-3.1-405B等其他知名的開源模型。更令人矚目的是,在性能上,DeepSeek-V3與世界頂尖的閉源模型,如GPT-4o和Claude-3.5-Sonnet,也達到了相當的水平。這一成就無疑進一步提升了DeepSeek系列模型在行業內的地位和影響力。
為了幫助用戶更好地在昇騰社區獲取和使用DeepSeek-V3模型,以下將詳細介紹具體的操作步驟。以DeepSeek-V3為例,用戶首先需要確保滿足硬件要求,即部署該模型需要配置4臺Atlas 800I A2(8*64G)服務器資源。
接下來是模型調用的實踐環節。用戶需要完成權重轉換,盡管原文中GPU和NPU的具體轉換步驟未詳細列出,但用戶可以在昇騰社區找到相關的指導文檔。完成權重轉換后,用戶需要從昇騰社區的開發資源中下載適配DeepSeek-V3的鏡像包,具體為mindie:1.0.T71-800I-A2-py311-ubuntu22.04-arm64。下載完成后,使用docker images命令來查找并確認具體的鏡像名稱與標簽。
服務化測試是最后一步。用戶需要配置服務化環境變量,并啟用內存池擴展段功能,即虛擬內存特性。完成服務化參數的修改后,用戶可以拉起服務化。當屏幕上出現“Daemon start success!”的提示時,即表示服務已經成功啟動。
通過以上步驟,用戶就可以在昇騰社區高效地獲取并使用DeepSeek-V3模型了。這一流程的簡化和優化,無疑將進一步提升DeepSeek系列模型在行業內的普及度和應用率。