一臺(tái)被稱為“全球最小超算”的設(shè)備——NVIDIA DGX Spark,近日引發(fā)科技圈廣泛關(guān)注。這款專為科研人員、數(shù)據(jù)科學(xué)家和學(xué)生設(shè)計(jì)的個(gè)人AI超級(jí)計(jì)算機(jī),憑借其強(qiáng)大的性能和獨(dú)特的定位,成為許多AI愛(ài)好者討論的焦點(diǎn)。其售價(jià)約3萬(wàn)元人民幣,官方宣稱能夠?yàn)樽烂婕?jí)AI開(kāi)發(fā)提供強(qiáng)大支持,但實(shí)際表現(xiàn)究竟如何?
DGX Spark搭載了GB10 Grace Blackwell超級(jí)芯片,具備1 PFLOP的稀疏FP4張量計(jì)算能力,性能介于未來(lái)的RTX 5070和RTX 5070 Ti之間。其128GB統(tǒng)一內(nèi)存可輕松運(yùn)行千億級(jí)別的大模型,但273 GB/s的內(nèi)存帶寬成為明顯短板。這一限制導(dǎo)致設(shè)備在解碼階段表現(xiàn)平平,盡管算力強(qiáng)勁,但數(shù)據(jù)傳輸速度較慢,影響了整體體驗(yàn)。有用戶形容其“腦子轉(zhuǎn)得快,但嘴巴跟不上”。
評(píng)測(cè)數(shù)據(jù)顯示,DGX Spark在處理1200億參數(shù)的大模型時(shí)表現(xiàn)穩(wěn)定,但在解碼階段的每秒生成詞元數(shù)(TPS)僅為33.1,遠(yuǎn)低于高端游戲顯卡RTX 5090的1800 GB/s帶寬。這種差距在運(yùn)行較小模型或低批次任務(wù)時(shí)尤為明顯。例如,在批次大小為1的情況下,每秒解碼詞元數(shù)僅為20個(gè),而當(dāng)批次大小提升至32時(shí),這一數(shù)值可上升至370。這表明,DGX Spark更適合處理大批量任務(wù),但在單任務(wù)效率上仍有提升空間。
為了突破帶寬限制,一些極客團(tuán)隊(duì)嘗試了創(chuàng)新方案。EXO Lab團(tuán)隊(duì)將DGX Spark與Mac Studio M3 Ultra結(jié)合使用,利用后者819 GB/s的帶寬優(yōu)勢(shì),將大模型推理速度整體提升了2.8倍。他們通過(guò)流水線式分層計(jì)算與傳輸技術(shù),使DGX Spark負(fù)責(zé)預(yù)填充階段,而Mac Studio承擔(dān)解碼任務(wù)。這種“PD分離”模式雖然有效,但成本也大幅增加,兩臺(tái)設(shè)備組合的價(jià)格接近10萬(wàn)元人民幣,顯得過(guò)于奢侈。
盡管存在短板,DGX Spark的應(yīng)用場(chǎng)景依然豐富。官方提供了超過(guò)20種開(kāi)箱即用的玩法,涵蓋視頻生成、圖像創(chuàng)作、工具調(diào)用和多智能體助手搭建等領(lǐng)域。例如,用戶可以利用ComfyUI框架和阿里的Wan 2.2 14B模型生成視頻,或通過(guò)LM Studio在本地運(yùn)行大模型。設(shè)備運(yùn)行時(shí)的噪音控制也受到好評(píng),即使在高溫下仍保持安靜。
DGX Spark的出現(xiàn),標(biāo)志著個(gè)人AI計(jì)算設(shè)備進(jìn)入了一個(gè)新階段。它不僅為科研和開(kāi)發(fā)提供了強(qiáng)大的工具,也引發(fā)了關(guān)于本地AI應(yīng)用邊界的思考。當(dāng)每個(gè)人都能擁有一臺(tái)超算時(shí),我們究竟能用它做什么?這個(gè)問(wèn)題或許比設(shè)備本身的性能更值得探討。隨著更多評(píng)測(cè)結(jié)果和使用指南的發(fā)布,DGX Spark的真實(shí)價(jià)值將逐漸清晰。





















