當(dāng)人工智能在文本生成、圖像創(chuàng)作和視頻制作領(lǐng)域掀起變革浪潮時(shí),科學(xué)家們卻將目光投向了更深層的挑戰(zhàn)——如何讓AI真正理解物理世界的運(yùn)行邏輯。美國(guó)三院院士李飛飛近日在社交媒體發(fā)布的萬(wàn)字長(zhǎng)文《從語(yǔ)言到世界:空間智能是AI的下一個(gè)前沿》,在學(xué)術(shù)圈引發(fā)連鎖反應(yīng)。這位ImageNet數(shù)據(jù)庫(kù)的締造者直指當(dāng)前AI的致命缺陷:大語(yǔ)言模型和圖像分類器已觸及發(fā)展天花板,唯有突破空間智能瓶頸,才能開(kāi)啟真正的智能時(shí)代。
社交平臺(tái)上的"人工智障"現(xiàn)象暴露了現(xiàn)有技術(shù)的荒誕性。某用戶上傳的沙漠合影中,AI在添加駱駝時(shí)鬧出大笑話——兩只體型堪比猛犸象的駱駝?wù)驹诤⑼砗螅€額外"贈(zèng)送"了長(zhǎng)頸鹿脖子的蒼狐和兔子。OpenAI的文生視頻模型Sora更是在2024年春節(jié)期間貢獻(xiàn)了經(jīng)典案例:其生成的螞蟻視頻中,這些六足生物竟集體"截肢"成四條腿。這種常識(shí)性錯(cuò)誤讓AI領(lǐng)域兩位泰斗級(jí)人物罕見(jiàn)達(dá)成共識(shí):楊立昆揶揄"螞蟻確實(shí)有六條腿",而加里·馬庫(kù)斯則警告"今天搞錯(cuò)螞蟻,明天就可能算錯(cuò)月球軌道"。升級(jí)后的Sora2雖然畫(huà)面流暢度提升,但男子揮舞的棍子流蘇時(shí)隱時(shí)現(xiàn),再次印證了AI在物理邏輯上的根本缺陷。
西湖大學(xué)空間智能實(shí)驗(yàn)室負(fù)責(zé)人劉沛東指出,當(dāng)前AI系統(tǒng)的核心困境在于缺乏對(duì)物理世界的常識(shí)性認(rèn)知。這種缺陷導(dǎo)致無(wú)論文本還是多模態(tài)模型,生成內(nèi)容都可能因缺失"內(nèi)在錨點(diǎn)"而違背常理。他以"買咖啡"的指令為例,強(qiáng)調(diào)真正智能體需要具備自主拆解任務(wù)、規(guī)劃路徑并應(yīng)對(duì)環(huán)境變化的能力。這種能力恰恰依賴于對(duì)三維空間的感知、推理與行動(dòng)閉環(huán),而這正是空間智能的核心要義。
空間智能概念源自教育心理學(xué)領(lǐng)域。上世紀(jì)八十年代,霍華德·加德納在多元智能理論中將其定義為對(duì)空間信息的感知、理解與操作能力。這種人類與生俱來(lái)的本能,在文明進(jìn)程中屢建奇功:埃拉托色尼通過(guò)日影測(cè)量地球周長(zhǎng),哈格里夫斯用空間構(gòu)想革新紡織機(jī)械,沃森與克里克通過(guò)分子模型破解DNA結(jié)構(gòu)。當(dāng)科學(xué)家將這種能力遷移至AI領(lǐng)域時(shí),發(fā)現(xiàn)其涉及三維思維、圖形敏感性和空間想象等多個(gè)維度,是連接數(shù)字世界與物理世界的橋梁。
產(chǎn)業(yè)界已涌現(xiàn)出空間智能的初步應(yīng)用:手機(jī)AR測(cè)量工具、VR眼鏡、掃地機(jī)器人,甚至能握手互動(dòng)的機(jī)器狗。但這些技術(shù)仍存在明顯短板——掃地機(jī)器人常因環(huán)境雜亂導(dǎo)致傳感器誤判,自動(dòng)駕駛系統(tǒng)在復(fù)雜路況下仍存在安全隱患。劉沛東分析稱,理想的空間智能應(yīng)構(gòu)建"感知-推理-行動(dòng)"的完整鏈條,當(dāng)前技術(shù)雖在感知和執(zhí)行層面取得進(jìn)展,但缺乏理解物理規(guī)則、進(jìn)行因果預(yù)測(cè)的內(nèi)部模型。例如自動(dòng)駕駛汽車能識(shí)別常規(guī)障礙物,卻難以通過(guò)地上小球推斷出即將沖出的孩童。
世界模型成為突破空間智能的關(guān)鍵路徑。這種模仿人類大腦"內(nèi)部世界"構(gòu)建能力的工具,能讓AI像人類一樣整合感官信息,對(duì)物理世界進(jìn)行直覺(jué)推理。2025年科技產(chǎn)業(yè)掀起世界模型研發(fā)熱潮:英偉達(dá)在CES展上推出Cosmos模型,可生成"物理感知"視頻;群核科技開(kāi)源的SpatialLM模型登上HuggingFace趨勢(shì)榜第二;谷歌DeepMind發(fā)布的Genie 3支持實(shí)時(shí)交互,為游戲開(kāi)發(fā)和創(chuàng)意設(shè)計(jì)開(kāi)辟新可能;李飛飛參與創(chuàng)立的World Lab更推出首款多模態(tài)產(chǎn)品Marble,用戶可通過(guò)文本、照片或3D布局圖生成可編輯的虛擬環(huán)境。
盡管前景廣闊,世界模型仍面臨多重挑戰(zhàn)。真實(shí)世界的復(fù)雜性與不確定性遠(yuǎn)超現(xiàn)有數(shù)學(xué)模型的處理能力,地球內(nèi)部構(gòu)造等難以獲取的數(shù)據(jù)限制著模型精度,暗物質(zhì)等未解物理現(xiàn)象更造成實(shí)驗(yàn)數(shù)據(jù)缺口。這些難題提醒著科技界:打造真正理解物理世界的AI,既需要顛覆性的理論突破,也離不開(kāi)跨學(xué)科的協(xié)同攻關(guān)。當(dāng)芯片巨頭、科研機(jī)構(gòu)和初創(chuàng)公司紛紛押注這條新賽道時(shí),人類距離"像人一樣干活"的智能體,或許還有很長(zhǎng)的路要走。





















