在近日舉辦的2025智源具身Open Day活動上,智源研究院向外界全面展示了其在具身智能領域的最新研究成果,并組織多場行業(yè)圓桌討論,聚焦當前具身智能發(fā)展的核心議題。此次活動匯聚了眾多業(yè)內專家與企業(yè)代表,共同探討具身智能的未來方向。
智源研究院院長王仲遠在開場演講中,介紹了過去一年在具身智能方向取得的兩大關鍵進展:世界模型的突破與具身大腦全棧體系的構建。他重點介紹了原生多模態(tài)世界模型Emu3.5,該模型在訓練數(shù)據(jù)量和參數(shù)規(guī)模上均有顯著提升,訓練數(shù)據(jù)從15年視頻擴展至790年,參數(shù)規(guī)模從8B提升至34B。同時,引入自研DiDA技術,使視頻和圖像生成速度大幅提升,達到與Diffusion、DiT類模型相當?shù)乃健M踔龠h指出,Emu3.5不再局限于語言主導的“下一個Token預測”,而是專注于具身智能所需的“下一時空狀態(tài)預測”。
在具身大腦全棧體系方面,智源研究院正在構建跨異構本體的具身智能體系,包括RoboBrain(具身大腦)、RoboOS(跨本體操作系統(tǒng))和基于VLA的RoboBrain-0。這些模型已在多種形態(tài)的機器人本體上部署,能夠完成從導覽、導購到復雜交互的多樣化任務。智源還展示了在全身控制方向的能力,宇樹G1機器人在其控制框架BAAI Thor的支持下,成功完成拖動1.4噸汽車的實驗。
活動現(xiàn)場的圓桌討論環(huán)節(jié),圍繞多個關鍵問題展開深入探討。在“世界模型是不是實現(xiàn)具身智能的關鍵”這一議題上,王仲遠認為,如果世界模型僅停留在視頻生成層面,未必能成為具身智能的基座。北京大學助理教授、銀河通用創(chuàng)始人及首席技術官王鶴也強調,機器人需要的是根據(jù)自身形態(tài)和目標預測下一步狀態(tài)的世界模型,這類模型必須基于大量機器人專屬數(shù)據(jù)構建。
關于“具身智能是否需要統(tǒng)一架構”的問題,招商局集團AI首席科學家張家興提出,具身智能未來不應繼續(xù)沿用“大模型的語言中心范式”,而需要一套“先行動、再視覺、最后語言”的具身原生結構,以行動與感知為核心。智元機器人首席科學家羅劍嵐則認為,具身智能的最終“大模型”不會是單體模型,而是由VLA、世界模型和RL組成的閉環(huán)系統(tǒng)。
在數(shù)據(jù)層面,多位嘉賓強調了真實數(shù)據(jù)的重要性,認為機器人必須在真實場景中學習真實性、多樣性和規(guī)模化。王鶴指出,仿真數(shù)據(jù)是當前更現(xiàn)實的突破口,許多底層控制能力依賴大量強化學習,而這些訓練在真實世界中幾乎無法完成。王仲遠則認為,視頻數(shù)據(jù)是最容易大規(guī)模獲取且最接近真實世界的數(shù)據(jù)形式,其價值類似于孩子通過視頻認識世界,再通過真實交互提升技能。
當被問及“如果有100億元推進具身智能會如何分配”時,多位嘉賓給出了不同答案。自變量創(chuàng)始人兼CEO王潛認為,第一優(yōu)先級是吸納頂尖人才,其次是算力和數(shù)據(jù)投入。加速進化創(chuàng)始人兼CEO程昊則表示,100億元其實不夠,更重要的是用愿景吸引全球科研人才。星海圖聯(lián)合創(chuàng)始人趙行提出要打造覆蓋物理世界的最大數(shù)據(jù)引擎,張家興則希望將資金用于打造屬于具身智能的模型體系。
在另一場關于硬件的圓桌討論中,嘉賓們圍繞“人形機器人是否是具身智能的最終形態(tài)”展開辯論。多位嘉賓達成共識:模型與硬件并非相互定義,真正的決定要素是場景。星源智創(chuàng)始人兼CEO劉東認為,具身智能體系應分層構建,上層大模型可跨本體復用,但小腦層模型需根據(jù)硬件結構調整。北京人形機器人創(chuàng)新中心CTO唐劍直言,模型和硬件都無法單獨定義對方,場景才是決定機器人形態(tài)的關鍵因素。





















