在今年8月舉辦的世界機器人大會(WRC)上,宇樹科技創(chuàng)始人王興興針對當下熱門的VLA(視覺語言動作模型)技術(shù)路線發(fā)表了質(zhì)疑性觀點,在業(yè)內(nèi)引發(fā)廣泛討論。他直言不諱地表示,這種架構(gòu)設(shè)計相對簡單,存在一定局限性。
王興興的核心論點在于,當VLA模型與現(xiàn)實世界交互時,其依賴的數(shù)據(jù)在質(zhì)量和數(shù)量上都難以滿足實際需求。他認為這種技術(shù)路徑在實際應(yīng)用中可能面臨數(shù)據(jù)瓶頸,進而影響整體表現(xiàn)。
針對這一爭議,理想汽車自動駕駛研發(fā)高級副總裁郎咸朋近日通過微博長文作出回應(yīng)。他解釋稱,此前未公開表態(tài)主要有兩個原因:一是理想汽車的VLA司機大模型尚未正式發(fā)布,缺乏實證依據(jù);二是公司對具身機器人領(lǐng)域仍處于持續(xù)觀察階段。
郎咸朋明確指出,他與王興興的核心分歧在于技術(shù)側(cè)重點的不同。在他看來,模型架構(gòu)固然重要,但更重要的是與具身智能系統(tǒng)的整體適配性,而數(shù)據(jù)質(zhì)量才是決定性因素。他強調(diào):"脫離真實場景的海量數(shù)據(jù),任何模型架構(gòu)都如同空中樓閣。"
理想汽車自9月正式發(fā)布VLA技術(shù)以來,經(jīng)過三個月的實踐驗證,形成了兩大核心認知:首先,VLA是自動駕駛領(lǐng)域最優(yōu)的模型解決方案;其次,具身智能的競爭本質(zhì)上是系統(tǒng)能力的比拼。郎咸朋透露,該技術(shù)本質(zhì)上屬于生成式模型,采用類似GPT的架構(gòu),但生成的不是文本而是車輛控制指令。
用戶反饋顯示,理想VLA在某些場景下已展現(xiàn)出對物理世界的認知能力。相比傳統(tǒng)端到端系統(tǒng),新模型能產(chǎn)生更多擬人化駕駛行為,這得益于其獨特的訓(xùn)練方式。世界模型在自動駕駛中更適合作為評估標準而非訓(xùn)練主體,真實道路數(shù)據(jù)才是技術(shù)突破的關(guān)鍵。
在數(shù)據(jù)獲取方面,理想汽車具有顯著優(yōu)勢。公司不僅擁有超過10億公里的存量駕駛數(shù)據(jù),還能通過150萬輛在售車型持續(xù)收集新數(shù)據(jù),構(gòu)建了完整的數(shù)據(jù)閉環(huán)系統(tǒng)。這種規(guī)模的數(shù)據(jù)積累,使得理想在現(xiàn)有算力條件下就能實現(xiàn)接近人類水平的駕駛能力。
郎咸朋特別強調(diào),自動駕駛研發(fā)必須以整體系統(tǒng)視角推進。理想汽車組建了跨部門協(xié)作團隊,將自動駕駛算法、基座模型、芯片研發(fā)和底盤控制等模塊深度整合,確保各環(huán)節(jié)協(xié)同優(yōu)化。這種系統(tǒng)化研發(fā)模式,正是理想堅持VLA技術(shù)路線的重要原因。
理想汽車創(chuàng)始人李想近期提出,未來五到十年具身機器人將呈現(xiàn)兩大發(fā)展方向:車載移動機器人和仿人形機器人。公司規(guī)劃顯示,VLA技術(shù)不僅將應(yīng)用于現(xiàn)有車型,還將為未來車載機器人提供核心支持,形成技術(shù)協(xié)同效應(yīng)。




















