在具身智能領(lǐng)域,讓雙足人形機(jī)器人像人類一樣完成裝箱、搬運(yùn)、推車等移動(dòng)操作任務(wù),始終是科研人員努力的方向。近期,由香港大學(xué)、智元AGIBOT、復(fù)旦大學(xué)以及上海創(chuàng)智學(xué)院組成的聯(lián)合研究團(tuán)隊(duì),取得了一項(xiàng)重要成果——提出WholeBodyVLA框架,為雙足人形機(jī)器人的自主全身控制開辟了新路徑。
該研究基于智元靈犀X2展開,將視覺語言動(dòng)作模型(VLA)拓展至雙足人形機(jī)器人的全身控制范疇,并成功驗(yàn)證了其在全身移動(dòng)操作任務(wù)中的可行性。與原地操作不同,移動(dòng)操作面臨更為復(fù)雜的挑戰(zhàn)。其難點(diǎn)并非掌握單一技能,而是要求行走與操作在同一任務(wù)中長時(shí)間、穩(wěn)定地協(xié)同進(jìn)行。
圍繞這一難題,WholeBodyVLA框架總結(jié)出制約移動(dòng)操作發(fā)展的兩大核心問題:真機(jī)數(shù)據(jù)稀缺以及運(yùn)動(dòng)執(zhí)行過程中的不穩(wěn)定性。在人形機(jī)器人執(zhí)行移動(dòng)操作任務(wù)時(shí),數(shù)據(jù)采集的難度和成本遠(yuǎn)高于原地操作。通常需要多名數(shù)采員同時(shí)協(xié)作,通過遙操讓機(jī)器人上半身進(jìn)行操作、下半身完成行走。這一過程往往借助混合方案實(shí)現(xiàn),比如用VR控制上半身、遙控器控制下半身,但這種方式操作流程繁瑣、效率低下;若采用全身動(dòng)捕系統(tǒng),又會(huì)面臨高昂的價(jià)格。
同時(shí),移動(dòng)操作對運(yùn)動(dòng)精準(zhǔn)性和穩(wěn)定性的要求極高。與單純的操作相比,任何細(xì)微的偏差都可能使目標(biāo)操作物體脫離相機(jī)視野和工作空間。即便VLA輸出了正確的運(yùn)動(dòng)指令,下半身控制器仍可能出現(xiàn)執(zhí)行失誤,例如走歪、踉蹌等情況。
為攻克這些難題,研究團(tuán)隊(duì)在WholeBodyVLA框架中引入了兩項(xiàng)關(guān)鍵創(chuàng)新。一方面,從人類視頻中學(xué)習(xí)移動(dòng)與操作的潛在動(dòng)作。該框架通過第一視角的人類視頻學(xué)習(xí)相關(guān)動(dòng)作,其中操作相關(guān)的潛在動(dòng)作基于AgiBot World數(shù)據(jù)集進(jìn)行建模。另一方面,設(shè)計(jì)了面向移動(dòng)操作的強(qiáng)化學(xué)習(xí)(RL)控制器。將通用連續(xù)運(yùn)動(dòng)控制目標(biāo)簡化為一組離散運(yùn)動(dòng)指令,僅保留移動(dòng)操作必要的強(qiáng)化學(xué)習(xí)訓(xùn)練目標(biāo),從而大幅提升控制器在運(yùn)動(dòng)執(zhí)行時(shí)的穩(wěn)定性。
研究團(tuán)隊(duì)在智元靈犀X2人形機(jī)器人上開展了大量真機(jī)實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,WholeBodyVLA框架使機(jī)器人具備了大范圍、長程移動(dòng)操作任務(wù)的能力,在距離、操作和地形等方面都展現(xiàn)出良好的泛化性。






















