谷歌在機(jī)器人技術(shù)領(lǐng)域的探索再次邁出重要一步,近日宣布推出Gemini Robotics On-Device模型,這一升級(jí)版模型標(biāo)志著谷歌在“視覺(jué)語(yǔ)言動(dòng)作”(VLA)技術(shù)上的又一突破。
據(jù)谷歌官方介紹,Gemini Robotics On-Device是迄今為止他們最強(qiáng)大的VLA模型,經(jīng)過(guò)深度優(yōu)化,實(shí)現(xiàn)了在機(jī)器人設(shè)備上的本地運(yùn)行。這一特性使得該模型能夠在不依賴(lài)外部數(shù)據(jù)網(wǎng)絡(luò)的情況下穩(wěn)定運(yùn)行,對(duì)于延遲敏感的應(yīng)用場(chǎng)景尤為關(guān)鍵,特別是在網(wǎng)絡(luò)不穩(wěn)定或無(wú)網(wǎng)絡(luò)連接的環(huán)境中。
谷歌DeepMind的高級(jí)總監(jiān)兼機(jī)器人主管表示,Gemini Robotics On-Device專(zhuān)為雙臂機(jī)器人設(shè)計(jì),旨在提升機(jī)器人在復(fù)雜任務(wù)中的靈巧性和適應(yīng)性。這一模型是在今年3月推出的Gemini Robotics基礎(chǔ)上升級(jí)而來(lái),通過(guò)大數(shù)據(jù)訓(xùn)練,機(jī)器人能夠執(zhí)行更加精細(xì)的動(dòng)作。
在一次演示中,谷歌團(tuán)隊(duì)展示了搭載這一本地模型的機(jī)器人,它們能夠輕松完成拉開(kāi)拉鏈、折疊衣物等基本任務(wù),展現(xiàn)了模型在實(shí)際應(yīng)用中的潛力。
谷歌還發(fā)布了Gemini Robotics SDK,為開(kāi)發(fā)人員提供了在MuJoCo高級(jí)物理模擬器上使用這些模型的平臺(tái)。開(kāi)發(fā)人員可以通過(guò)向機(jī)器人展示50到100個(gè)任務(wù)演示來(lái)訓(xùn)練它們,進(jìn)一步提升機(jī)器人的任務(wù)執(zhí)行能力。
值得注意的是,與單純的大語(yǔ)言模型相比,機(jī)器人AI面臨著更多的挑戰(zhàn)。機(jī)器人不僅存在于物理世界中,還會(huì)改變其環(huán)境,因此安全問(wèn)題尤為重要。谷歌為保障Gemini Robotics的安全,采用了多層限制的策略。控制機(jī)器人的底層VLA模型之上,還有一個(gè)上級(jí)VLA模型,通過(guò)推理模型來(lái)判斷指令的安全性,實(shí)現(xiàn)了“AI管理AI”的安全機(jī)制。
隨著谷歌在機(jī)器人技術(shù)領(lǐng)域的不斷深耕,越來(lái)越多的公司也開(kāi)始關(guān)注這一新賽道。包括Nvidia在內(nèi)的眾多企業(yè)都在秘密研發(fā)自己的機(jī)器人項(xiàng)目,預(yù)示著未來(lái)機(jī)器人AI領(lǐng)域的競(jìng)爭(zhēng)將更加激烈。在國(guó)內(nèi),同樣有眾多企業(yè)在這一領(lǐng)域默默耕耘,期待他們?cè)谖磥?lái)的AI大戰(zhàn)中嶄露頭角。