在人工智能與機器人領域,陳佳玉的名字正逐漸被更多人熟知。這位兼具學術背景與產業實踐的年輕研究者,本科畢業于北京大學工學院,早期專注于自動駕駛技術研究,博士后階段在卡內基梅隆大學(CMU)將強化學習應用于核聚變反應堆控制,如今同時擔任香港大學博士生導師與原力無限資深研究科學家,將研究重心轉向通用家用機器人開發。
陳佳玉的科研軌跡始終圍繞復雜系統智能控制展開。從自動駕駛的感知與決策,到強化學習理論深化,再到核聚變等離子體控制,看似跨度極大的研究方向背后,是強化學習這一核心方法的貫穿。"無論是核聚變控制還是機器人操作,本質上都是用強化學習解決高維非線性連續控制問題。"他解釋道,這類問題需要定義觀測、動作與評價函數三個要素,傳統控制方法難以應對,而強化學習的優勢恰好在此。
這種技術路徑的選擇源于他對研究本質的追求。"強化學習的學習過程具有類人特性,其綜合了控制理論、統計學與優化理論,對數理基礎要求極高。"陳佳玉坦言,早期曾誤認為挑戰最難問題就是研究價值所在,如今更強調從需求出發:"用簡潔方式解決本質問題,既能影響廣泛領域,也符合工程實踐需求。"這種理念在他博士與博士后階段分別受兩位導師影響形成——博士導師Vanita Gawva教會他從數學原理剖析算法可行性,博后導師Joshua Rendell則讓他領悟到工程迭代的重要性。
當前陳佳玉正致力于持續性強化學習研究,試圖讓AI具備持續學習新任務而不遺忘舊知識的能力。"這需要理論突破與工程技術的雙重支撐。"他以正在開展的原型機研究為例,在原力無限聯合實驗室中,團隊既在算法層面探索理論創新,又通過快速工程迭代推動技術落地。這種雙軌并進的模式,源于他對學術研究與產業實踐耦合關系的深刻認知:"在港大做通用機器人研究面臨資金、場地與算力三重困境,而產業界能提供這些關鍵資源。"
選擇加入原力無限,陳佳玉看重的是其構建的商業-技術正向循環。該公司FORCE系列、MASTER COFFEE系列及輪式人形機器人AstroDroid AD-01的市場成功,證明了團隊的產品化能力。"更關鍵的是技術共識。"他強調,雙方都認同具身智能的未來在于"一腦多身"的通用物理世界模型,這種理念契合度促使他以創業合伙人身份深度參與。
對于為何聚焦家用機器人,陳佳玉從技術集成與市場需求兩個維度給出解釋:"機器人學是人工智能技術的試驗場,通用機器人需要整合CV、NLP、大模型、控制理論等多領域技術;而家庭場景對通用性的需求遠高于商業與工業場景,用戶不希望為不同任務配置專用機器人。"這種判斷使他將攀登具身智能高峰的目標鎖定在家庭場景。
面對大廠競爭,陳佳玉認為初創公司的機會在于找到專屬賽道:"必須選擇垂直領域深耕,通過快速落地驗證技術價值。"他預測短期機會在B端工業場景,但長期看C端家庭市場潛力更大:"工廠可部署專用機器人提升效率,而家庭需要的是能處理多種任務的通用型產品。"
在核心技術突破方向上,陳佳玉提出兩大重點:持續性強化學習與以Agent為中心的世界模型。針對后者,他批評當前多數世界模型研究采用第三人稱視角,缺乏對智能體行為指揮的針對性。"我們希望構建每個Agent獨有的世界模型,就像人類基于自身經驗理解物理世界。"這種差異化的研究路徑,體現在對因果建模的重視上——通過理解動作背后的物理原理(如杯子掉落會破碎),實現經驗遷移(從拿杯子到拿水壺)。
對于具身智能領域的技術評估,陳佳玉直言當前泛化性被高估,持續學習被忽視。"多數論文宣稱的泛化缺乏理論保證,而持續學習作為Richard Sutton和Ilya Sutskever都強調的難題,尚未得到足夠關注。"他預測行業將經歷任務泛化、推廣部署、場景泛化三個階段,其中數據飛輪的啟動是關鍵轉折點:"當千臺機器人部署到千個家庭持續產生數據時,算法突破與海量數據的結合可能催生跨場景通用機器人。"
作為年輕博導,陳佳玉給新入行研究者的建議強調問題定義與資源獲取的雙重重要性:"先確定真正重要的研究問題,再整合算力、設備、場景等資源。"他鼓勵學生拆解頂尖學者的研究體系,但拒絕盲從:"要博采眾長構建自己的認知框架,從中推導出獨特的研究問題。"這種方法論,或許正是他能在多個領域取得突破的關鍵。


















