中國移動在人工智能領域取得了重大突破,其九天人工智能研究院研發的端側自主智能體模型JT-GUIAgent-V2,在谷歌AndroidWorld自主智能體動態基準評測國際榜單中榮登榜首。這一成就不僅彰顯了中國移動在端側復雜智能體系統人機交互技術上的國際領先實力,更為智能終端、智能網聯汽車、智能機器人等領域的智能化發展開辟了新路徑。
AndroidWorld作為谷歌研究人員聯合發布的高專業性與權威性基準測試平臺,為自主智能體提供了一個功能完備的Android環境。該環境包含了20款主流Android應用程序,并設計了116項涵蓋日程管理、信息交流、系統設置等日常活動的任務,確保了評測結果的高可重復性與可比性。在這樣的高標準下,JT-GUIAgent-V2以67.2%的任務成功率脫穎而出,超越了基于GPT-4o、Gemini2.5、Seed1.5-VL等基座模型驅動的多個GUI Agent框架和模型。
GUI Agent,即圖形用戶界面智能體,是一種前沿的人工智能代理系統。它能夠模擬人類操作指令,如點擊、輸入、拖拽、讀取界面信息等,實現復雜任務的自動化處理。JT-GUIAgent-V2就像端側的“自動駕駛系統”,能夠代替用戶與各種軟件應用進行自動交互,極大地提升了工作效率和用戶操作體驗。在信息消費“新三樣”——智能終端、智能網聯汽車、智能機器人等領域,GUI Agent的應用前景尤為廣闊。
然而,GUI Agent在實際應用中面臨著諸多挑戰,包括如何準確感知理解動態多變的多模型UI界面、如何高效推理復雜長鏈條任務、以及在任務執行過程中如何實現自動糾偏處理等。針對這些難題,九天GUI Agent進行了全面升級。JT-GUIAgent-V2在架構設計和智能規劃上實現了質的飛躍,相比之前的V1版本,在自然語言指令理解、UI元素多模態感知、目標任務識別推理以及自動化執行等方面均取得了顯著進步。
JT-GUIAgent-V2的核心技術優勢主要體現在兩大創新上。首先,它自主構建了兩階段的協同框架,包括全局規劃智能體(Planner)和感知定位智能體(Grounder)。Planner專注于高階策略規劃,提升了復雜任務推理能力和環境適應性;而Grounder則確保界面元素的精準識別與操作執行,二者協同工作,形成了完整的決策閉環。其次,JT-GUIAgent-V2創新性地引入了經驗驅動的智能規劃方法,通過實時融合用戶指令解析與應用操作經驗,實現了系統的動態決策優化,從而提升了規劃的精準性、降低了錯誤率,并使任務更加通用化。