字節跳動旗下的Seed實驗室近日宣布了一項重要進展,正式推出了其最新一代多模態智能體——UI-TARS-1.5,并決定將其源代碼開放給公眾。這款智能體是基于視覺-語言模型設計的,能夠在虛擬環境中靈活執行各種任務,相較于其前代,UI-TARS-1.5在高級推理能力上實現了顯著提升。
UI-TARS-1.5在字節跳動早期提出的原生智能體UI-TARS的基礎上進行了全面升級,引入了強化學習技術,這一創新極大地增強了模型的高級推理能力。這意味著,在執行任務前,UI-TARS-1.5能夠進行更為細致的計劃和策略制定,從而確保行動的高效性和準確性。
該智能體的強大功能得益于四個核心技術的集成。首先是視覺感知能力的增強,通過大量界面截圖數據的訓練,模型能夠準確理解界面元素的語義和上下文信息,為決策提供了堅實的信息支撐。其次,UI-TARS-1.5引入了System 2推理機制,這一機制使得智能體能夠在執行動作前生成“思維”,支持對復雜任務進行多步驟規劃和決策,模擬了人類的深思熟慮過程。
UI-TARS-1.5還實現了統一動作建模,通過構建跨平臺的標準動作空間,并結合真實軌跡學習,智能體能夠更加精準地控制動作的執行,提高了動作的可控性和執行精度。最后,該智能體采用了可自我演化的訓練范式,通過自動化的交互軌跡采集和反思式訓練機制,模型能夠不斷從錯誤中學習,持續改進自身,以適應復雜多變的任務環境。
UI-TARS-1.5的研發團隊還提出了一個創新的愿景:利用游戲作為載體來增強基礎模型的推理能力。相較于數學、編程等專業領域,游戲更多地依賴于直觀的、常識性的推理,而對專業知識的依賴較少。因此,游戲成為了評估和提升未來模型通用能力的理想測試場景。
UI-TARS-1.5不僅僅是一個停留在理論層面的智能體,更是一個具備實際操作能力的“數字助手”。作為一個原生GUI智能體,它能夠真實地操作電腦和系統,操控瀏覽器,并完成各種復雜的交互任務。這一突破性的進展標志著字節跳動在人工智能領域取得了又一重要里程碑。