近日,國產大模型月之暗面推出了其最新的視覺思考模型k1,這一創新成果基于強化學習技術,實現了端到端的圖像理解和思維鏈技術的原生支持,并將應用范圍拓展至數學以外的多個基礎科學領域。
k1模型已全面上線于月之暗面智能助手的Android、iPhone應用以及官方網站kimi.com。用戶只需在最新版本的手機應用或網頁端Kimi+頁面中找到“Kimi視覺思考版”,即可通過拍照或上傳圖片的方式,體驗這一前沿技術。
據透露,在針對數學、物理、化學等基礎科學學科的基礎能力測試中,k1模型的表現超越了全球知名的OpenAI o1、GPT-4o以及Claude 3.5 Sonnet等模型,展現了其強大的實力。
月之暗面官方表示,k1模型真正實現了端到端的圖像理解和思考能力,用戶輸入的圖像信息可以直接被模型處理并思考得出答案,無需依賴外部的OCR技術或額外的視覺模型進行信息預處理。這一特性使得k1模型在圖像理解和處理方面更加高效和準確。
從模型訓練的角度來看,k1的訓練過程經歷了兩個階段:首先通過預訓練獲得基礎模型,然后在基礎模型的基礎上進行強化學習后訓練。在預訓練階段,k1模型重點優化了字符識別能力,在OCRBench上取得了903分的當前最優成績,并在多個基準測試集上表現出色。
在強化學習后訓練階段,k1模型在數據質量和學習效率方面進行了進一步優化,并在強化學習的規模化上取得了新的突破。這是k1視覺推理模型在基準測試中取得行業領先成績的最關鍵因素。然而,月之暗面也坦誠地表示,在內部測試中,他們發現k1視覺思考模型在某些方面仍存在局限性,如分布外泛化能力、復雜問題處理成功率、噪聲場景準確率以及多輪問答效果等,都有待進一步提升。
盡管k1模型在某些場景和泛化能力上與OpenAI的o1系列模型相比仍有差距,但其作為國產大模型的一次重要突破,無疑為圖像理解和思考技術的發展注入了新的活力。