午夜日韩久久影院,亚洲欧美在线观看首页,国产情侣真实露脸在线最新,一级毛片在线观看免费

資訊在沃

昆侖萬維引領(lǐng)科技前沿,開源R1V多模態(tài)視覺思維鏈推理模型

   發(fā)布時間:2025-03-18 17:22 作者:顧雨柔

昆侖萬維近日宣布了一項重大技術(shù)突破,正式向公眾開源了其自主研發(fā)的多模態(tài)思維鏈推理模型Skywork R1V。此舉標(biāo)志著昆侖萬維成為中國首個在多模態(tài)推理模型領(lǐng)域進(jìn)行開源的企業(yè),同時開放了模型的權(quán)重和技術(shù)報告,供業(yè)界研究與使用。

Skywork R1V模型的權(quán)重可通過Hugging Face和GitHub兩大平臺下載,分別對應(yīng)的鏈接為:https://huggingface.co/Skywork/Skywork-R1V-38B和https://github.com/SkyworkAI/Skywork-R1V。

據(jù)了解,Skywork R1V是一款專注于解決復(fù)雜視覺任務(wù)的推理模型,它通過多步邏輯推理與分析,能夠精準(zhǔn)解決視覺邏輯推理、視覺數(shù)學(xué)問題、科學(xué)現(xiàn)象分析以及醫(yī)學(xué)影像診斷等多種挑戰(zhàn)。在MATH500和AIME兩項權(quán)威基準(zhǔn)測試中,Skywork R1V分別取得了94.0和72.0的高分,展現(xiàn)出強(qiáng)大的邏輯推理與數(shù)學(xué)分析能力。

在視覺理解能力方面,Skywork R1V同樣表現(xiàn)出色。通過將文本推理與思維鏈推導(dǎo)能力遷移到視覺任務(wù)中,該模型在MMMU和MathVista兩項視覺推理基準(zhǔn)測試中分別獲得了69和67.5分的優(yōu)異成績。這些成就不僅證明了Skywork R1V在跨模態(tài)任務(wù)中的高效融合能力,也彰顯了其在復(fù)雜多模態(tài)任務(wù)中的卓越表現(xiàn)。

昆侖萬維團(tuán)隊在Skywork R1V模型中引入了三項關(guān)鍵技術(shù)創(chuàng)新。首先,他們首次提出了利用Skywork-VL的視覺投影器,實現(xiàn)了文本推理能力向視覺任務(wù)的高效遷移,同時保留了模型原本的優(yōu)秀文本推理能力。這一創(chuàng)新無需重新訓(xùn)練語言模型和視覺編碼器,大大提升了遷移效率和效果。

其次,團(tuán)隊采用了多模態(tài)混合式訓(xùn)練策略(Iterative SFT+GRPO),通過結(jié)合迭代監(jiān)督微調(diào)與GRPO強(qiáng)化學(xué)習(xí),分階段對齊視覺-文本表征,實現(xiàn)了跨模態(tài)任務(wù)的高效融合。這一策略不僅提升了模型在MMMU和MathVista等基準(zhǔn)測試中的表現(xiàn),還與更大規(guī)模的閉源模型基本持平。通過反復(fù)迭代地利用高質(zhì)量數(shù)據(jù)與高難度數(shù)據(jù)的組合,模型的知識鞏固與錯誤糾正能力得到了顯著提升。

最后,團(tuán)隊還提出了一種基于視覺-文本復(fù)雜度的自適應(yīng)推理鏈長度控制機(jī)制。這一機(jī)制能夠動態(tài)優(yōu)化模型的推理過程,避免“過度思考”,從而提升推理效率。結(jié)合多階段自蒸餾策略,進(jìn)一步提升了數(shù)據(jù)生成與推理過程的質(zhì)量,促進(jìn)了模型在復(fù)雜多模態(tài)任務(wù)中的表現(xiàn)。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新