午夜日韩久久影院,亚洲欧美在线观看首页,国产情侣真实露脸在线最新,一级毛片在线观看免费

資訊在沃

小米MiMo-VL大模型開源,多模態(tài)推理能力領(lǐng)先同尺寸標(biāo)桿Qwen2.5-VL-7B

   發(fā)布時間:2025-05-30 16:13 作者:馮璃月

小米公司近日宣布了一項重大進展,其多模態(tài)大模型Xiaomi MiMo-VL已正式向公眾開放源代碼。這一消息由Xiaomi MiMo官方公眾號發(fā)布,標(biāo)志著小米在人工智能領(lǐng)域邁出了重要一步。

據(jù)官方介紹,Xiaomi MiMo-VL在多模態(tài)任務(wù)上表現(xiàn)出色,尤其在圖片、視頻、語言通用問答及理解推理等方面,相較于同尺寸的多模態(tài)標(biāo)桿模型Qwen2.5-VL-7B,有著顯著的優(yōu)勢。更為引人注目的是,在GUI Grounding任務(wù)上,MiMo-VL的表現(xiàn)甚至可以與專用模型相媲美,預(yù)示著其在智能代理(Agent)時代的巨大潛力。

特別MiMo-VL-7B版本在保持小米MiMo-7B純文本推理能力的基礎(chǔ)上,進一步在多模態(tài)推理任務(wù)上取得了突破。僅需7B參數(shù)規(guī)模,它就在奧林匹克競賽(OlympiadBench)及多個數(shù)學(xué)競賽(MathVision、MathVerse)中,大幅領(lǐng)先參數(shù)規(guī)模達10倍的阿里Qwen-2.5-VL-72B和QVQ-72B-Preview,甚至超越了閉源模型GPT-4o。

在小米內(nèi)部進行的大模型競技場評估中,MiMo-VL-7B同樣表現(xiàn)出色,超越了GPT-4o,成為開源模型中的佼佼者。這一成就不僅驗證了MiMo-VL的卓越性能,也彰顯了小米在人工智能技術(shù)研發(fā)方面的深厚實力。

MiMo-VL-7B的應(yīng)用場景廣泛,能夠完成復(fù)雜的圖片推理和問答任務(wù)。在長達10多步的GUI操作上,它也展現(xiàn)出了不俗的潛力。例如,用戶可以通過MiMo-VL-7B輕松地將小米SU7添加到心愿單中,享受更加便捷的智能體驗。

小米表示,MiMo-VL的成功得益于高質(zhì)量的預(yù)訓(xùn)練數(shù)據(jù)以及創(chuàng)新的混合在線強化學(xué)習(xí)算法(MORL)。為了訓(xùn)練這一模型,小米收集了涵蓋圖片-文本對、視頻-文本對、GUI操作序列等多種類型的高質(zhì)量數(shù)據(jù),總計達到2.4T tokens。通過分階段調(diào)整不同類型數(shù)據(jù)的比例,小米強化了模型的長程多模態(tài)推理能力。同時,混合文本推理、多模態(tài)感知+推理、RLHF等反饋信號,并通過在線強化學(xué)習(xí)算法穩(wěn)定加速訓(xùn)練,全方位提升了模型的推理、感知性能和用戶體驗。

目前,MiMo-VL-7B的RL前后兩個模型已經(jīng)開源,并提供了相應(yīng)的技術(shù)報告和測評任務(wù)框架。感興趣的開發(fā)者可以前往Huggingface和GitHub平臺獲取更多信息,共同探索人工智能技術(shù)的無限可能。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新