成人国产在线视频,国产成人尤物精品一区,欧日韩美香蕉在线观看

小米MiMo-VL大模型開源，多模態(tài)推理能力領(lǐng)先同尺寸標(biāo)桿Qwen2.5-VL-7B

發(fā)布時間：2025-05-30 16:13 來源：ITBEAR 作者：馮璃月

小米公司近日宣布了一項重大進展，其多模態(tài)大模型Xiaomi MiMo-VL已正式向公眾開放源代碼。這一消息由Xiaomi MiMo官方公眾號發(fā)布，標(biāo)志著小米在人工智能領(lǐng)域邁出了重要一步。

據(jù)官方介紹，Xiaomi MiMo-VL在多模態(tài)任務(wù)上表現(xiàn)出色，尤其在圖片、視頻、語言通用問答及理解推理等方面，相較于同尺寸的多模態(tài)標(biāo)桿模型Qwen2.5-VL-7B，有著顯著的優(yōu)勢。更為引人注目的是，在GUI Grounding任務(wù)上，MiMo-VL的表現(xiàn)甚至可以與專用模型相媲美，預(yù)示著其在智能代理（Agent）時代的巨大潛力。

特別MiMo-VL-7B版本在保持小米MiMo-7B純文本推理能力的基礎(chǔ)上，進一步在多模態(tài)推理任務(wù)上取得了突破。僅需7B參數(shù)規(guī)模，它就在奧林匹克競賽（OlympiadBench）及多個數(shù)學(xué)競賽（MathVision、MathVerse）中，大幅領(lǐng)先參數(shù)規(guī)模達10倍的阿里Qwen-2.5-VL-72B和QVQ-72B-Preview，甚至超越了閉源模型GPT-4o。

在小米內(nèi)部進行的大模型競技場評估中，MiMo-VL-7B同樣表現(xiàn)出色，超越了GPT-4o，成為開源模型中的佼佼者。這一成就不僅驗證了MiMo-VL的卓越性能，也彰顯了小米在人工智能技術(shù)研發(fā)方面的深厚實力。

MiMo-VL-7B的應(yīng)用場景廣泛，能夠完成復(fù)雜的圖片推理和問答任務(wù)。在長達10多步的GUI操作上，它也展現(xiàn)出了不俗的潛力。例如，用戶可以通過MiMo-VL-7B輕松地將小米SU7添加到心愿單中，享受更加便捷的智能體驗。

小米表示，MiMo-VL的成功得益于高質(zhì)量的預(yù)訓(xùn)練數(shù)據(jù)以及創(chuàng)新的混合在線強化學(xué)習(xí)算法（MORL）。為了訓(xùn)練這一模型，小米收集了涵蓋圖片-文本對、視頻-文本對、GUI操作序列等多種類型的高質(zhì)量數(shù)據(jù)，總計達到2.4T tokens。通過分階段調(diào)整不同類型數(shù)據(jù)的比例，小米強化了模型的長程多模態(tài)推理能力。同時，混合文本推理、多模態(tài)感知+推理、RLHF等反饋信號，并通過在線強化學(xué)習(xí)算法穩(wěn)定加速訓(xùn)練，全方位提升了模型的推理、感知性能和用戶體驗。

目前，MiMo-VL-7B的RL前后兩個模型已經(jīng)開源，并提供了相應(yīng)的技術(shù)報告和測評任務(wù)框架。感興趣的開發(fā)者可以前往Huggingface和GitHub平臺獲取更多信息，共同探索人工智能技術(shù)的無限可能。

更多>同類內(nèi)容

午夜日韩久久影院,亚洲欧美在线观看首页,国产情侣真实露脸在线最新,一级毛片在线观看免费

小米MiMo-VL大模型開源，多模態(tài)推理能力領(lǐng)先同尺寸標(biāo)桿Qwen2.5-VL-7B