在近期舉辦的小米“人車家全生態合作伙伴大會”上,小米MiMo團隊負責人羅福莉首次登臺演講,引發行業高度關注。這位前DeepSeek核心成員的加入,被視為小米AI研發邁向專業化與極客化的重要標志。市場期待她能延續在DeepSeek時期的創新風格,為小米帶來兼具效率與突破性的AI模型,而她的極客氣質與小米初創基因的融合,更被寄予厚望。
盡管首次亮相略顯緊張,羅福莉仍不負眾望,推出了高效模型MiMo-V2-Flash,并分享了小米對通用人工智能(AGI)的新構想。她指出,當前多數模型僅具備“完美的語言外殼”,卻缺乏對物理世界的真實模擬能力。在她看來,真正的智能應源于與環境的交互,而非單純依賴程序構建。通往AGI的關鍵,在于推演世界運作邏輯,構建一個具備物理一致性的虛擬宇宙。
MiMo-V2-Flash的開源模型延續了DeepSeek的技術基因,采用混合專家(MoE)架構與多令牌預測(MTP)技術,在效率與成本間實現突破。該模型總參數達309B,但通過動態激活機制僅需15B參數即可運行,結合MTP技術,生成速度達150 tokens/秒,較傳統模型提升約2.5倍。這一設計主要針對車機、智能助手等對延遲敏感的端側場景,通過固定KV緩存降低硬件壓力,同時支持256K長上下文處理,并在代碼生成任務中刷新行業紀錄。
在成本控制方面,后訓練階段引入的多教師在線策略蒸餾(MOPD)技術,以極低計算量(不足標準流程的1/50)復刻教師模型性能,顯著降低大規模部署門檻。這一務實策略,使MiMo-V2-Flash在價格與速度的權衡中占據優勢。對比同類模型,其推理成本僅為DeepSeek-V3.2的三分之一,速度卻是后者的三倍;與Gemini 2.5 Pro性能相當的情況下,成本降低20倍。
羅福莉在演講中以生物進化為喻,闡釋AI發展路徑的特殊性。她指出,自然界通過6億年演化,從身體控制到多巴胺系統,再到哺乳動物的未來模擬能力,最終人類登上智能塔尖。而當前大模型的發展路徑恰與此相反——先掌握語言能力,再補足思考與物理感知。這種“倒敘”模式雖通過壓縮人類認知實現快速突破,卻缺乏對重力、觸覺等基礎物理法則的理解,導致具身幻覺頻發。因此,下一代智能體需從“回答問題”轉向“完成任務”,具備全模態感知與動態系統能力,才能真正融入生活流。
目前,MiMo-V2-Flash已開源模型權重與技術報告,并提供API接口與Web體驗平臺。盡管端側AI的硬件限制仍待突破——當前旗艦手機的舒適區僅支持3B至7B參數模型,15B激活參數對移動設備而言仍是挑戰——但羅福莉的嘗試為小米“人車家生態”構建了新的技術敘事。這場以語言為起點、向物理世界延伸的探索,或許正預示著AI與硬件融合的新可能。




















