在近期更新的空間推理基準測試SpatialBench榜單中,阿里推出的視覺理解模型Qwen3-VL和Qwen2.5-VL表現搶眼,分別占據榜單前兩名,將Gemini 3、GPT-5.1、Claude Sonnet4.5等國際知名模型甩在身后。這一成績標志著國產大模型在多模態空間推理領域取得了重大進展。
根據榜單數據,Qwen3-VL-235B以13.5分的成績領跑,Qwen2.5-VL-72B則以12.9分緊隨其后。相比之下,Gemini 3.0 Pro Preview獲得9.6分,GPT-5.1僅得7.5分,其他海外模型的表現也未能超越這兩款國產模型。這一結果充分展現了阿里在視覺理解技術上的領先優勢。
盡管大模型在空間推理能力上取得突破,但與人類水平仍存在顯著差距。目前人類在該測試中的基準線約為80分,能夠熟練處理電路分析、CAD工程設計和分子生物學等復雜任務。而現有大模型尚無法完全自動化完成這類工作,說明技術發展仍有提升空間。
作為阿里2025年開源的新一代產品,Qwen3-VL在視覺感知和多模態推理方面實現了多項創新。在32項核心能力評估中,該模型超越了Gemini2.5-Pro和GPT-5等對手。其獨特之處在于能夠調用摳圖、搜索等工具進行"帶圖推理",甚至可以根據設計草圖或游戲視頻直接生成代碼,實現"視覺編程"功能。
針對3D空間感知的特殊需求,Qwen3-VL專門強化了3D檢測能力。這項改進使機器人能夠更精準地判斷物體方位、視角變化和遮擋關系。在實際應用中,搭載該模型的機器人已能完成遠處蘋果的精準抓取任務,展現了技術落地的潛力。
目前Qwen3-VL已全面開源,提供2B、4B、8B、32B等密集模型,以及30B-A3B、235B-A22B等MoE架構模型。每個版本都包含指令版和推理版兩種選擇,成為企業和開發者最受歡迎的開源視覺理解模型之一。同時,用戶還可通過千問APP免費體驗該模型的強大功能。
SpatialBench作為新興的第三方測試標準,專注于評估多模態模型在空間、結構和路徑推理方面的綜合能力。該測試不僅考察模型掌握的現有知識,更注重其在二維和三維空間中處理抽象概念的能力,這對具身智能技術的發展具有重要參考價值。測試標準的設計充分考慮了技術落地的實際需求,為行業提供了新的評估維度。



















