硅谷科技機構OpenRouter與知名風投公司a16z聯合發布的《AI發展態勢:基于百萬億Token的實證研究》報告,在科技圈引發廣泛關注。該報告以OpenRouter平臺2024年11月至2025年11月期間300余個模型的使用數據為樣本,涵蓋GPT系列、Claude、Gemini、DeepSeek等國內外主流模型,通過分析真實Token消耗量而非傳統基準測試分數,揭示了AI發展的新趨勢。
報告核心結論顯示,開源模型與閉源模型的關系正從替代轉向互補。預計到2025年底,開源模型使用量將占整體三分之一,其中中國開源模型表現尤為亮眼,其周使用量占比從1.2%飆升至30%,平均占比達13%,與全球其他地區開源模型的13.7%份額形成分庭抗禮之勢。值得注意的是,開源市場格局已發生深刻變化——DeepSeek雖仍為最大貢獻者,但其主導地位隨MiniMax M2、Kimi K2等新模型涌現而被削弱,預計年底將形成5-7個模型均分市場的格局。
模型形態演變方面,中型模型正成為市場新寵。報告將模型分為大型(700億參數以上)、中型(150-700億參數)和小型(150億參數以下)三類,發現小型模型逐漸失寵,中型與大型模型補位趨勢明顯。以Qwen2.5-Coder-32B發布為轉折點,Mistral Small 3、GPT-OSS 20B等中型模型持續涌入,推動該細分市場成為新的競爭焦點。報告指出:"小模型主導的時代已過去,市場正分化為新興中型模型與頂級大型模型兩極。"
語言模型的功能升級成為另一大趨勢。推理模型使用量從年初的微不足道躍升至超50%,其中馬斯克旗下xAI的Grok Code Fast 1占據最大推理流量份額,Gemini 2.5 Pro和Flash系列緊隨其后。工具調用功能同樣呈現爆發式增長,年初僅GPT-4o-mini和Claude 3.5等少數模型支持,年中后超半數模型具備該能力,Claude 4.5 Sonnet和Grok Code Fast等新玩家表現突出。報告強調:"缺乏可靠工具調用能力的模型,將在企業級應用中逐漸邊緣化。"
使用場景變革方面,AI正從"聊天機器人"向"智能代理"轉型。用戶任務復雜度顯著提升,從生成短文轉向分析整份文檔或代碼庫,提示詞長度增加4倍,模型推理消耗的Token量增長近3倍。典型應用場景中,編程與角色扮演占據主導地位——編程查詢量從年初11%躍升至超50%,Claude系列雖仍保持60%以上份額,但OpenAI市場份額從2%增至8%,谷歌穩定在15%,Qwen、Mistral等開源模型穩步上升,MiniMax更成為近期增長最快的新秀;角色扮演領域,開源模型占比達52%,DeepSeek超三分之二流量來自該場景,顯示其消費者端強粘性。
用戶行為研究提出"水晶鞋效應"理論:每代前沿模型發布時,會鎖定一批任務需求與模型能力完美匹配的核心用戶,這些用戶留存率顯著高于平均水平。如Claude 4 Sonnet和Gemini 2.5 Pro發布5個月后仍保持40%留存率,得益于其在工具調用和推理能力的突破。報告指出:"首個用突破性能力解決關鍵問題的模型,即使后續被超越,也能憑借早期積累的用戶習慣和系統集成保持優勢。"
地域分布上,AI發展呈現多極化趨勢。亞洲地區付費使用量占比從13%翻倍至31%,北美雖仍為最大市場但份額降至不足50%。語言使用方面,英語占比82%居首,簡體中文以近5%份額位列第二。價格敏感度分析顯示,模型定價影響遠低于預期——價格下降10%僅帶動使用量增長0.5%-0.7%,且總支出未必減少,符合"杰文斯悖論":當模型變得便宜好用時,用戶會在更多場景高頻調用,導致總Token量飆升。
報告同時承認局限性:OpenRouter數據主要反映開發者和服務端API調用行為,未涵蓋ChatGPT等App/Web端直接訪問流量;平臺定價策略可能影響模型選擇偏好。盡管如此,這份基于百萬億Token的實證研究,仍為理解AI發展動態提供了獨特視角。





















