阿里Qwen團隊近日宣布,正式推出新一代原生全模態大模型Qwen3-Omni-Flash-2025-12-01。這款基于Qwen3-Omni升級的模型,實現了文本、圖像、音視頻等多種模態的無縫輸入與實時流式輸出,標志著多模態交互技術邁入全新階段。
在交互體驗層面,新模型重點優化了多模態融合能力。通過實時流式響應技術,用戶輸入的文本、圖像、音視頻信息可同步轉化為高質量文本與自然語音輸出。針對語音交互場景,模型突破了傳統語音生成機械呆板的局限,能夠根據文本內容自適應調整語速、停頓與韻律,語音自然度與擬人化程度接近真人水平,顯著提升了對話流暢性。
系統提示控制能力的升級成為本次更新的核心亮點。研發團隊全面開放了System Prompt自定義權限,用戶可通過精細化參數設置調控模型行為模式。無論是設定特定人設風格如“甜妹”“御姐”,還是調整口語化表達偏好與回復長度,模型均能精準響應。這一功能為個性化交互場景提供了技術支撐,例如虛擬主播、智能客服等領域可實現更靈活的角色扮演。
跨語言支持方面,模型展現出強大的全球化服務能力。支持119種文本語言交互、19種語音識別語言及10種語音合成語言,確保在多語言場景下保持響應準確性與一致性。這一特性為跨國企業、國際教育等場景提供了高效解決方案,有效降低了語言障礙帶來的溝通成本。
客觀性能指標顯示,新模型在多項基準測試中取得突破性進展。邏輯推理任務(ZebraLogic)得分提升5.6,代碼生成(LiveCodeBench-v6)提升9.3,多學科視覺問答(MMMU)提升4.7。這些數據表明,模型不僅在圖像視頻內容理解上更加精準,在復雜指令遵循與深度邏輯分析方面也達到行業領先水平。
針對口語化場景的“降智”痛點,新模型通過增強音視頻指令理解能力,顯著提升了多輪對話的穩定性與連貫性。在復雜語境下,模型能夠準確捕捉用戶意圖,避免語義歧義,為智能助手、教育輔導等場景提供了更可靠的交互基礎。此次升級標志著多模態大模型從技術探索向實用化落地邁出關鍵一步。



















