近日,新加坡國家人工智能計劃聯合阿里巴巴推出了一款面向東南亞市場的多語言大模型——Qwen-SEA-LION-v4。該模型以阿里巴巴開源的“通義千問”框架為基礎,通過針對性優化,成功突破了東南亞地區語言多樣性帶來的技術瓶頸,成為全球首個在該領域實現突破的AI解決方案。
東南亞地區語言生態復雜,現存超過1200種語言,日常交流中常出現多語言混用現象。然而,現有主流AI模型多以英語為核心開發,難以適配東南亞本土需求,導致該地區長期面臨“AI服務斷層”問題。此次中新聯合研發的模型通過技術革新,首次在“東南亞語言模型全面評估基準”(SEA-HELM)的2000億參數量以下開源模型榜單中奪得榜首,標志著區域性AI技術實現重大突破。
研發團隊透露,Qwen-SEA-LION-v4的預訓練階段已覆蓋119種語言,特別針對東南亞小語種進行數據增強。在后訓練階段,團隊通過增加跨語言任務權重,使模型具備處理混合語言輸入的能力。例如,在輸入包含馬來語、泰語和英語的復雜語句時,模型仍能準確理解語義并生成符合語境的回應。
為推動技術普惠,該模型已通過AISingapore官網及HuggingFace開源社區向全球開放下載。開發者可基于模型進行二次開發,應用于教育、醫療、政務等多個場景。此前,東南亞地區因語言障礙導致AI應用成本高昂,此次開源有望降低本地化服務門檻,加速區域數字化轉型進程。




















