阿里巴巴與新加坡國(guó)家人工智能計(jì)劃聯(lián)合研發(fā)的東南亞多語(yǔ)言大模型Qwen-SEA-LION-v4,近日在國(guó)際權(quán)威評(píng)估中取得突破性進(jìn)展。該模型在"東南亞語(yǔ)言模型全面評(píng)估基準(zhǔn)"(SEA-HELM)開(kāi)源模型榜單(參數(shù)量2000億以下組別)中登頂,標(biāo)志著東南亞本土化人工智能技術(shù)邁入新階段。
東南亞地區(qū)語(yǔ)言生態(tài)復(fù)雜,現(xiàn)存超過(guò)1200種語(yǔ)言體系,日常交流中常出現(xiàn)多語(yǔ)言混用場(chǎng)景。傳統(tǒng)AI模型多以英語(yǔ)為核心開(kāi)發(fā),難以適應(yīng)這種特殊語(yǔ)言環(huán)境,導(dǎo)致技術(shù)應(yīng)用存在顯著斷層。此次中新聯(lián)合研發(fā)的模型專(zhuān)門(mén)針對(duì)該區(qū)域語(yǔ)言特性進(jìn)行優(yōu)化,通過(guò)創(chuàng)新技術(shù)架構(gòu)突破語(yǔ)言壁壘。
技術(shù)團(tuán)隊(duì)透露,模型構(gòu)建基于阿里巴巴"通義千問(wèn)"開(kāi)源框架,在預(yù)訓(xùn)練階段即納入119種語(yǔ)言數(shù)據(jù),特別強(qiáng)化對(duì)東南亞小語(yǔ)種的支持。后訓(xùn)練階段通過(guò)增加跨語(yǔ)言任務(wù)權(quán)重,使模型能夠精準(zhǔn)處理現(xiàn)實(shí)場(chǎng)景中的多語(yǔ)言混合輸入。這種雙重優(yōu)化策略顯著提升了模型在復(fù)雜語(yǔ)言環(huán)境下的理解能力。
為推動(dòng)技術(shù)普惠,研發(fā)方已通過(guò)AISingapore官方平臺(tái)和HuggingFace開(kāi)源社區(qū)向全球開(kāi)放模型下載。該舉措不僅為東南亞地區(qū)提供定制化AI解決方案,也為全球多語(yǔ)言研究提供重要參考樣本。目前已有多個(gè)東南亞國(guó)家的研究機(jī)構(gòu)開(kāi)始測(cè)試該模型在政務(wù)、教育、醫(yī)療等領(lǐng)域的應(yīng)用潛力。





















