阿里巴巴于近日宣布了一項(xiàng)重大開(kāi)源舉措,正式推出了Qwen3-Embedding系列模型,這一系列模型專注于文本表征、檢索與排序任務(wù),是基于Qwen3基礎(chǔ)模型深度訓(xùn)練而來(lái)。
Qwen3-Embedding系列模型在多項(xiàng)基準(zhǔn)測(cè)試中展現(xiàn)了令人矚目的性能。據(jù)官方數(shù)據(jù)顯示,在MTEB多語(yǔ)言Leaderboard榜單上,該系列的8B參數(shù)規(guī)模Embedding模型以70.58分的成績(jī)位列榜首,這一成績(jī)不僅超越了眾多商業(yè)API服務(wù),也彰顯了其在多語(yǔ)言文本處理方面的卓越實(shí)力。
這一系列模型的特點(diǎn)之一是具備出色的泛化性。在多個(gè)下游任務(wù)評(píng)估中,Qwen3-Embedding系列均達(dá)到了行業(yè)領(lǐng)先水平。特別是在文本檢索場(chǎng)景中,其排序模型能夠顯著提升搜索結(jié)果的相關(guān)性,為用戶帶來(lái)更加精準(zhǔn)的檢索體驗(yàn)。
Qwen3-Embedding系列還提供了靈活的模型架構(gòu)。從0.6B到8B參數(shù)規(guī)模,該系列提供了三種不同的模型配置,以滿足不同場(chǎng)景下的性能與效率需求。開(kāi)發(fā)者可以根據(jù)實(shí)際需求,靈活組合表征與排序模塊,實(shí)現(xiàn)功能的定制化擴(kuò)展。
在定制化特性方面,Qwen3-Embedding系列同樣表現(xiàn)出色。它允許用戶根據(jù)實(shí)際需求調(diào)整表征維度,有效降低應(yīng)用成本。同時(shí),該系列還支持用戶自定義指令模板,以提升特定任務(wù)、語(yǔ)言或場(chǎng)景下的性能表現(xiàn)。這一特性使得Qwen3-Embedding系列能夠更好地適應(yīng)各種復(fù)雜的應(yīng)用場(chǎng)景。
Qwen3-Embedding系列還支持超過(guò)100種語(yǔ)言,涵蓋主流自然語(yǔ)言及多種編程語(yǔ)言。這一特性使得該系列模型在多語(yǔ)言場(chǎng)景下具備強(qiáng)大的處理能力,無(wú)論是多語(yǔ)言文本檢索還是跨語(yǔ)言文本匹配,都能表現(xiàn)出色。
在模型使用方面,Embedding模型主要接收單段文本作為輸入,通過(guò)取模型最后一層“EOS”標(biāo)記對(duì)應(yīng)的隱藏狀態(tài)向量,作為輸入文本的語(yǔ)義表示。而Reranker模型則接收文本對(duì)(如用戶查詢與候選文檔)作為輸入,利用單塔結(jié)構(gòu)計(jì)算并輸出兩個(gè)文本的相關(guān)性得分。這一設(shè)計(jì)使得Qwen3-Embedding系列在文本檢索和排序任務(wù)中能夠發(fā)揮出色的性能。
目前,Qwen3-Embedding系列模型已經(jīng)正式開(kāi)源,開(kāi)發(fā)者可以通過(guò)ModelScope、Hugging Face以及GitHub等平臺(tái)獲取相關(guān)資源和代碼。同時(shí),官方還提供了詳細(xì)的技術(shù)報(bào)告,幫助開(kāi)發(fā)者更好地理解和使用該系列模型。