午夜日韩久久影院,亚洲欧美在线观看首页,国产情侣真实露脸在线最新,一级毛片在线观看免费

資訊在沃

蘋果杜克聯(lián)手突破!AI交錯(cuò)推理讓Qwen2.5模型響應(yīng)飆升80%

   發(fā)布時(shí)間:2025-05-30 15:10 作者:柳晴雪

近期,蘋果公司與杜克大學(xué)的一項(xiàng)合作研究引起了科技界的廣泛關(guān)注。這項(xiàng)研究提出了一種名為交錯(cuò)推理的全新強(qiáng)化學(xué)習(xí)方法,旨在增強(qiáng)大語(yǔ)言模型的推理能力。

在以往,大型語(yǔ)言模型在處理復(fù)雜的多步驟問(wèn)題時(shí),通常采用一種線性的推理方式,即先完成整個(gè)推理過(guò)程,再給出答案。然而,這種方式存在明顯缺陷:一方面,它導(dǎo)致了較長(zhǎng)的響應(yīng)時(shí)間,無(wú)法滿足即時(shí)交互的需求;另一方面,一旦推理過(guò)程中的某個(gè)環(huán)節(jié)出錯(cuò),最終答案的準(zhǔn)確性也會(huì)大打折扣。

與人類的對(duì)話習(xí)慣不同,語(yǔ)言模型往往不會(huì)在推理過(guò)程中分享任何中間想法,而是等待全部推理完成后再一次性輸出結(jié)果。這種“閉門造車”的方式,無(wú)疑降低了模型的效率。

為了克服這一難題,蘋果與杜克大學(xué)的研究人員共同研發(fā)了交錯(cuò)推理技術(shù)。這一技術(shù)允許模型在推理過(guò)程中交替進(jìn)行內(nèi)部計(jì)算和輸出中間答案,從而極大地提升了速度和實(shí)用性。

交錯(cuò)推理技術(shù)基于強(qiáng)化學(xué)習(xí)框架,采用了一種特殊的訓(xùn)練模板,其中包含了特定的標(biāo)簽,以確保模型在關(guān)鍵推理節(jié)點(diǎn)上能夠輸出中間結(jié)果。研究團(tuán)隊(duì)還設(shè)計(jì)了一套基于規(guī)則的獎(jiǎng)勵(lì)機(jī)制,包括格式正確性、最終答案準(zhǔn)確率和條件性中間準(zhǔn)確率,以引導(dǎo)模型注重整體推理的準(zhǔn)確性。

在實(shí)際測(cè)試中,交錯(cuò)推理技術(shù)在Qwen2.5模型(包括1.5B和7B參數(shù)版本)上取得了顯著成效。與傳統(tǒng)方法相比,響應(yīng)速度提升了超過(guò)80%,準(zhǔn)確率也提高了高達(dá)19.3%。更令人矚目的是,該方法僅在問(wèn)答和邏輯數(shù)據(jù)集上進(jìn)行了訓(xùn)練,卻能夠在MATH、GPQA、MMLU等更具挑戰(zhàn)性的基準(zhǔn)測(cè)試中展現(xiàn)出強(qiáng)大的泛化能力。

研究團(tuán)隊(duì)還嘗試了多種獎(jiǎng)勵(lì)策略,如全或無(wú)獎(jiǎng)勵(lì)、部分積分獎(jiǎng)勵(lì)和時(shí)間折扣獎(jiǎng)勵(lì)等。實(shí)驗(yàn)結(jié)果表明,條件性和時(shí)間折扣獎(jiǎng)勵(lì)策略的效果最佳,顯著優(yōu)于傳統(tǒng)獎(jiǎng)勵(lì)方法。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新