谷歌AI掌門人Jeff Dean近日點贊了一項突破性研究,這項由清華姚班校友鐘沛林團隊主導(dǎo)的嵌套學(xué)習(xí)(Nested Learning,簡稱NL)范式,為解決大語言模型長期存在的災(zāi)難性遺忘問題提供了新思路。研究團隊提出的Hope模型在語言建模與長上下文任務(wù)中展現(xiàn)出顯著優(yōu)勢,相關(guān)論文已被NeurIPS 2025接收。
傳統(tǒng)深度學(xué)習(xí)模型采用扁平化參數(shù)更新模式,通過堆疊網(wǎng)絡(luò)層數(shù)或擴大模型規(guī)模提升性能,但這種"暴力堆參"的方式已逐漸觸及瓶頸。研究指出,當(dāng)前主流的Transformer架構(gòu)本質(zhì)上是NL范式的簡化版本,其線性層結(jié)構(gòu)未能充分發(fā)揮多層級協(xié)同的潛力。NL范式借鑒人類大腦的記憶機制,將模型重構(gòu)為嵌套式優(yōu)化體系,不同層級以差異化頻率更新,實現(xiàn)短期記憶與長期規(guī)律的分層管理。
該研究提出三大核心創(chuàng)新:深度優(yōu)化器通過神經(jīng)網(wǎng)絡(luò)預(yù)判梯度變化,替代傳統(tǒng)優(yōu)化器的固定公式;自我修改模型使架構(gòu)在訓(xùn)練中自主調(diào)整參數(shù),無需人工干預(yù);連續(xù)記憶系統(tǒng)將二元記憶結(jié)構(gòu)升級為多尺度記憶鏈,不同模塊分別處理實時細節(jié)與長期規(guī)律。這些創(chuàng)新最終凝聚為Hope模型,在760M至1.3B參數(shù)規(guī)模下,其語言建模能力與推理水平均超越Transformer等主流模型,在Wiki文本困惑度、物理常識推理等指標(biāo)上表現(xiàn)尤為突出。
這項研究的背后站著一位特殊的清華姚班校友——鐘沛林。這位2016屆畢業(yè)生在高中時期已是國際信息學(xué)競賽的明星選手,2012年代表雅禮中學(xué)奪得IOI金牌,與發(fā)小艾雨青并稱"雅禮雙子星"。哥倫比亞大學(xué)博士畢業(yè)后,他加入谷歌紐約研究院擔(dān)任算法科學(xué)家,期間主導(dǎo)了嵌套學(xué)習(xí)范式的研究。如今這對雙子星已先后入職meta,分別擔(dān)任AI科學(xué)家與軟件工程師,繼續(xù)在人工智能領(lǐng)域開拓新方向。
嵌套學(xué)習(xí)范式的提出標(biāo)志著深度學(xué)習(xí)架構(gòu)的范式轉(zhuǎn)移。通過模擬人類認知機制,該研究為模型持續(xù)學(xué)習(xí)、長上下文推理等難題提供了全新解決方案。當(dāng)AI模型從靜態(tài)計算網(wǎng)絡(luò)進化為分層協(xié)作的智能系統(tǒng),或許將開啟真正具備終身學(xué)習(xí)能力的通用人工智能新時代。



















