谷歌AI負責人Jeff Dean近日點贊了一項突破性研究,這項由清華姚班校友鐘沛林團隊提出的新范式——嵌套學習(Nested Learning,NL),為大語言模型領域長期存在的災難性遺忘問題提供了創新解決方案。研究論文已被NeurIPS 2025接收,其核心成果Hope模型在多項基準測試中超越了Transformer等主流架構。
傳統深度學習模型依賴堆疊網絡層數和擴大參數規模提升性能,但這種模式已逐漸觸及瓶頸。研究團隊指出,大語言模型普遍存在“順行性遺忘”問題:預訓練完成后難以吸收新知識,僅能依賴有限上下文窗口或固化參數,無法像人類一樣動態積累知識。嵌套學習通過模擬人腦認知機制,將模型重構為多層級的優化系統,每個層級擁有獨立的上下文流和更新頻率,實現信息的高效處理與存儲。
論文揭示,當前廣泛使用的Transformer架構本質上是嵌套學習的簡化版本。其線性層結構僅保留了NL的多層級協同中的單一層級,未能充分發揮分層記憶的優勢。研究團隊提出的Hope模型基于NL范式,在語言建模和長上下文記憶任務中表現優異,參數規模從760M到1.3B的版本均顯著超越Transformer、RetNet等基線模型,在Wiki文本困惑度、物理常識推理等指標上展現出更強的語言理解和推理能力。
該研究的核心創新包含三大模塊:深度優化器通過預處理機制識別梯度性質,用神經網絡替代傳統線性記憶,實現靈活調參;自我修改模型允許架構在訓練中自主調整參數,無需人工干預即可適配新領域數據;連續記憶系統將傳統二元記憶結構升級為多尺度記憶鏈,不同模塊按不同頻率更新,分別存儲短期細節與長期規律。這些創新使模型具備類似人類的分層記憶管理能力。
這項研究的領軍人物鐘沛林2016年畢業于清華姚班,2021年獲得哥倫比亞大學計算機博士學位后加入谷歌紐約研究院。他的學術軌跡始于中學時期的競賽生涯:2012年代表雅禮中學奪得國際信息學奧林匹克競賽金牌,與同校發小艾雨青并稱“雙子星”,兩人均保送至清華姚班。如今,這對昔日搭檔已先后入職meta,分別擔任AI科學家與軟件工程師,繼續在人工智能領域深耕。




















