無需大規(guī)模預(yù)訓(xùn)練,僅憑76K參數(shù)的神經(jīng)網(wǎng)絡(luò)模型,就能在通用人工智能(AGI)基準(zhǔn)測試中解決20%的難題——這一突破性成果來自最新研究CompressARC。該研究由卡內(nèi)基梅隆大學(xué)(CMU)博士生Isaac Liao主導(dǎo),其團(tuán)隊通過引入最小描述長度(MDL)理論,顛覆了傳統(tǒng)智能依賴海量數(shù)據(jù)訓(xùn)練的認(rèn)知。在ARC-AGI-1基準(zhǔn)測試中,CompressARC成為首個僅依賴單個樣本推理的深度學(xué)習(xí)方法,并憑借此成果斬獲2025年ARC Prize第三名,更令人驚訝的是,整個研究僅使用單張GPU完成。
傳統(tǒng)神經(jīng)網(wǎng)絡(luò)通過學(xué)習(xí)輸入到輸出的映射規(guī)則實現(xiàn)泛化,而CompressARC的核心邏輯截然不同:它試圖用最短的計算機(jī)程序“描述”給定的謎題。這一思路源于MDL理論——現(xiàn)象的最簡程序表達(dá)往往蘊(yùn)含其本質(zhì)規(guī)律。在ARC-AGI場景中,模型需將謎題的輸入輸出對及測試輸入編碼為最短程序,程序長度越短,意味著找到的規(guī)則越簡潔本質(zhì)。研究團(tuán)隊遵循奧卡姆剃刀原理,假設(shè)最短程序具備最強(qiáng)泛化能力,因此完全摒棄外部訓(xùn)練集,僅依賴謎題本身的少量示例進(jìn)行推理。
ARC-AGI-1基準(zhǔn)測試要求模型通過少量示例(通常2-3對輸入輸出)推斷隱藏規(guī)則,并生成正確輸出網(wǎng)格,其設(shè)計初衷正是檢驗AI的類人抽象推理能力。此前表現(xiàn)最優(yōu)的預(yù)訓(xùn)練大語言模型o3在該測試中得分88%,而未預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)最高分僅40.3%。CompressARC則另辟蹊徑:它不追求學(xué)習(xí)通用規(guī)則,而是針對每個謎題“定制”最短程序。實驗顯示,在2000個推理訓(xùn)練步驟(約20分鐘/謎題)的預(yù)算下,模型成功解決20%的評估集謎題和34.75%的訓(xùn)練集謎題,盡管得分低于預(yù)訓(xùn)練模型,但其零數(shù)據(jù)依賴的特性為AGI研究開辟了新路徑。
技術(shù)實現(xiàn)層面,研究團(tuán)隊設(shè)計了固定程序模板,將尋找最短程序的問題轉(zhuǎn)化為優(yōu)化種子(硬編碼數(shù)值)和神經(jīng)網(wǎng)絡(luò)權(quán)重的問題。為解決組合搜索空間爆炸的難題,他們借鑒變分自編碼器(VAE)原理,通過KL散度懲罰隨機(jī)噪聲z的信息量,并用交叉熵衡量輸出與真實謎題的匹配度,從而將問題轉(zhuǎn)化為可微分的優(yōu)化任務(wù)。這一創(chuàng)新使梯度下降等深度學(xué)習(xí)標(biāo)準(zhǔn)方法得以應(yīng)用,避免了窮舉所有可能程序的計算不可行性。
模型架構(gòu)方面,CompressARC采用四大關(guān)鍵設(shè)計:其一,內(nèi)置等變性處理,使網(wǎng)絡(luò)默認(rèn)賦予旋轉(zhuǎn)、翻轉(zhuǎn)等變換后的謎題相同概率,避免用冗長代碼描述對稱性;其二,引入多張量數(shù)據(jù)結(jié)構(gòu),用不同形狀的張量存儲不同粒度信息,強(qiáng)化抽象推理能力;其三,核心骨干采用類Transformer結(jié)構(gòu),通過4層殘差連接和線性投影實現(xiàn)信息交互,但參數(shù)僅76K——大部分參數(shù)用于通道維度投影,核心操作本身無參數(shù);其四,定制無參數(shù)操作集,包括信息匯總傳播、單像素幾何平移、累積最大值拓?fù)洳僮鞯龋苯芋w現(xiàn)對謎題規(guī)則的先驗知識。這些設(shè)計共同確保了程序描述的極致壓縮。
該研究挑戰(zhàn)了“智能必源于大規(guī)模預(yù)訓(xùn)練”的共識,證明MDL與壓縮原理的結(jié)合可激發(fā)模型驚人的泛化能力。作者Isaac Liao目前專注于MDL、變分推斷及超網(wǎng)絡(luò)等領(lǐng)域,其本科與碩士均畢業(yè)于麻省理工學(xué)院(MIT),師從Mamba架構(gòu)提出者Albert Gu教授。而ARC-AGI基準(zhǔn)的創(chuàng)立者Fran?ois Chollet(Keras深度學(xué)習(xí)庫創(chuàng)始人、Google AI研究員)于2019年設(shè)計該測試時,正是為了彌補(bǔ)傳統(tǒng)基準(zhǔn)在評估類人抽象推理能力上的不足——如今,CompressARC的突破為這一目標(biāo)提供了全新解決方案。





















