在人工智能領域,大語言模型的內(nèi)部運作機制長期被視為“黑箱”,即便是專業(yè)研究人員也難以完全掌握其計算邏輯。為破解這一難題,OpenAI近期發(fā)布了一項新研究,通過訓練結構更簡單的小型稀疏模型,探索提升模型可解釋性的可行路徑。這類模型的神經(jīng)元連接更少,計算過程更透明,為理解模型行為提供了新思路。
與傳統(tǒng)稠密模型不同,OpenAI設計的稀疏模型在訓練階段強制大部分權重為零,限制神經(jīng)元之間的連接數(shù)量。這種結構使得每個神經(jīng)元僅與下一層的少數(shù)神經(jīng)元交互,形成更清晰的計算路徑。研究團隊發(fā)現(xiàn),通過剪枝技術保留執(zhí)行特定任務所需的最小神經(jīng)元子集,可以提取出獨立且易于理解的“電路模塊”。例如,在代碼補全任務中,模型能準確識別字符串的起始引號類型,并在結尾復現(xiàn)相同符號,其計算過程可分解為四個清晰步驟:編碼引號類型、檢測任意引號、定位前一個引號、復制引號類型。
論文核心貢獻者指出,稀疏模型的獨特優(yōu)勢在于其解耦性。在Python代碼的引號匹配任務中,模型僅需五個殘差通道、兩個多層感知機神經(jīng)元以及少量注意力機制通道即可完成任務。實驗表明,移除其他部分后,該電路仍能獨立運行,且刪除關鍵連接會導致功能失效。這種模塊化設計不僅降低了理解難度,還為調(diào)試模型錯誤提供了直接切入點。
研究團隊進一步驗證了稀疏模型在變量綁定等復雜任務中的表現(xiàn)。例如,在跟蹤變量類型時,模型通過注意力機制將變量名從定義位置復制到使用位置,形成可追溯的信息流。盡管部分電路仍難以完全解析,但研究人員已能提供階段性解釋,并預測模型行為模式。這種部分可解釋性為后續(xù)研究奠定了基礎。
當前研究仍存在局限性。稀疏模型的規(guī)模遠小于前沿大模型,且大部分計算過程尚未被解釋。為突破瓶頸,OpenAI提出兩條優(yōu)化路徑:一是從現(xiàn)有稠密模型中提取稀疏電路,提升部署效率;二是開發(fā)面向可解釋性的專用訓練技術,降低資源消耗。盡管無法保證該方法適用于所有場景,但早期實驗結果已展現(xiàn)出潛力——通過擴大模型規(guī)模,可在不顯著犧牲性能的前提下提升可解釋性。
該研究為理解神經(jīng)網(wǎng)絡提供了新范式。相比傳統(tǒng)的事后分析方法,稀疏模型從設計階段便融入可解釋性考量,為構建更透明、更可控的AI系統(tǒng)開辟了道路。相關論文已公開,詳細技術方案可參閱OpenAI官方文檔。




















