OpenAI近日開源了一款名為Circuit-Sparsity的新型人工智能模型,該模型以極低的參數量和高度稀疏的權重矩陣,為解決大語言模型(LLM)的"黑箱"問題提供了全新思路。這款參數量僅0.4B的模型,其權重矩陣中99.9%的元素為零,僅保留0.1%的關鍵連接,這種設計使其內部計算路徑變得清晰可追蹤。
傳統大模型普遍存在"概念糾纏"現象,單個神經元往往需要同時處理多個完全不同的任務,導致模型決策過程難以解釋。OpenAI團隊通過強制權重稀疏化,使每個神經元僅與特定神經元建立連接,從而在模型內部構建出類似電路的清晰計算路徑。研究顯示,在處理字符串閉合檢測任務時,模型僅用12個神經元就構建出完整電路,每個神經元分別承擔檢測單引號、雙引號或計數嵌套深度等特定功能。
技術實現層面,研究團隊采用動態剪枝技術,在訓練過程中持續保留絕對值最大的權重連接;通過AbsTopK激活函數強制保留前25%的激活值;同時用RMSNorm替代傳統歸一化層,避免破壞稀疏結構。這些創新使模型在保持性能的同時,電路規模較密集模型縮減16倍,顯著降低了AI系統的理解難度。實驗證明,移除電路關鍵節點會導致模型性能崩潰,而移除非關鍵節點則影響微弱,驗證了電路設計的有效性。
盡管稀疏模型在可解釋性方面表現突出,但其計算效率存在明顯短板。由于稀疏矩陣運算無法利用GPU的Tensor Cores加速,實際運算速度比密集模型慢100-1000倍。針對這一瓶頸,研究團隊提出"橋梁網絡"方案,通過編碼器-解碼器結構在稀疏模型與預訓練密集模型間建立映射關系。這種設計允許研究人員在稀疏模型上修改特定特征,再將擾動映射回密集模型,從而實現對現有大模型的解釋性干預。
該研究在學術界引發廣泛討論。部分專家認為這項技術可能顛覆現有混合專家模型(MoE)的設計范式,將權重隔離到特定"專家"的傳統做法或將被直接構建稀疏模型取代。也有觀點指出,稀疏模型的訓練成本較密集模型高出兩個數量級,當前技術更適用于研究場景而非實際應用。OpenAI團隊承認現有局限,但表示正在探索從密集模型中提取稀疏電路的技術路徑,以及開發更高效的訓練方法。
開源項目已同步發布在GitHub和Hugging Face平臺,包含完整模型代碼和訓練日志。技術論文詳細披露了動態剪枝、激活稀疏化等核心算法的實現細節,以及電路驗證實驗的完整數據。研究團隊強調,這項工作尚處于早期探索階段,未來計劃將技術擴展至更大規模模型,并開發配套分析工具,使AI系統的評估與調試更加透明化。






















