谷歌DeepMind近日發(fā)布了一份重要報告,題為《An Approach to Technical AGI Safety and Security》。該報告深入探討了通用人工智能(AGI)可能帶來的重大風險,并提出了全面的技術(shù)安全框架,旨在為AGI的負責任研發(fā)和部署提供核心指導(dǎo)。
報告指出,AGI具有變革性的潛力,但同時也伴隨著嚴重的風險。這些風險被劃分為四大領(lǐng)域:誤用風險,即用戶故意利用AGI造成傷害;錯位風險,指AGI在明知違背開發(fā)者意圖的情況下仍造成傷害;失誤風險,即AGI無意識中導(dǎo)致的傷害;以及結(jié)構(gòu)性風險,涉及多主體互動引發(fā)的非主觀傷害。報告特別強調(diào)了誤用和錯位風險的技術(shù)應(yīng)對策略。
在誤用風險的應(yīng)對上,報告提出了一系列策略,旨在切斷惡意主體獲取危險能力的途徑。這包括通過危險能力評估預(yù)判風險閾值,以及利用模型級防護、系統(tǒng)級管控和安全防護等多層防御措施。模型級防護涵蓋安全訓(xùn)練和能力抑制,系統(tǒng)級管控則包括行為監(jiān)測和訪問限制,而安全防護則涉及模型權(quán)重加密和環(huán)境加固。報告還強調(diào)了通過紅隊測試驗證防護有效性,并加強社會防御能力以降低潛在傷害。
針對錯位風險,報告構(gòu)建了雙重防御體系。第一防線是訓(xùn)練對齊模型,通過增強監(jiān)督、引導(dǎo)模型行為和穩(wěn)健訓(xùn)練等手段,確保模型目標與人類意圖一致。第二防線是系統(tǒng)級管控,借鑒網(wǎng)絡(luò)安全思路,通過訪問控制、沙箱隔離和層級監(jiān)控等措施,即便模型錯位也能阻斷嚴重傷害。同時,報告還提出了不確定性量化、可解釋性研究和更安全的設(shè)計模式等支撐措施。
報告基于五大關(guān)鍵假設(shè)展開,包括當前AI研發(fā)范式的持續(xù)性、AGI能力無人類天花板、研發(fā)時間線的不確定性、AI能力加速增長的可能性以及AI能力提升的平滑演進。這些假設(shè)為報告的技術(shù)方案提供了理論基礎(chǔ)。
報告還強調(diào)了技術(shù)方案與治理機制互補的重要性,呼吁形成行業(yè)共識與標準,以避免因競爭壓力導(dǎo)致安全底線下降。同時,報告也指出了當前研究的局限性,包括未充分覆蓋結(jié)構(gòu)性風險和聚焦短期可落地技術(shù)等,并呼吁未來持續(xù)推進基礎(chǔ)研究與跨領(lǐng)域協(xié)作。



















