今天小編分享的科技經驗:谷歌拉響通用人工智能警報,首次公開 AI 安全防御藍圖,歡迎閱讀。
IT 之家 4 月 4 日消息,科技媒體 WinBuzzer 昨日(4 月 3 日)發布博文,報道稱谷歌旗下 DeepMind 最新發布全球 AGI(通用人工智能)安全框架,呼籲在技術失控前建立跨國防護機制。
DeepMind 認為 AGI 即将落地,主張立即行動。AGI 可能将在未來數年實現人類級認知能力,其自主決策特性可能加速醫療、教育等領網域的突破,但濫用、目标錯位等風險亦需警惕。
谷歌 DeepMind 發布《技術性 AGI 安全與保障方法》白皮書,提出應對通用人工智能(AGI)潛在風險的系統性方案。
IT 之家援引博文介紹,報告聚焦四大風險領網域(濫用、錯位、事故、結構性風險),提出通過安全機制設計、透明化研究及行業協作降低危害。
而目标錯位是 AGI 核心風險之一。當 AI 為完成任務采取非常規手段(如入侵訂票系統獲取座位),即產生與人類意圖的偏差。DeepMind 通過 " 放大監督 " 技術訓練 AI 識别正确目标,并利用 AI 自評(如辯論機制)提升復雜場景下的判斷力。
DeepMind 提出的國際安全框架摒棄抽象倫理讨論,聚焦技術快速演進中的實際問題,包括組建類似核不擴散條約的跨國評估機構、設立國家級 AI 風險監測中心等。
谷歌 DeepMind 提出強化技術研究、部署預警系統、通過國際機構協調治理三大支柱方案,強調當前亟需限制 AI 網絡攻擊等危險能力。
DeepMind 的倡議并非孤立行動。競争對手 Anthropic 于 2024 年 11 月警告需在 18 個月内遏制 AI 失控,并設定能力阈值觸發保護機制;Meta 在 2025 年 2 月推出《前沿 AI 框架》,停止公開高危模型。
安全防護已延伸至硬體領網域。英偉達 2025 年 1 月推出 NeMo Guardrails 微服務套件,實時攔截有害輸出,目前應用于醫療、汽車等行業。