直面AI價值對齊的挑戰

今天小編分享的科技經驗：直面AI價值對齊的挑戰，歡迎閲讀。

過去一年多，以 ChatGPT 為代表的大語言模型（LLM）集中爆發，并衍生出文生圖、文生視頻、文生音樂等多模态應用，讓人們感受到了人工智能藴含的無限潛力與可能性。

有預測認為，2032 年，生成式人工智能市場規模有望增長至 1.3 萬億美元，年復合增速将達到 43%。

但是，随着大模型應用在各個領網域不斷深化，"AI 威脅論 " 的聲量不斷擴大。面對 AI 展現出來的強大實力，人工智能的 " 價值對齊 " 成為熱門領網域。

簡單來説，" 價值對齊 "，就是讓人工智能的 " 價值觀 " 與人類的價值觀保持一致，以确保人工智能以對人類和社會無害的方式行事，避免對人類的權利造成幹擾和傷害。随着以 OpenAI、谷歌為代表的眾多科技企業入局，價值對齊也逐漸從一個學術概念，成為備受人工智能產業關注的發展理念。

與人類價值觀對齊

2023 年 7 月，在此次生成式人工智能浪潮中扮演關鍵角色的企業 OpenAI，宣布成立一個名為 " 超級對齊 "（Superalignment）的新部門，該部門的目标旨在 4 年内找到讓超級智能的 AI 系統實現價值對齊和安全的路徑。OpenAI 還承諾，将投入 20% 的計算資源專門用于對齊超級智能。不僅是 OpenAI，谷歌、微軟等知名科技公司也紛紛成立了類似的價值對齊部門或團隊。

随着深度學習開啓新的階段，人工智能越發強大復雜，加之其運行邏輯存在" 算法黑箱 "，使人類從技術層面理解 AI 的決策過程越發具有挑戰性。為規避風險，人類嘗試從人工智能創建之初，以技術性手段幹預确保人工智能系統與人類價值觀保持一致，即讓 AI 與人類 " 價值對齊 "。

以當前人工智能的發展進度來看，價值對齊并非杞人憂天之舉。随着生成式人工智能參與人類工作和生活領網域的廣度和深度逐漸擴大，其潛在風險的波及範圍就越大。特别是當 AI 被應用到司法體系、醫療系統、社會福利以及教育等公共領網域時，AI 的安全問題可能進一步演變為社會問題。盡可能防止 AI 的有害輸出或濫用行為，即當前價值對齊工作的一項核心任務。

價值對齊的基本目标，是要确保即便人工智能發展為通用人工智能（AGI）甚至是超人工智能，擁有了媲美或超越人類能力、能夠執行任何任務，其道德原則、倫理規範和價值觀，也必須與人類保持一致。

價值對齊之難

AI 價值對齊的前提是人類具有一套相對恒定且統一的價值标準。從安全角度考慮，在推動對 AI 的價值對齊之前，應先就對齊的價值觀進行協調統一。但是，大到生死觀，小到對美醜的認知，全球的多元文化背景和價值體系使得價值對齊的标準統一進程難以推進。

而即使人類準備好一套通行的 " 人類價值觀 "，把價值觀 " 對齊 " 給 AI 是否能夠實現？換言之，AI 是否能真正理解人類價值觀并納入自己的運行機制中？

在技術層面上，現在通行的價值對齊方法主要從技術性和規範性入手。規範性的調整，即設立人工智能應遵循的倫理和道德原則，諸如透明性、安全性、可追溯性與可解釋性，以指導對應系統的開發。技術性手段主要通過包括 " 人類反饋強化學習（RLHF）"" 合作逆強化學習（CIRL）"" 監督精調（Supervised Fine-Tuning）" 等在内的方式，将通用的倫理原則轉化成現實可操作的技術路徑，避免 AI 的執行路線發生扭曲。

不過，人類復雜的倫理原則和價值基礎，哪怕是較為基礎的 " 有益 "" 誠實 "" 公平 " 等概念，也很難僅僅通過技術路徑進行抽象、簡化并實現對齊。此外，我們也無法預料，現行的價值觀在未來是否适用，如果不适用，技術又該如何調整。

牛津大學人類未來研究院院長尼克 · 波斯特洛姆認為，創造能夠理解人類價值觀的人工智能至關重要。然而，人類情感的復雜性和文化的多樣性，使得通過輸入幾行代碼來教導超級智能機器人人類到底關心什麼，幾乎是個不可能完成的任務。

随着人工智能開始承擔更復雜的任務，人類開展對齊工作甚至是簡單評估，都将變得難以想象的復雜。業内将人工智能系統對齊的額外成本稱為 " 對齊税 "，底座模型能力為了實現對齊可能會增加額外的開發時間、產生額外的計算或性能下降等。

這些成本問題也是推行價值對齊的阻礙之一。即便不考慮訓練過程中的碳排放帶來的環境問題，價值對齊涉及的人工智能再訓練也需耗費巨額成本。數據顯示，GPT-4 的原始訓練成本就已經達到 1 億多美元，再訓練成本更不可估量。

目前，OpenAI 嘗試通過 "AI 自動對齊研究員 " 來控制成本，即訓練一個大致達到人類水平的 AI 研究員，再投入算力快速迭代并實現自動對齊。盡管這種思路可在一定程度上兼顧發展與安全，但也可能引發新一輪的信任與監督問題：如果人類讓系統接管部分甚至全部的對齊研究，系統是否會試圖欺騙人類？系統的價值安全又該如何保障。

而當 AI 發展的速度超過人類價值觀對齊速度時，價值對齊的過程可能将演變為：誰掌握了最先進的 AI 技術，誰就擁有了對齊價值觀的決定權，進而擁有了定義 AI 甚至人類價值觀的權利。

何解 " 價值對齊 "

價值對齊，是人工智能倫理領網域最根本也是最具挑戰性的概念之一。它是推動人工智能向着符合人類利益的方向發展的必要機制保障，也關乎未來更強大的人工智能的安全控制。

如同人類尚無法清晰剖解 AI 的意識生成問題一樣，價值對齊的實現也具有較高的復雜性。它需要廣泛的學科和社會參與，更需要持續而長期的讨論，在有關 " 價值 " 的概念以及在實現 " 對齊 " 的方法等層面達成共識。同時，價值對齊的工作事關人類未來的整體利益，更廣泛緊密的國際合作有助于對齊工作的推進。

另一種思路是，與其花大力氣拓展價值對齊，不如先專注于 AI 能力的發展，探索更多應用的可能性。畢竟，在人工智能的發展水平一定程度上決定着未來人類價值 " 定義權 " 的背景下，一個能力落後但對齊程度高的 AI，也難以滿足國家競争力培育的需要，無法釋放出足夠的潛力。

因此，以發展的眼光看待價值對齊問題，聚焦實際問題和具體困難，或許也是一種解法。