讓大模型可控可信是個「偽命題」嗎？

今天小編分享的互聯網經驗：讓大模型可控可信是個「偽命題」嗎？，歡迎閲讀。

通用大模型席卷半年，各行業對大模型的試水也步入正軌。在國内，僅過去兩月就有十餘家金融、法律、教育等垂直領網域企業宣布投身行業模型。

但在表面火熱背後，不難發現不少企業依舊對徹底擁抱大模型心存顧慮——在強調精準、可控、合規的 To B 領網域，模型的互動式能力可能加劇數據泄露風險，過于豐沛的創造力會帶來 " 幻覺 " 過多的困擾。總之，大模型本身令人驚嘆的 " 湧現 "，反而在此時成為深入產業的阻礙。

針對這一現狀，36 氪在 WAIC 世界人工智能大會期間對話了清華大學副教授李琦、中國信通院華東分院人工智能與大數據事業部副主任常永波，以及螞蟻集團機器智能部副總經理、螞蟻安全天筭實驗室主任張天翼。

模型的可控、精準、合規都與 AI 的安全密不可分。

張天翼告訴 36 氪，AI 的安全問題并非新鮮事物，早前模型參數并未如此龐大時，關于模型的魯棒性、可解釋性、公平公正和隐私保護已經頗受關注——集合了這四個議題的框架在業内也被稱為 " 可信 AI"。常永波也補充，可信 AI 概念自 2017 年提出以來，業界在魯棒性、隐私保護等方面已經有了較多實踐。

但如今僅關注魯棒性、隐私保護顯然不夠。大模型的到來，給可信 AI ——尤其是其中的 " 可解釋性 " 提出新考驗。

常永波觀察到，過去看到的 AI 可解釋性實踐并不算多。但對企業來説，大模型的可解釋性是現在最亟待被解決的問題之一。

" 如果模型有較好的可解釋性，或許就能解決可控問題。因為我知道你的意圖和執行過程，就可以有效地管理。" 李琦認為。反之，" 如果一家企業今天希望用機器人給用户推薦買什麼基金，買什麼股票，但發現機器人完全不可控，肯定最終還是不敢提供服務。" 張天翼舉例。

而從解決方案看，問題比想象復雜。目前，業内提升可解釋性的方式包括提示詞工程、數據預處理、RLHF、疊加專家系統，以及用大模型解釋大模型（如 OpenAI 用 GPT4 解釋 GPT2）等。但本質上，沒有人可以保證自己的方式徹底有效。

" 模型本身的復雜度超乎尋常。千億級的參數是如何協同的，甚至已經超過了人腦的理解能力。追求模型内部每個步驟的可解釋可能已經不是一個合理的訴求。" 張天翼坦言。

但同樣在這次交流中，我們發現即便進展不算迅速，但面對大模型的 " 黑盒 " 挑戰，產學研三方已在分别推進應對之策。

李琦介紹，之前安全專家比較關心 AI 系統整體的安全問題，AI 專家則更偏向思考具體模型和算法的安全性。但現在，大模型的出現誘導出一些大模型系統特有的數據安全和系統漏洞問題，這促使安全專家和 AI 專家協同起來，一起解決大模型安全問題。

張天翼則拿螞蟻的 " 蟻鑑 AI 安全檢測平台 " 舉例。他表示，2022 年 WAIC 時推出的蟻鑑，主要是在魯棒性上進行評測。但今年，蟻鑑不僅在事前的評測功能上加入了針對大模型的評測功能，用生成式 AI 能力檢測生成式 AI 模型，未來還希望延展事中幹預、事後糾偏等模塊。

常永波則告訴 36 氪，信通院目前基于產業調研已有規劃系統化的評測體系，希望借此支撐更全面地提升大模型可信度，其中，内容生成安全、數據安全、合乎倫理等都是重點關注的問題。

這是我們目前看到的星星之火。

以下是對話部分（經編輯）：

36 氪：大模型席卷半年，看似已經到了產業落地時間。在你的觀察中，現在企業因安全、可信問題而難以 " 嘗鮮 " 大模型是一個普遍現象嗎？

張天翼：企業的猶豫或顧慮有兩方面的原因。首先是監管因素，如果企業的大模型產品要為公眾提供服務，那麼提供服務的一方相應地需要承擔責任。比如，我提供了一個跟用户進行問答的服務，但是在對話中發現可能有不當言論，這些在沒有詳細的解決方案之前，對服務提供商來説會有很大的壓力。

另一方面，技術自身也讓服務商顧慮。從應用的角度，如果有很多不可控因素，服務商甚至可能不清楚自己在提供什麼樣的服務，肯定最終是不敢用的。

所以在沒有更好的支持之前，很多公司都不具備提供更多通用人工智能服務的能力。

李琦：很多學校和企業開始研究和應用大模型，特别是大家都嘗試在應用大模型技術來解決各自業務需求。與此同時，也能看到大家嘗試研究和開發各自的大模型時，也在盡量避免大模型裏面的安全問題。例如，在清華大學就有好幾位老師正在做這方面的研究，為此清華大學也設立了大型基礎模型研究中心。

大模型的能力有目共睹，大家都願意投入資源來研究和開發大模型，同時也在一起解決可能涉及到的安全可信問題。

36 氪：模型魯棒性、可解釋性、數據泄露等問題大家都非常關注。哪一類問題是最難被解決的？

常永波：最難解決的就是可解釋性問題。因為可解釋性是一個底層算法邏輯的問題，只要深度學習的底層算法機理或者邏輯推理無法解釋，短期内或許難以突破。我們也在和各種行業專家交流，大家都觀點比較類似，大模型參數規模這麼大，這麼龐大的一個黑盒模型，如何進行邏輯溯源，有很多技術點要突破瓶頸。

李琦：我認為可解釋性是至關重要的。如果模型可以解釋清楚，或許就能解決可控問題。因為我知道你的意圖和執行過程，那麼我就可以有效地管理。例如，由于現在的能力限制，可能惡意用户只需要幾次互動就可能繞過大模型的 API 限制。實際上，目前沒有一種特别好的方法可以完全控制這個問題，不同的模型本身就存在差異，因此很難有通用的解決方案。此外，許多商用大模型并不對外開源，我們無法知道這些閉源大模型的模型結構、參數和開發過程，這也增大了對大模型可解釋性研究的難度。

張天翼：我覺得最難的是大模型的可控性，這與可解釋性和魯棒性都有關。目前可控性問題主要體現在兩方面：首先，這些模型存在實際上的偏誤。比如問模型 " 這首詩是誰寫的 "，它可能會瞎編。

其次，模型在邏輯上的可控性也有待提高。我們做過一個實驗，問模型 " 為什麼認為某個人是一個賭徒 "，模型可能會回答 " 因為他在半夜花錢 " 等等。但是當你用同樣的數據再問模型 " 為什麼認為這個人不是賭徒 "，它還是可以找到一些看似有理的回答。這就是模型背後的邏輯可控問題。

在專業領網域這種問題更加嚴重。比如，如果你問模型為什麼這個病人得了癌症，它可能會回答得信誓旦旦。然後你再問它為什麼這個病人得的是另一種病，它可能也會給出自信的答案。這就是目前大型模型面臨的挑戰，在真正專業的領網域如何确保事實上的準确性和邏輯的可控性。

而且現在的模型參數體量龐大，使得試圖去理解它的決策過程幾乎變成一個不可能的任務。

這個問題可能會引發上層的安全性和可能的倫理問題。當底層都是一個黑盒、一個混沌不可知的系統時，我們對上層的所有這些問題的衡量都只能在事後進行。它是不是真的解決了這些問題，還是更加精密和狡猾的繞過了這些問題，其實很難評測，這些問題目前來看是非常嚴峻的。

36 氪 : 現在對可解釋性，行業内可以達到的效果到底是怎樣的？

張天翼：關于 AI 的可解釋性，通常我們做兩件事：模型的可解釋性和決策的可解釋性。

對于模型的可解釋性，假如你有一個深度學習模型，我們想要理解它，可能要理解它經特定的輸入，激活了某些神經元，最終得出某個結果。這是像解剖一樣去解剖這個模型，盡可能理解它的原理。

另一方面，決策的可解釋性更關注結果。我們可能不需要深入到模型的每一步，但我們會很好奇，為什麼這個模型告訴我這個人是壞人，或者病患是癌症。模型需要能夠解釋這個決策，能夠給出一些重要的原因，這些原因需要經得起推敲。

在大型模型領網域，追求模型的可解釋性在短時間内可能是不可能的，因為模型本身的復雜度，甚至已經超過人腦能理解的程度。千億級的參數是如何協同的，已經超過了人腦的理解能力。追求模型内部每個步驟的可解釋可能已經不是一個合理的訴求。

盡管如此，我們看到一些有趣的嘗試。最近有一篇文章介紹了如何使用一個更大的模型 GPT4 來解釋較小的模型 GPT2，以幫助工程師理解大型模型是如何做決策的。這是在嘗試解釋模型的可解釋性，但其實也是用一個 " 魔法 " 來解決另一個 " 魔法 "。

在大模型決策的可解釋性方面，也可以嘗試用大模型去解釋大模型。比如，如果去慢慢誘導，它可以一步一步地把自己的一些邏輯展現。

常永波：我們近期和一些醫療、金融領網域的企業交流後，發現在可解釋性比較難解決的情況下，大家會傾向于選擇在有限的場景下使用。可解釋性是算法本身的問題，但它也可以結合專家知識、行業知識，以及一些比較經典的決策類算法進行綜合性判斷。也不是説不可解釋就完全不能使用，輔助決策的場景下大家還是願意嘗試的。

36 氪：現在行業内相關供應商以及研究者的情況是怎樣的？

張天翼：大多停留在檢測模型魯棒性方面。這個行業剛剛起步，真正能做到防御和幹預的供應商還很少。許多服務還在整合階段，但這個行業的變化和發展非常快，可能明年形态就完全不一樣了。

包括我們的蟻鑑，之前已經具備模型魯棒性等檢測能力，今年也嘗試在 AIGC 和模型可解釋方面進行更新。可解釋性的量化非常困難，現在我們也算是做了一個嘗試。經過和行業内不少機構的讨論，今天我們初步制定了包括正确性、完備性、一致性、連續性、簡潔性等 7 個維度。未來，蟻鑑還會向事中阻攔、事後糾偏能力延展。

李琦：我個人觀察到，大模型的出現使得做 NLP 和傳統做安全的研究者的交集在逐漸增多。比如，做 NLP 的研究者現在也開始關注如何使模型更安全地應用。而傳統做安全的研究者也在關注如何對抗 NLP 模型的問題。這是因為随着大模型的出現，幻覺、越獄和模型劫持等問題已經成為了這些領網域的共性問題。

之前 NLP 的研究者可能更多從模型和算法的角度來看待這些問題，安全研究者可能更關心 AI 平台整體的問題，包括模型輸入到模型輸出過程中所有可能的安全問題。當然這可能涉及模型本身的問題，也可能涉及數據輸入和預處理過程、以及 NLP 模型的學習框架依賴庫中的安全問題。但現在不論是做安全的還是做 NLP 的研究者，大家都開始關注這些。

常永波：去年之前很多的案例，都聚焦在模型穩定性和隐私保護這一塊，尤其是隐私保護這一部分非常多。可解釋和公平性更多處于研究階段，也會有一些企業結合專家系統或行業知識等，輔助提高可解釋性。

大模型出現之後，安全風險主要體現在三個大方面，一個是生成内容的風險，第二是大模型自身安全的風險，以及可解釋性等。這些方面不管是理論還是技術，都需要持續研究。後續信通院也會推動一系列大模式評估評測工作。

36 氪：另一個現象是，全球都在讨論大模型的監管，但這可能不是單個角色就可以解決的問題。你覺得大家應該怎樣一起推進這件事？

李琦：我覺得對大語言模型來説，合規和可信比過去的 AI 更難。OpenAI 雇了很多人對數據打标、做調優，還是沒辦法達成嚴格的法規預期，這已經證明了這件事的難度。這件事可能需要我們學術界一起參與，大家一起共建，目前來説還是有一些距離。

法規的完善有一個過程，但從技術本身來説，可解釋、可控，目前看來還是難題。OpenAI 大力發展人類反饋強化學習 ( RLHF ) ，為了增強模型與人類價值觀的對齊，讓大模型生成内容更加可控，但是 RLHF 本身訓練起來比較困難，這個方向還存在較大的研究空間。

再加上，法規是一方面，但具體怎麼去評測，理想和現實是有差距的。我個人理解，大語言模型會有各種變種，不同模型特點不同，可能适合的測試也不一樣，這是比較復雜的問題，特别是大模型還可能涉及多模态的問題。現在其實很多研究者也在做評測标準，根據模型輸出來對準則進行一些判别，這裏面需要很多專家支持，也需要生态共建。

常永波：大模型現在類似于互聯網革命的初期的形态，現在我們在評測中可能會更關注内容生成，當然這也是我們眼中最亟待解決的問題，這方面的規則要求也推出得比較早。其他尤其是可解釋性的問題，可能需要很長的一段時間才能解決，目前這方面更多停留在前瞻性研究階段。未來我們總體還是會從整套體系上對可信 AI 進行設計，而不是只關注其中的某個部分。

36 氪：最後一個問題。可信 AI 是比較早就提出的概念，當前在產學研界看來，AI 安全、可信 AI 以及安全的 AI 三者的關系是怎樣的？

張天翼：我覺得安全 AI 和可信 AI 的概念側重點不同。在讨論可信 AI 的基本概念或原則時，雖然各國組織和學術機構的表述有所差異，但基本原則上仍存在廣泛共識。比如在螞蟻集團，我們認為有四個基本原則，即 AI 本身的安全性，這裏包括魯棒性，另外還有隐私保護、公平性和可解釋性。除了魯棒性通常被認為與安全密切相關，可解釋性也與安全有很大關系，有時候，算法的不可解釋性或黑箱性可能對公眾構成安全隐患。綜上，可信 AI 和安全 AI 雖然有關聯，但還是兩個有所區别的概念。

李琦：我覺得可信 AI 是一個相對概念，因為 " 可信 " 很難被明确地量化。這就是為什麼存在着可解釋性的問題，因為 AI 存在很多不可解釋的問題。而 AI 安全是一個更泛化的概念，即使在使用 AI 解決安全問題的同時，也需要考慮 AI 自身的安全性。從我自身過往的觀察來看，可信 AI 主要關注算法的訓練、學習和決策過程，以及算法是否科學、有效和是否存在被攻擊的問題等。

但随着大模型的出現，可信 AI 和 AI 安全的關系變得更加復雜。深度學習本身存在許多難題，大模型的出現使得這些問題更加復雜，包括像 GPT 這樣的模型也出現了很多問題，如幻覺、越獄等。現在很多人在研究基于 GPT 這類大模型的可解釋性和安全性問題，安全的範圍實際上變得更大了。

常永波：可信 AI 這個概念從 2017 年被提出後，就強調人工智能技術本身需要具備可信的品質。我們在前幾年發布的白皮書中，也明确指出可信 AI 是一套體系化的方法論，其中自然也包括了安全性。

我的理解是，可信 AI 就是要建立人與人工智能系統間的信任關系，類似于人與人之間的關系。安全則是可信 AI 的一個重要前提，它要求通過各種技術和策略确保人工智能系統的行為和決策不會對人類造成危害，避免潛在的風險和威脅。所以我認為，AI 安全的主體應是人工智能系統本身，而安全的 AI 的範疇則更廣一些。

整體來看，人工智能的可信一定是長期話題。2020 年以來，我們已經在世界人工智能大會連續做了三屆可信 AI 研究成果的發布。未來我們還會聯合更多企業一起，建立人與人工智能系統之間的可信賴關系。