探秘WAIC鎮館之寶：AI“釣魚”AI，人類看戲

今天小編分享的科學經驗：探秘WAIC鎮館之寶：AI“釣魚”AI，人類看戲，歡迎閱讀。

一個專攻大模型的" 黑客 "，竟搖身一變，當選人工智能大會（WAIC） " 鎮館之寶 "？！

WAIC 鎮館之寶展區上，一眾人工智能領網域創新成果亮相。

不管從科技含量、市場前景、通用性、社會經濟效益等維度都具有先進性和代表性。

這當中，竟意外發現了個 " 異類 "。

别看它一個矮萌機器人，表面人畜無害。但背地裡專幹 " 釣魚執法 " 的事兒，引誘大模型 " 越獄 "。

據稱，背後生成的花樣誘導問題都是百萬數量級起的。

探秘 AIGC 鎮館之寶

事實上，這個機器人名為蟻鑑，通過智能對抗技術，自動并持續生成海量測試集話術，誘導 AIGC 對話模型生成風險内容。

像一個 24 小時不眠不休的 " 安全黑客 " 找茬大模型，定位大模型存在的弱點和安全問題所在，實現以攻促防。

換句話說，AI" 釣魚 "AI。

于是乎，在展區現場就形成了一場奇妙的 AI 對壘——

左邊正是 " 蟻鑑機器人 "，右邊則是一個具備文本生成文本對話能力的語言模型，兩兩對抗。

中間的顯示屏記錄了一切，嗯，專供給人類看戲。

旁邊的工作人員透露了左邊選手的底牌：是生成式 AI 安全檢測平台 " 蟻鑑 " 通過 AI 自動生成的百萬量級誘導攻擊提問，涵蓋 " 内容安全 "、" 數據安全 "、" 科技倫理 " 三個大的模塊，共有數百種風險類别。

每個模型基本上能被攻擊個三四萬次。

攻擊過程中，它還會不斷精進更新話術，增強自己的能力。

不過稱之為"AI 黑客 "并不恰當，更準确地來說，是個AIGC 安全性測評工具。

這是因為誘導之後，它會自動生成一份檢測報告，從可用、可靠、可信和可控等維度來衡量 AIGC 模型的潛在風險。

從技術維度出發，整個過程可以抽成三個步驟：

自動生成海量測試用例；誘導式對抗檢測系統；根據誘導生成模型和标準評價模型生成測評報告

可以看到的是，從第一步自動生成測試數據開始，它就已經将生成數據進行了結構化處理。

按照生成渠道、誘導等級來劃分，分别都劃分了四個等級。（按照等級從小到大排列）

生成渠道：人工生成、模版生成、指令生成、誘導生成；

誘導等級：正常話題、安全話題、文本對抗、邏輯對抗。

不過這并非蟻鑑的首次亮相，去年 WAIC 上就已經上線 1.0 版本。今年，這套平台全面更新 2.0 版本。

在原有魯棒性測評工具的基礎上，新增了前文所述的 AIGC 安全性評測，以及可解釋性評測工具。

它能圍繞完整性、準确性、穩定性、差異性等 7 個評測維度及 20 項評測指标，利用邏輯推理、因果推斷等技術，對 AI 系統進行分析和評價，支持表格、文本、影像等多種數據和任務類型。

目前，通過螞蟻與清華大學等機構的聯合科研，已經将 " 蟻鑑 2.0" 這套工具推向通用化和标準化——

支持數字金融、教育、電商等大規模復雜的業務場景對 AI 安全性檢測需求。

據了解，這種實現產業級應用支持文本、影像等全數據類型的 AI 安全檢測平台。放眼業内，尚屬首次。

既然如此，這樣一個 "AI 安全黑客 "，究竟如何煉成？

來自螞蟻安全天筭實驗室

随着人工智能走向生成式 2.0 時代，如何用可信 AI 保障着 AI 的創造力，也成為全球產學研界熱議的焦點。

自 2015 年起，螞蟻集團就開啟了可信 AI 的相關實踐和探索。

作為螞蟻集團在人工智能領網域的重點布局之一，專注于可信 AI 技術研究的螞蟻安全天筭（音同 " 算 "）實驗室就由此誕生。

據實驗室主任張天翼介紹，目前實驗室主要做兩件事。

一件事是安全需要 AI。

諸多像反欺詐、反洗錢、企業聯合風控、數據隐私保護在内的風控場景，對 AI 的訴求比以往高出不少。通過 AI 技術建設起一套智能風控解決方案，還支撐起了支付寶的智能化不斷更新，保障了十幾億人的數字化服務體驗。

據工作人員介紹，

完成一筆支付的風控判斷，往往只需 10 毫秒。支付寶資損率連續三年低于億分之一。

另一件事就是AI 需要安全。

今天 AI 系統各種智能模型，廣泛地應用于各種業務場景中，模型本身的安全、可靠、可信等方面的考量和評估，也就成為了 AI 系統穩定運行的關鍵基石。具體產品代表也就是 AI 安全檢測平台 2.0。

這次世界人工智能大會上，螞蟻可信 AI 技術架構得到首次系統公開——

可信 AI 決策大腦，基于底層軟、硬體、計算平台底層基礎設施，圍繞模型全流程各階段打造解決方案。

整個技術體系的打造核心圍繞着可信 AI 的四項基本技術原則，包括魯棒性、可解釋性以及隐私保護和公平性。

基于多年深耕，螞蟻安全天筭實驗室在可信 AI 領網域的技術成果得到業界多方認可。

據全球權威知識產權第三方機構 IPRdaily 發布《AI 安全可信關鍵技術專利分析簡要報告》顯示：

截至 2022 年 11 月 28 日，螞蟻集團以 753 件專利位居第一，遠高于其他企業。并且已經連續兩年取得這樣的成績，布局全球 15 個市場。

天筭實驗室也經常亮相各大頂會。比如在 AAAI-23 會議中，他們在全圖風控和可信 AI 方向上，共有 4 篇關于對抗算法、圖算法和隐私保護的論文入選。

在大模型研發中，安全也是螞蟻的關注重點。前段時間，螞蟻官宣正在和清華大學攜手推動 " 安全通用大模型 " 的技術路線和落地研究，以應對大模型技術爆發時代的安全科技生產力問題，及通用 AI 能力廣泛應用帶來的新型未知風險防控。

在此之前，雙方曾通過 CCF- 螞蟻科研基金、定向聯合研究等模式，開展了多項課題合作。清華大學高等研究院還與螞蟻集團聯合設立了 " 隐私計算與區塊鏈聯合研究中心 "。

AI 治理往何處去？

最後，回到這件事情本身，AIGC 安全檢測，其實是當下整個 AI 發展的一個縮影。

随着 ChatGPT，以及一系列相關 AI 技術在全世界產生越來越大的影響。對于 AI 治理問題被提上日程，成為了整個社會迫切要解決的事情。

前段時間，深度學習之父突然離職退休，只為 " 為了自由地讨論人工智能的風險 "。

不久之後，包括馬斯克、蘋果創始人沃茲尼亞克、OpenAI 創始人山姆 · 奧特曼等等在内的一眾科技領袖和行業專家，共同籤署發布了一封聯名信。

這封公開信号召人們警惕 AI 給人類帶來的風險，并且把這一事物作為" 全球的優先級 "。

同一時間，AI 詐騙造假上升到了新高度，各種整活兒衝上熱搜震驚全網。

事實上，在此之前國内外產學研已經展開一定的探索。

着眼于國内，前幾年，業界集中成立了一批關注隐私計算的公司；著名計算機科學家周以真曾經發表《可信人工智能》一文，探讨 " 可信 AI" 的定義；

而央行、國家市場監督管理總局也都曾經發布過相關規範，為不同領網域的 AI 算法确立了安全評估标準……

但現在特别是今年，AI 技術範式發生突破性變革，整個產業格局乃至社會環境也随之發生了翻天覆地的變化。

我們對于通用 AI 應用在各行業的想象也更加具象。

比如在 AI 課堂，它能根據不同學生的學習進度量身定制、因材施教，提供靈活學習模式與進度跟蹤；還有遊戲行業，多模态對話、與具有自主意識的 NPC 互動，給玩家帶來更沉浸式的體驗……

那麼關于 AI 治理、AI 安全、可信 AI 的研究與探索，也勢必會因時制宜地誕生出新的思考和方法論。

中國信息通信研究院研究員龔柳婷表示，為未來趨勢的風險做前瞻性布局。

首先預測人工智能領網域未來發展趨勢，主要有兩個方向，通用人工智能和具身智能。為了更好地應對人工智能發展過程中可能出現的新風險、新挑戰，我們需要在人工智能生產全生命周期進行提前布局和準備，在技術應用設計之初，就将可信 AI 的原則作為整體技術發展的價值判斷。

那麼更關注技術前瞻性的學術界，是否可以給出更多可行路徑？

清華助理研究員趙乙則談到了兩點措施：

第一點，加大對 AI 可解釋性研究的投入。特别是對于網絡空間安全和互聯網體系結構等這些細分領網域。這些領網域與國家安全密切相關，可信 AI 尤為重要。

第二點，關注 AI 技術存在的客觀限制，如何利用特定領網域的客觀限制，主動地提升 AI 可解釋性，規避潛在風險。

至于產業界，螞蟻集團張天翼則表示，會傾向判斷什麼趨勢是不變的，然後圍繞這一原則展開。

那就是真正讓 AI 保持在一個可用、可控、可信、可靠這樣的這個框架内。

可信 AI 如何量化？

為了更好理解可信 AI 發展和未來趨勢，量子位專程邀請到了中國信息通信研究院研究員龔柳婷、清華助理研究員趙乙、螞蟻安全天筭實驗室張天翼，與三位國内深度參與可信 AI 構建的行業從業專家展開了探讨。

在不改變原意的基礎上，量子位做了如下梳理。

1、量子位：什麼時候開始關注可信 AI？跟當初相比有什麼變化？

趙乙：最早 2018 讀博時期，看到網絡安全四大頂會開始有 AI 安全方面的工作，但研究相對不多。但近幾年每年頂會都有單獨的 track 收錄這個方向的論文，研究人員和研究成果都有很大數量的增加。

龔柳婷：我個人最早是從 2020 年開始關注可信 AI 的，當時主要是從產業的實踐當中發現了人工智能技術和應用存在的客觀風險和問題，當時可信 AI 的理念已經被一些企業認可，并且開始探索相關的企業實踐，例如成立人工智能倫理治理委員會等。到了現在，可信 AI 基本形成了全球共識，成為了落實人工智能治理的重要方法論，企業也成為了實踐可信 AI 的重要力量。

張天翼：我個人是在 18 年 19 年左右開始接觸可信 AI 實踐。前幾年工作更傾向于單點問題解決，現在可信 AI 成為一個整體概念，更多體系化、完整的解決方案誕生。

2、量子位：可信 AI 在各位眼中到底是什麼？應該有什麼标準？

龔柳婷：可信 AI 标準框架，應該覆蓋人工智能全生命周期，同時需要包括組織管理、風險控制、具體技術等角度。

趙乙：從定義講，可信 AI 至少包括三個要素：1、魯棒性；2、隐私保護；3、泛化能力，這三個要素也是相互循環的。

張天翼：可信 AI 在產品落地上是個高速發展的概念，并與人類生活密切相關，很多產品比如谷歌亞馬遜的語音助手，明确強調數據收集尊重用戶因素。

3、量子位：國内外產學研界一些具體、比較明顯的 AI 風險場景？

趙乙：我研究的重點還是圍繞網絡空間安全領網域，比如用 AI 去做惡意流量的檢測。

龔柳婷：當下關注度比較高等風險之一是 AIGC 生成内容的風險，比如可能生成暴力黃色等不合規内容，以及對話式模型在不同語言環境下會給出不一樣的回答等，這些問題需要通過内容過濾和篩選機制等風險控制機制來緩解和規避。

張天翼：從黑灰產角度，現在用來生成攻擊、偽造的材料成本降低了，那麼就會有更多非法嘗試，比如圖片證件的偽造。

4、量子位：可信 AI 如何變成一個可量化、可比較的指标？

張天翼：這是個非常大的難點。一種比較常見的思路是根據應用場景提煉，來衡量模型的魯棒性和安全性。但在可解釋性上，很難用完整、單一的指标來衡量它。我們一個非常重要的工作思路就是将機器學習與專家經驗進行一個更好的融合，怎麼去提煉出融合範式。

5、量子位：技術在防範 AI 風險中扮演什麼角色？

龔柳婷：技術是幫助我們落地 AI 風險防範原則的重要手段。任何的可信 AI 原則都不可能自我執行，必須借助一系列相互配合的運作機制才能得到落實。通過技術、管理等手段等配合，制定出一套針對性、可操作的系統化落地方案，才能将可信 AI 的原則落實到一個個具體的應用場景中，解決具體的問題。

趙乙：專家知識是非常寶貴的财富，這肯定必須應用。但因為可解釋性的原因，我認為今後一個可能方向，就是魔法打敗魔法，就比如大模型安全問題，可能會設計一種更行之有效的大模型去發現其他大模型的問題。

— 完 —

點這裡關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~