今天小編分享的科技經驗:谷歌DeepMind最新研究:對抗性攻擊對人類也有效,人類和AI都會把花瓶認成貓,歡迎閱讀。
對抗性影響人類感知
神經網絡由于自身的特點而容易受到對抗性攻擊,然而,谷歌 DeepMind 的最新研究表明,我們人類的判斷也會受到這種對抗性擾動的影響
人類的神經網絡(大腦)和人工神經網絡(ANN)的關系是什麼?
有位老師曾經這樣比喻:就像是老鼠和米老鼠的關系。
現實中的神經網絡功能強大,但與人類的感知、學習和理解方式完全不同。
比如 ANN 表現出人類感知中通常沒有的脆弱性,它們容易受到對抗性擾動的影響。
一個影像,可能只需修改幾個像素點的值,或者添加一些噪聲數據,
從人類的角度,觀察不到區别,而對于影像分類網絡,就會識别成完全無關的類别。
不過,谷歌 DeepMind 的最新研究表明,我們之前的這種看法可能是錯誤的!
即使是數字影像的細微變化也會影響人類的感知。
換句話說,人類的判斷也會受到這種對抗性擾動的影響。
論文地址:https://www.nature.com/articles/s41467-023-40499-0
谷歌 DeepMind 的這篇文章發表在《自然通訊》(Nature Communications)。
論文探索了人類是否也可能在受控測試條件下,表現出對相同擾動的敏感性。
通過一系列實驗,研究人員證明了這一點。
同時,這也顯示了人類和機器視覺之間的相似性。
對抗性影像
對抗性影像是指對影像進行微妙的更改,從而導致 AI 模型對影像内容進行錯誤分類,——這種故意欺騙被稱為對抗性攻擊。
例如,攻擊可以有針對性地使 AI 模型将花瓶歸類為貓,或者是除花瓶之外的任何東西。
上圖展示了對抗性攻擊的過程(為了便于人類觀察,中間的随機擾動做了一些誇張)。
在數字影像中,RGB 影像中的每個像素的取值在 0-255 之間(8 位深度時),數值表示單個像素的強度。
而對于對抗攻擊來說,對于像素值的改變在很小的範圍内,就可能達到攻擊效果。
在現實世界中,對物理對象的對抗性攻擊也可能成功,例如導致停車标志被誤識别為限速标志。
所以,出于安全考慮,研究人員已經在研究抵御對抗性攻擊和降低其風險的方法。
對抗性影響人類感知
先前的研究表明,人們可能對提供清晰形狀線索的大幅度影像擾動很敏感。
然而,更細致的對抗性攻擊對人類有何影響?人們是否将影像中的擾動視為無害的随機影像噪聲,它會影響人類的感知嗎?
為了找到答案,研究人員進行了受控行為實驗。
首先拍攝一系列原始影像,并對每張影像進行了兩次對抗性攻擊,以產生多對擾動影像。
在下面的動畫示例中,原始影像被模型歸類為「花瓶」。
而由于對抗性攻擊,模型以高置信度将受到幹擾的兩幅影像進行錯誤分類,分别為「貓」和「卡車」。
接下來,向人類參與者展示這兩張圖片,并提出了一個有針對性的問題:哪張圖片更像貓?
雖然這兩張照片看起來都不像貓,但他們不得不做出選擇。
通常,受試者認為自己随意做出了選擇,但事實果真如此嗎?
如果大腦對微妙的對抗性攻擊不敏感,則受試者選擇每張圖片的概率為 50%。
然而實驗發現,選擇率(即人的感知偏差)要實實在在的高于偶然性(50%),而且實際上圖片像素的調整是很少的。
從參與者的角度來看,感覺就像他們被要求區分兩個幾乎相同的影像。然而,之前的研究表明,人們在做出選擇時會利用微弱的感知信号,——盡管這些信号太弱而無法表達信心或意識。
在這個的例子中,我們可能會看到一個花瓶,但大腦中的一些活動告訴我們,它有貓的影子。
上圖展示了成對的對抗影像。最上面的一對影像受到微妙的擾動,最大幅度為 2 個像素,導致神經網絡将它們分别錯誤地分類為「卡車」和「貓」。(志願者被問到「哪個更像貓?」)
下邊的一對影像擾動更明顯,最大幅度為 16 像素,被神經網絡錯誤地歸類為「椅子」和「羊」。(這次的問題是「哪個更像綿羊?」)
在每個實驗中,參與者在一半以上的時間裡可靠地選擇了與目标問題相對應的對抗影像。雖然人類視覺不像機器視覺那樣容易受到對抗性擾動的影響,但這些擾動仍然會使人類偏向于機器做出的決定。
如果人類的感知可能會受到對抗性影像的影響,那麼這将是一個全新的但很關鍵的安全問題。
這需要我們深入研究探索人工智能視覺系統行為和人類感知的異同,并構建更安全的人工智能系統。
論文細節
生成對抗性擾動的标準程式從預訓練的 ANN 分類器開始,該分類器将 RGB 影像映射到一組固定類上的概率分布。
對影像的任何更改(例如增加特定像素的紅色強度)都會對輸出概率分布產生輕微變化。
對抗性影像通過搜索(梯度下降)來獲得原始影像的擾動,該擾動導致 ANN 降低分配給正确類别的概率(非針對性攻擊)或将高概率分配給某些指定的替代類别(針對性攻擊)。
為了确保擾動不會偏離原始影像太遠,在對抗性機器學習文獻中經常應用 L ( ∞ ) 範數約束,指定任何像素都不能偏離其原始值超過 ±ε,ε 通常遠小于 [ 0 – 255 ] 像素強度範圍。
該約束适用于每個 RGB 顏色平面中的像素。雖然這種限制并不能阻止個體檢測到影像的變化,但通過适當選擇 ε,在受擾動的影像中指示原始影像類别的主要信号大多完好無損。
實驗
在最初的實驗中,作者研究了人類對短暫、遮蔽的對抗性影像的分類反應。
通過限制暴露時間來增加分類錯誤,該實驗旨在提高個體對刺激物某些方面的敏感度,否則這些刺激物可能不會影響分類決策。
對真實類别 T 的影像進行了對抗性擾動,通過對擾動進行優化,使 ANN 傾向于将影像錯誤分類為 A。參與者被要求在 T 和 A 之間做出強制選擇。
研究人員還在對照影像上對參與者進行了測試,對照影像是通過自上而下翻轉在 A 條件下獲得的對抗性擾動影像形成的。
這種簡單的轉換打破了對抗性擾動與影像之間像素到像素的對應關系,在很大程度上消除了對抗性擾動對 ANN 的影響,同時保留了擾動的規範和其他統計數據。
結果表明,與對照組影像相比,參與者更有可能将擾動影像判斷為 A 類别。
上面的實驗 1 使用了簡短的遮蔽演示,以限制原始影像類别(主要信号)對反應的影響,從而揭示對對抗性擾動(從屬信号)的敏感性。
研究人員還設計了另外三個具有相同目标的實驗,但避免了大範圍擾動和有限曝光觀看的需要。
在這些實驗中,影像中的主要信号不能系統地引導反應選擇,從而使從屬信号的影響得以顯現。
在每個實驗中,都會出現一對幾乎相同的未遮蔽刺激物,并且在選擇反應之前一直保持可見。這對刺激物具有相同的主導信号,它們都是對同一底層影像的調制,但具有不同的從屬信号。參與者需要選擇更像目标類别實例的影像。
在實驗 2 中,兩個刺激物都是屬于 T 類的影像,其中一個經過擾動,ANN 預測它更像 T 類,另一個經過擾動,被預測為更不像 T 類。
在實驗 3 中,刺激物是一幅屬于真實類别 T 的影像,其中一幅被擾動以改變 ANN 的分類,使其向目标對抗類别 A 靠攏,另一幅則使用相同的擾動,但左右翻轉作為對照條件。
這種對照的作用是保留擾動的規範和其他統計量,但比實驗 1 中的對照更為保守,因為影像的左右兩邊可能比影像的上下部分具有更相似的統計量。
實驗 4 中的一對影像也是對真實類别 T 的調制,一個被擾動得更像 A 類,一個更像第三類。試驗交替要求參與者選擇更像 A 的影像,或者更像第三類的影像。
在實驗 2-4 中,每張影像的人類感知偏差與 ANN 的偏差顯著正相關。擾動幅度從 2 到 16 不等,小于以前對人類參與者研究的擾動,并且與對抗性機器學習研究中使用的擾動相似。
令人驚訝的是,即使是 2 個像素強度水平的擾動也足以可靠地影響人類感知。
實驗 2 的優勢在于要求參與者做出直覺判斷(例如,兩張被擾動的貓影像中哪一個更像貓);
然而,實驗 2 允許對抗性擾動僅通過銳化或模糊影像,即可使影像或多或少像貓一樣。
實驗 3 的優勢在于,匹配了所比較的擾動的所有統計數據,而不僅僅是擾動的最大幅度。
但是,匹配擾動統計并不能确保擾動在添加到影像中時同樣可感知,因此,參與者可能根據影像失真進行選擇。
實驗 4 的優勢在于,它證明了參與者對被問的問題很敏感,因為相同的影像對會根據提出的問題產生系統性不同的回答。
然而,實驗 4 要求參與者回答一個看似荒謬的問題(例如,兩個煎蛋卷影像中的哪一個看起來更像貓?),導致問題解釋方式的可變性。
綜上所述,實驗 2-4 提供了趨于一致的證據,表明即使擾動幅度非常小,且觀看時間不受限制,對人工智能網絡產生強烈影響的從屬對抗信号,也會在相同方向上影響人類的感知和判斷。
此外,延長觀察時間(自然感知的環境),是對抗性擾動產生實際後果的關鍵。