今天小編分享的科技經驗:我們常用的驗證碼也AI了,歡迎閲讀。
現在當我們熟悉地打開騰訊的登錄頁面,可以發現曾經熟悉的登錄驗證碼變了樣。現在網頁端登錄 QQ,驗證碼階段不再是輸入正确的數字、英文單詞或者移動滑條,而是需要手動選出一張或者兩張符合文字描述的、由 AIGC 生成的圖片。
對用户來説哪種形式的驗證都是流程的一環而已,填寫正确數字和選擇符合描述的圖片區别不大,甚至選擇這種由 AI 生成的圖片還更直觀一些,有時随機生成的數字、字母,刷新三四次都依然看不清寫的是什麼。
但對網絡安全來説,AI 的加入有着重大意義。單單是驗證碼系統,就曾因為 AI 發展的需要大幅度改變形态,現在又和 AI 的衍生物:AIGC 緊密結合到一起,進入了新階段。
驗證碼的前世今生
驗證碼英文叫做 " CAPTCHA ",是 " Completely Automated Public Turing test to tell Computers and Humans Apart " 的縮寫,翻譯過來是 " 全自動區分計算機和人類的圖靈測試 "。
從名稱可以看出,驗證碼本質就是一種圖靈測試,主要為了區分在電腦前的是人還是機器人(程式)。21 世紀初互聯網興起,大家發現除了能在網上看到各種新奇的消息外,還回收到非常多 " 來者不善 " 的垃圾信息,當時最出名的就是垃圾郵件。有居心不良者通過程式,利用當時郵件注冊要求不高(無需驗證實名、電話号碼等)的漏洞,7x24 小時無休止地注冊大量賬号、不斷發送垃圾郵件,為當時的上網衝浪選手帶來了極大困擾。
這時,卡内基梅隆大學教授路易斯 · 馮 · 安(Luisvon Ahn)察覺到程式很難像人一樣識别歪歪扭扭的英文單詞、數字,如果為注冊郵箱、發送郵件設定門檻,要求必須根據歪曲的字元或數字來輸入正确的答案,這就成為了最早的驗證碼,這也是 CAPTCHA 公司的由來。
這時路易斯 · 馮 · 安想出了另一個天才主意。當時正值書籍、報刊需要大量掃描電子化的時代,但報刊所使用的英文藝術字,對電腦程式、掃描器來説簡直是鬼畫符,根本看不懂。路易斯 · 馮 · 安就将驗證碼系統上毫無意義的英文字母,換成了海量從書籍報刊上掃描的、難以識别的英文單詞,讓用户幫忙識别。
為此,代表着全新策略、全新業務的 reCAPTCHA 誕生了。
這是一個功德無量的決定。2007 年推出之初,reCAPTCHA 每天都能幫助錄入 3000 萬個字元。2008 年,這個數字飙升到了 6000 萬個。在媒體量子位的報道中,現在全世界每天都有 2 億個字元通過 reCAPTCHA 錄入,相當于人類 15 萬小時的工作量。
路易斯在接受媒體 TheHustle 采訪時這樣評價 reCAPTCHA:" 我創造了一個系統,以十秒為部門,數百萬小時為增量,來利用世界上最寶貴的資源:人的大腦。"
迄今為止, reCAPTCHA 已經錄入了從 1851 年至今的所有《紐約時報》,共計 1300 萬篇文章。除《紐約時報》外,reCAPTCHA 還數字化了超過 2500 萬本書,而全球的圖書數量約為 1.3 億本。
驗證碼和 AI 的不解之緣
reCAPTCHA 的成功經驗啓發了谷歌,萌生了利用驗證碼去完成另一個龐大任務的念頭。2009 年,Google 以大約 2780 萬美元的價格收購了 reCAPTCHA,2012 年開始,谷歌陸續将自家街景中拍到的門牌、路牌、紅綠燈、自行車、公共汽車等加入到驗證碼中讓用户根據指令選擇正确的答案,背後的目的是讓用户對程式難以識别的影像進行标注,提高 AI 的識别能力。
在第一輪驗證中,驗證碼系統已經知道正确答案了,如果你能做對,系統就知道你是真人。之後驗證碼系統會放出第二、第三組圖片,裏面可能會包含一些 AI 還沒有識别出來需要标注的圖。如果 10 個真人用户都在同一個問題中選擇了同樣答案,那麼谷歌就會為這張圖片标注。
在每天調用千萬次、過億用户的訓練下,谷歌 AI 的識别率顯著提高,運用了谷歌 AI 技術的無人駕駛汽車 Waymo,已經在自動駕駛領網域處于遙遙領先的地位,被稱作是世界上最可能最先到 L5 級别( 完全自動駕駛 )的公司。
谷歌更是毫不忌諱地在 reCAPTCHA 官網上谷歌白紙黑字寫明了,他們在利用驗證碼系統集用户之力标注數據、訓練 AI。
圖源:reCAPTCHA 官網
谷歌也沒有一直 " 白嫖 " 用户的打算。目前 reCAPTCHA 已經将大部分網站的驗證碼更新為體驗更好的無感驗證。技術原理是驗證系統會利用 AI 追蹤分析用户的滑鼠鍵盤的軌迹,結合分析浏覽器數據,來綜合判定用户是不是機器人。這時我們就不用再費盡心力去辨别眼花缭亂的影像或者歪歪扭扭的文字,只需要點擊一下 " 我不是機器人 ",系統就能為你正名。用户們幫谷歌訓練了那麼久的 AI,終于得到 AI 的反哺了。
新時代,驗證碼上的 AI 怎麼玩?
不過 reCAPTCHA 的 " 我不是機器人 " 驗證碼目前還是獨家專屬,沒有和 reCAPTCHA 合作的平台、公司,只能繼續使用傳統 " 選擇正确圖片 " 的圖片驗證碼或 " 移動滑條 " 的驗證碼。
其中在圖片的驗證碼中使用的圖片資源有限,更重要的是一些灰產同樣可以通過人工标記打碼的方式,協助黑客程式進行窮舉,如果驗證碼圖片庫更新不夠快、數量不夠多,就容易被撞庫。
因此,進入了 AI 新時代後,AIGC 技術在驗證碼系統上更有妙用。當前 AIGC 每天就可以根據不同的提示詞生產超過 43 萬張可用于驗證碼系統的圖片,還可以做到每張都不完全一樣,能大幅提高軟體破解驗證碼的難度。
另外基礎的圖片選擇驗證碼,實際上可以視為一個目标檢測的問題,對于機器視覺來説并不困難。但若改為給定一句文字描述," 找出九宮格中符合該描述的圖片 ",就可以将目标檢測更新為語義匹配,對于機器而言,難度提升了多個數量級。
現在有了 AIGC 就意味着有無限的素材去搭配無限的問題,相比過去采用街景、實拍影像作為影像素材的做法成本更低效率更高,也無需擔心侵權問題,日後也許會成為語義匹配驗證碼的主流。
無論是 reCAPTCHA 的 " 我不是機器人 " 驗證碼,還是基于 AIGC 的語義匹配驗證碼,AI 的加入為提高驗證碼的安全性、易用性體驗作出了不可磨滅的貢獻。今天能在眾多網站安全快速地注冊、浏覽,郵箱和站内私信能避免垃圾信息的轟炸,他們居功至偉。
另一方面,從公司層面,效仿谷歌借助驗證碼系統的 To C 特性,請海量用户們為 AIGC 内容做内容标注,也是誘人的選擇。
畢竟從現實角度來考慮,常規方式訓練 AI、做數據标注實在太費錢了。
當前做數據标注主要分為機标和人标兩種,機标是指機器學習算法對數據進行标注。這種方法的優點是速度快、成本低,缺點是标注結果準确度較低。而人标則是由名為 AI 訓練師或數據标注師的工作人員對數據進行标注,部分人還會參與調整 Prompt。這種标注方式的優點是标注結果準确度高,但耗時耗力,成本較高。
有媒體指出,人标的成本經歷了一輪下降後,依然接近數據量的十分之一,如果需要處理 1000 萬級别的數據,就可能需要 100 萬元的人力、租金、設備成本。如果将 AIGC 生成的圖片放到驗證碼上讓用户進行标注,不僅能得到高準确度的标注結果,省下的人标成本還會是一筆可觀的數字。
只不過 " 讓用户幫忙訓練 AI" 這件事也得有限度。像谷歌這樣讓用户成為免費勞動力,已經惹怒了部分人,他們認為谷歌讓幾百萬人幫他們幹活,然後不花一分錢是不合适的;其他公司如果也有意借用驗證碼系統來讓用户無償勞動,最好關注一下用户對此的感受和接受程度。
進入 AI 新時代,享受着 AI 發展帶來的方便和紅利,同時肩負着 AI 帶來威脅和隐形成本,是用户和大公司都需要面對的選擇題。
參考資料
1. 人機識别技術再更新,AIGC 為驗證碼帶來萬億種新變化 阿裏雲
2. 驗證碼大戰 AI:神仙打架,我們遭殃,驗證碼還能變簡單嗎? 柴知道
3. 每識别一次驗證碼,你可能都被割了一次韭菜? 差評
4. 你以為自己在填驗證碼,其實你是在給 Google 義務勞動 量子位
5.41 歲的天才數學教授,創造了 " 驗證碼 " 和 " 多鄰國 ",身家 7 億美元 36 氪