今天小編分享的科學經驗:太火了!我在外灘大會玩Deepfake,想騙過機器人結果……,歡迎閲讀。
我在外灘大會上生成 Deepfake,結果沒騙過機器人……
反倒啪的一下,秒秒鍾就被找出?!
而機器人手中的神兵利器,僅僅只是我們日常都在使用的手機攝像頭。
實在是太火了!
Deepfake 攻防,成為整個外灘大會現場最受關注的展區之一;相關讨論也成為整個外灘大會最火熱的論壇,現場可以説是人山人海人擠人。
之所以如此受關注,也有大眾已知的原因。
這不最近 DeepFake 可以説是來勢洶洶,用這項 AI 技術犯罪的嚴重程度被網友直呼是「韓國 N 号房再現」。
剛提到的這場 "全球 Deepfake 攻防挑戰賽",吸引了全球 26 個國家和地區,2200+ 技術研究者對抗 Deepfake 威脅。在這期間,大賽隊伍中科院自動化所表示,将開源 AI 模型供大家免費使用,一時間引發全網朋友共鳴。
如今在外灘大會,終于有機會親自體驗這個 Deepfake 從生成到對抗的流程是什麼樣,看 AI 如何幫助普通人識别偽造風險。
這背後究竟還有哪些細節?除此之外還有哪些亮點,我們一起來看看。
探展螞蟻數科
那麼首先就來看螞蟻數科裏這個超火的展區:Deepfake 攻防。
整個過程你唯一需要做的,就是站在一個定點,由 iPad 拍攝人臉。
然後,就由現有 AI 模型來生成的換臉圖 or 視頻。
Deepfake 就由機械臂來從三組圖 + 一個視頻中找出真照片。可以看到視頻還是很逼真的,這下誰能證明 " 我不是我 "。
由于是現場實時物理采集,機械臂手持智能手機打開相機拍照來收集數據,然後再進行一個識别的操作。
短短幾秒鍾的時間,bingo~ 機器人就識别出來了正确答案。
據現場工作人員介紹,在他們日常工作中,往往最快三秒就可以識别出來。
這背後是由天玑實驗室以及安全品牌 ZOLOZ提供技術支持。
前者主要專注在可信數字身份這塊,自研了一套自動化生物識别測評體系。當前市面上 70% 的安卓手機,都要來到天玑實驗室經歷一番 " 毒打 "。它也是谷歌全球唯一官方合作 " 安卓生物識别安全 " 檢測實驗室。
而後者,則是螞蟻數科旗下安全科技品牌 ZOLOZ,現在在為中國、印尼、馬來西亞、菲律賓等 14 個國家和地區的 70 餘家合作夥伴提供技術服務,包括像端到端身份驗證、在線欺詐檢測以及持續風險監控服務等。
今年 4 月,他們推出了反 Deepfake 產品ZOLOZ Deeper。外灘大會展示的,正好是他們日常的真實業務場景——
幾十萬測試樣本,每月超 20000 次的攻防測評,模拟上百種偽造攻擊情況 ·····
同樣以直觀可感的方式展示出來的,還有他們的 AI 标注場景。
AI 大模型生產流程通常包括三個步驟:采集 - 标注 - 合成。
首先是采集過程。
現場準備了一個模拟真實環境的沙盤,我們通過控制機械臂來對沙盤中任意位置 or 場景,進行實時拍照。
這時候影像數據也就被傳輸到系統當中去,這也就完成了數據生產的起點。
随後就是标注這一步驟,不再是傳統依靠純人工的方式,而是依靠自研的多模态大模型來 AIGD(AI 生成數據)。
模型會自動完成目标檢測并标注、語義分割、文本描述、深度檢測、3D 建模等任務。
人類主打一個協助審核的作用,比如在文本描述階段,需要靠人工來審核識别目标的細節,比如物體的顏色、形狀等等。
最後就來到數據合成。核心特點就是可控。既可以對單個物體編輯,也可以對整體場景把關。
這樣一來無需采集,打破原有真實條件限制,可持續地生產全新的數據。
而除了實景标注,旁邊還有個視頻标注的模塊,只需對任意視頻中的任意一幀進行采集,同樣也可以完成接下來的标注和合成操作。
這樣一套全鏈路生產體系,實測顯示,在同類結構和同類規模數據量的情況下,會讓标注效率提升 40% 以上。
除了智能化标注產品,螞蟻數科還配備了萬人的人工标注團隊,垂直專業領網域同高階标注人才超過 90%。
提到數據标注,當前市面上最具代表的莫過于 Scale AI,科技圈當紅獨角獸,他最新完成近 10 億美元融資,估值升至 138 億美元。
不過同 Scale AI 不同的是,此次可以看到螞蟻數科還提供數據加工、合成衣務。
比如在一些企業私網域或者垂直領網域,大量數據尚未公開沒有被充分挖掘。
結合螞蟻數科多年來場景和技術優勢,這時候除了幫助企業實現數據服務的 " 就地取材 ",還可以針對性地數據泛化,比如像交通、政務、金融等垂直場景,合成更多高質量數據。
好了,以上 Deepfake 攻防與智能标注是此次螞蟻數科最具代表性的展區内容。
值得注意的是,這正好是當前業界正在熱議也是最受關注的兩個問題:
當 AI 應用泛濫,如何應對造假問題;大模型加速落地,高質量數據缺失又應該如何解決?
如今大模型時代來到應用時期,更多風險和問題由此暴露出來,給企業帶來了不少挑戰。
對于本身在產業深耕多年的螞蟻數科,其實這次也帶來了他們的解決方案。
這藏在外灘大會上,藏在這兩個最受關注的產品之中。
他們整個業務布局,可以這樣總結:從 AI For Data 到 Data for AI。
從 AI For Data 到 Data for AI
什麼是從 AI For Data 到 Data for AI?要回答這個問題,需要從整個產業現狀開始看。
AI 發展到現在,從模型驅動來到了數據驅動,而随着數字化轉型的深入,企業生產經營實際上是數據的流通。技術與場景,AI 與 Data,從未像今天這樣如此契合。業務場景需要 AI 來提效,而高質量數據需要充分利用為給 AI。
一邊是AI for data,利用 AI 來充分挖掘數據的價值,進行數據分析、判别等。
以風控場景為例,這是每個企業經營生產時都會面對的場景。
螞蟻數科搭建了一套決策式 AI 驅動的風控算法模型。引入像工商司法數據、财報數據、產業鏈數據、發票税務數據、輿情數據等,來幫助企業做出高效準确的決策。
以往需要大量人力進行人肉風控,對于他們來説,理解管理訴求和快速決策布控非常具有挑戰性。而現在只需要 AI 這個決策輔助在手,運營新手面對再復雜的場景也能 hold 住了。
比如螞蟻數科與中鐵建的合作中,他們共建了一套 " 產業數據 +AI 模型 " 的產業風控平台,讓產業鏈的客商準入效率提升了至少 50%。
一邊data for AI,高質量數據是訓練 AI 模型的基礎。AI 驅動的數據服務 - 數據加工 - 數據标注于一體的方案,加速企業大量原始非結構化數據朝着高質量結構化數據的轉化。
除此之外,還有像蟻天鑑這樣的大模型安全產品,來保障大模型在訓練生產和使用過程中的安全可控可靠。
我們注意到,螞蟻數科已經形成 ABC 三大業務板塊:
首先是雲服務(Cloud+),幫助企業邁入數字化「上雲」階段,打造更強大的科技引擎;
第二塊是 AI 服務(AI+),以 AI 技術重構更新風控、營銷等場景效率,助力企業在大模型時代建立競争優勢。
第三塊是區塊鏈服務(Blockchain+),通過科技構建產業信任,提升數字化協作效率,加速數據資產流通。
對于螞蟻數科來説,ABC 中的 "A" 很重要,很明顯的指向是,此次螞蟻數科呈現出來的業務布局 "從 AI For Data 到 Data for AI",有三個特點:
產業、產業還是產業。用 AI 真實創造產業價值,解決實際問題。這同樣也是大模型應用最緊要的命題。
產業需要什麼樣的 AI?
大模型發展到現在,人們對大模型的看法已經變了。
比如就從最近諸多行業問題與思考開始,影像視頻生成模型頻頻開卷,人們的目光不再聚焦于效果多麼驚豔,而是因為效果過于逼真,開始擔心背後的潛在隐憂;被「緩解高質量數據荒」的數據合成,結果 Nature 封面一個:Garbage in Garbage out,數據合成越多會導致語言模型崩潰,給這個新興行業趨勢澆了冷水……
以及關于 ScallingLaws 的讨論,在行業應用的大模型,參數量到底在多少合适?真的是越來愈多,模型性能就會好嗎?
種種問題,甚至還導向了另一種傾向:大模型,是不是真的存在泡沫?
之所以能引起這樣的思考,其實也不難理解。
随着大模型技術的發展和應用的深入,一方面人們逐漸意識到了大模型能力的邊界。模型的參數量不再作為模型能力的核心指标,高質量的數據流入才能保證模型高性能。
另一方面,大模型進入應用深水區。產業界對 AI 的需求,已經不僅僅是單純的技術追求,解決實際問題才是衡量大模型的唯一标準。
随之而來的,就是場景中的諸多挑戰。
以數據問題為例,當前市面上通用大模型都是基于互聯網公開的數據集。他們雖然數量眾多、類别廣泛,但是無法保質保量,甚至大部分都是 " 髒 " 數據。
對于專業嚴肅的應用場景來説,一來更多高質量的行業數據是非公開的,又或者是企業内部自身的,這需要系統來統一調度和管理,還有一些非結構數據需要轉化;二來,對于大量公開的數據需要工程級别的清洗、标注,才能達到能使用訓練的水平。
因此看大模型落地千行百業,不能簡單看大模型的性能展示,而是説怎麼同產業的深度融合。
而本身就在產業有着長期投入的企業,他們有着天然的場景優勢,也最有可能将 AI 能力和影響力才能滲透進行業之中。
螞蟻數科,就是一個。
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>