今天小編分享的互聯網經驗:姚期智,徐立和楊植麟們在一起聊了什麼?中國AI老中青三代的一場對話,歡迎閱讀。
在 2023 上海世界人工智能大會開幕式上,商湯科技董事長兼 CEO 徐立聯合圖靈獎得主姚期智、清華大學交叉信息學院助理教授袁洋、清華大學交叉信息研究院助理教授楊植麟和 DragGAN 第一作者潘新鋼舉辦了一場以《創想共論 · 智變可能》的圓桌論壇。
論壇中,四位嘉賓分享了自己在人工智能發展、多模态補齊、大模型幻覺以及影像生成模型等方向的看法。
金句匯總:
1、在 ChatGPT 之後,下一個非常重要的目标是讓 AI 成為擁有視覺、聽覺等多種感知能力的機器人,能夠在各種不同的環境裡面,自主地學習新技能。
2、面對大模型實際應用中的挑戰,需要更系統的去将底層的共通問題抽象出來,回到更本質的一個層面去解決。
3、将 GAN 和 Diffusion 模型兩種路線各自優勢互補,是未來研究的方向。
以下為圓桌論壇實錄:
徐立:
各位嘉賓好,很榮幸今天能在這場做主持,因為這場有我們計算機界的泰鬥姚院士,以及我們三位非常年輕的學術之星,可以說這三位代表了我們人工智能的一些新的發展方向,所以話不多說,我開始簡單地來介紹一下。
我們知道姚院士是圖靈獎得主,并且是在清華創辦了交叉信息學院。其實現在大模型發展的速度非常的快,我想請教一下姚院士,在大模型發展的今天這個節點上,有沒有一些基礎理論的突破,以及接下來有些哪些發展的方向?
姚期智:
我們中國的科學家在現代的 AI 的發展上做了很多突破性的貢獻,我們有一位年輕的高陽老師,他在一年多以前做了一個非常重要的在算法突破上的貢獻,受到很多的國際關注,它能夠把現在非常主流的強化學習,加快數百倍。
我來解釋一下,在 ChatGPT 以後,下一個非常重要的目标就是讓 AI 變成有視覺、聽覺等多種感知能力的機器人,它能夠在不同的環境裡面,自主地學習各種的新技能。但是現在的強化學習的方法,太慢了,對于這些新的技術常常要幾個月的時間才能夠學好。高陽老師他的一個突破就使得強化學習,能夠在幾個小時内就能夠做到。
所以這些智能機器人将來的發展裡面一定會要把剛才這個工作能夠放進去,同時它不僅是一個實用的問題,而且它有一個理論的貢獻。
在過去的六七年裡面,人工智能方面有一個路線之争,就是我們現在依賴着強化學習這條路線是不是正确,有很多的争論。
我想高陽教授他一年多以前的這一個突破,把天平方向傾向了另外一邊,我們應該堅持我們現在這條路,對于通用人工智能的完善還有很長的路要走。
OpenAI 聯合創始人在不久之前的一個 interview 裡面,就把高陽老師的工作當做近年來強化學習裡面最重要的亮點之一。我現在只是在做一個廣告,明天,期智研究院要主辦一個分論壇,那裡面大家可以遇見高洋老師,同時還有其他很多的中外的在基礎理論跟框架上的貢獻。
好,謝謝姚院士,我們也期待強化智能,在人工智能的領網域上面能夠有更大的成就和突破。接下來我們這三位教授是非常年輕,兩位是清華大學交叉信息學院的教授,一位是 NTU 的教授,我想起人工智能當時起來的時候五六年時候那篇 proposal,其實 4 位學者的平均年齡是 33 歲,我看了一下我們這三位教授的平均年齡還不到 33 歲了。
接下來想請問一下袁洋教授,在大模型的演進發展過程當中,這些交叉學科對模型的發展有沒有什麼進一步的幫助?
袁洋:
我覺得現在大家特别強調大模型要能夠用到一些交叉的行業裡面,能夠落地應用起來,大家會講到多模态。這個事情肯定是很重要的,但是我覺得大家對多模态的東西的理解可能比較粗糙,大家往往想到的多模态是他能夠看圖片、看文字、有觸覺、有溫度的感覺,但是我覺得要真正做到一個具體行業,能夠解決行業裡的問題,多模态需要做得更細致一些。
比如說我舉個例子,像一會兒潘老師可能要講的 DragGAN,我們如果只是考慮文本到圖片的一個生成,你說一句話要畫一只狗,然後它生成一個狗的圖片,這樣你很可能會發現生成狗的圖片不是你想要的姿态或者模式,然後通過 DragGAN 你可以用滑鼠來拖動一下,修改一下。
滑鼠拖動的這種方式,在我看來這就是一種新的模态,用戶用一種比較好的方式把自己想要表達的内容告訴大模型,讓他能夠理解。
雖然它可能只是一種滑鼠拖動,但這種多模态的輸入,我覺得在具體應用中非常重要,到更具體的一些行業,比如說醫療法律教育,我覺得我們不應該只是把文本或者影像喂給模型,讓它有一些專業的數據,就希望它能夠解決專業的問題,我們應該去深耕這個行業,去找到它裡面最核心的問題是什麼,然後再去找在這個問題裡面,我們到底需要什麼樣的模态的數據,什麼樣的信息能夠精準表達我們想要解決的問題,這個我稱為是一種模态的補全。
然後模态補全之後,我們需要在補全模态的基礎之上收集足夠的數據,做好模态的對齊,模态補全模态對齊做好之後,我相信它能夠賦予大模型更強大的能力,來解決更核心的一些交叉領網域的問題。
模态補齊之後,可以相當于是這方面的 Know How 對于後面的發展是有很大的幫助。我們來問一下楊植麟,楊植麟也是譽為說天才少年,然後我看過他很多的工作,包括他也參與到大語言模型非常早期的一些工作。
我想現在大語言模型應用很廣泛,但是也會在實際當中會遇到一些問題,比如我們經常提到的幻覺等等的一系列的挑戰,所以想請問一下說在大語言模型的實際使用當中,我們有哪些困難和挑戰,或者要注意哪一些方面上的具體的點。
楊植麟:
現在确實有很多大模型方面的還沒有解決問題,比如說安全性怎麼讓它做到非常可控、如何去避免它產生這種幻覺,不去編造一些很不存在的東西以及他現在其實也沒有辦法像科學家一樣去創造新的知識,或者說在很多行業裡面像最頂級的銷售、產品開發這些工作可能現在都還沒辦法做,我認為這裡面很重要的一個點,是我們在思考這些問題的時候,不應該每個問題去單點思考。
比如說今天我想解決幻覺的問題,不是去頭痛醫頭,而是更系統的向這些問題之間底層都是什麼樣共通的問題,回到更本質的層面去解決,因為畢竟是通用的模型,我們希望它能夠在這些方面都能夠一舉一反三,所以我覺得其實還是要去做更規模化的高效的壓縮,比如說去用更好的更适合分布式訓練的這種框架,類似比如 MOE 或者是支持更長的上下文的框架,包括在這裡面怎麼樣去更好地分配算力,對更高質量的數據分配更多的算力,就類似這樣的問題,我覺得其實可以更根本地去解決我們剛才可能聊到的現在 AI 的存在一些局限性。
還是從理論層面上去解決,可能讨不得巧。然後今天我們的圓桌的背景都是用我們用算法生成的,其實都是基于 Diffusion Model 的,但是新鋼是以一己之力又把 GAN 重新拉回到大家的視野當中,他 DragGAN 這篇文章是網上說爆款,說有手就行,大家就能來制作内容,所以也想聽聽新鋼來講說比如說算法當中 GAN 和 Diffusion Model 之争,算法本身路線選擇有沒有什麼好壞,或者說在這之後再看生成内容的時候這兩者哪一個有更強的延展性。
潘新鋼:
好,謝謝主持人的提問。 GAN 和 Diffusion Model 現在是影像生成的兩個主要的生成模型,尤其是 Diffusion Models 在近期也顯然有蓋過 GAN 的勢頭。我覺得他們由于生成模型的框架以及優化目标的不同,主要有三個差異:
第一個是性能與效率的 Trade off,顯然擴散模型在生成的過程中,它的需要的算力更大,它的迭代式的計算所需要的 influence 的時間和訓練的都顯著高于幹。
與此同時更大的計算開銷也帶來了更高的影像生成的性能,它所生成的影像不會受限于 GAN 的 mode claps 的問題,它的真實性和多樣性都顯著優于 GAN,所以我相信擴散模型它的上限一定是要高于 GAN 的,在性能允許的情況下,它對于質量和多樣性方面的優勢是非常明顯,并且應用價值應用前景更廣的,但是如果說在一些特定場合,例如 mobile device,這些對于性能或者計算開銷有限制的情況下,GAN 仍然是這樣一種妥協的選擇。
第二點是他們 Latent Space 的差異,我們知道 GAN 是将一個 Compact Latent Vector 映射到影像,但是擴散模型是将一個和影像分辨率一樣的 noise map 映射,逐映射逐漸去噪,映射成為影像。實踐中,擴散模型的這種 noise map 對于影像内容的影響常常表現出來為比較随機,不具有結構化的特性。但是 GAN 的 Compact latent code 可以非常有效地去編輯影像中的 high level 的屬性。
比如說人的表情或者動物的姿态之類的,這也是為什麼我們選擇将 GAN 作為 drag 這種編輯方式的第一個生成模型去 study。
但我相信之後如何去拓展到擴散模型,也是一個非常值得探索的問題。
第三點就是他們生成影像的空間的連續性上,由于這兩個模型在設計的時候,他的 Lipschitz constraint 不同,所以體現出來擴散模型的影像空間較為不連續,GAN 的影像空間非常延續自然,所以我們用擴散模型進行 Latent Space 編輯或者視頻的編輯時候,常常會觀察到跳變的情況。
GAN 他表現出來比較流暢,看起來像動畫,所以這也是 GAN 的一個優勢,将來如何把這兩個模型各自的優勢互補會是非常有趣的研究問題。
就是 Gan 在前端或者連續視頻上面有優勢,然後 Diffusion 其實在性能上會更好一些,希望有一個更好的結合。我再問一下最後一個問題,結合咱們的研究方向,各位覺得大語言模型在接下來哪個垂直領網域裡面,可能最北被看好?
我想最容易的就是文書工作,有了大模型的語言以後,更多的工作可以變得由這些機器來做,我想這是一個直接的表現。
袁洋:
我覺得是醫療,因為當然不光是因為我是做智能醫療的,還有一個原因是因為我覺得大模型現在是基于預訓練的這種範式。預訓練的本質其實在學數據與數據之間的關系,醫療裡面有大量的這種關系。比如說,患者的症狀之間關系與藥物之間關系,吃了藥之後會變成什麼樣子的這些關系,這些關系其實人類不一定能夠學習地刻畫得很好,我覺得在這方面大模型有可能做得比機器更好,所以我比較看好這個方向。
我覺得比較重要的一個場景是 AI 将來應該會跟人一樣有共同的記憶,比如說今天我們去用一個 AI 的話,還是需要每天給大家重新去灌輸一些東西,給他提供很多上下文,把人能看到的所有東西其實 AI 都能看到,通過這種方式,其實我覺得可以在個人的使用上有非常大的想象的這個空間。
我是做視覺内容生成的。現在影像生成已經很好了,而之後視頻和三維内容生成也有非常大的前景,它可以幫助設計師、幫助藝術家,幫助動畫制作者、影視特效師等人,去更好更高效地創作更高内容的更高質量的内容。