今天小編分享的科學經驗:沈向洋周明楊格大模型激辯:繼續爆堆參數,大模型能出現新的「智能湧現」嗎?,歡迎閱讀。
大模型掀起了一波 AI 領網域的熱潮,無論學界研究還是產界創業都風頭不減。
然而随着關注度變高,AI 大牛們對于 " 大模型未來要走什麼路 " 也產生了分歧:
随着參數量的增加,AI 模型是否還會有新的 " 智能湧現 " 出現?
更多模态、更優質的數據,會是 AI 模型未來發展的關鍵嗎?
為什麼中國沒有出現 ChatGPT?
……
在一場名為 " 基礎科學與人工智能 " 的論壇上,來自不同領網域的幾位 AI 專家,針對這些問題提出了非常激烈的、不同的看法。
這場論壇由清華大學教授孫茂松主持,美國國家工程院外籍院士沈向洋、德國國家工程科學院院士張建偉、瀾舟科技創始人兼 CEO周明、xAI 創始成員楊格參與了圓桌對話環節。
在對話中,他們核心探讨了包括大模型和通用人工智能在内,AI 領網域當下最關心的幾個問題。
在不改變原意的基礎上,我們對圓桌對話部分進行了整理,希望能給大家帶來一些啟發。
在進行了 " 如何用大模型創造價值 "、" 數學理論和智能湧現 "、" 基礎科學與具身智能 " 等主題的演講後,5 位 AI 大牛就 "大模型及通用人工智能:問題與挑戰" 這一主題,開展了一場圓桌對話。
" 大 " 是模型的未來嗎?
孫茂松(主持人):先從 GPT-3 那篇論文說起。我當時注意到它的題目《Language Models are Few-Shot Learners》,一下子就被這個觀點抓住了,少樣本(Few-Shot)扭轉了我們之前說有多少智能就有多少人工的觀點,這實際上是質的變化,好像機器有了舉一反三的能力。
但我們沒有抓住這個再往下走,當時國内的判斷,其實國内的自然語言處理、人工智能領網域,從 2012 年到現在都跟得很緊,包括學校、微軟研究院、大廠等都跟得很緊,應該說我們基本上在國際前沿領網域在做,像周明是 ACL 前任主席,我們中國學者在 ACL 上面發論文的數量,我估計跟美國人差不多,但是(GPT-3)這件事我們就沒抓住。
當時我們感覺這種規模大的模型,雖然看到了少樣本(Few-Shot),但我們潛意識認為它的性能會到天花板。而 OpenAI 顯然不一樣,它堅信這個(性能)會往上走,就有了後來的 ChatGPT。
過去的事就過去了,未來可以想象這個模型會越來越大,除了文本,我們把影像、視頻、三維、具身全給打進去,比如模型規模到了再大的十倍、甚至百倍,百倍估計就跟人腦的參數規模差不多了,到那時候會不會還有新的湧現?
△孫茂松
它會飽和嗎?還是到哪個點可能又往上 " 跳一跳 "?
這個我們應該有個判斷,如果抓不住我們可能會又一次大幅落後。這個問題大家做一下自己的判斷,講一講為什麼?先從楊格開始吧。
沈向洋:老師不介意的話,我先隆重介紹一下楊格。做老師最開心的不過是介紹自己的學生,非常有幸很多年前因為丘先生的原因認識了楊格,他在北京長大,很小就去了美國,考上了哈佛數學系本科,讀書讀得很好,休學的一段時間是去追求他的音樂夢想,出去做 DJ,打碟打了一兩年,後來發現真愛還是數學,再回到哈佛一發不可收拾,念書念得非常好。
畢業的時候丘先生問他 " 你畢業去哪兒 ",他說 " 我要去谷歌 ",丘先生說 " 谷歌這種很差的公司就不要去了,我有個朋友叫沈向洋,我馬上給他打電話 "。
然後丘先生給我打電話,我電話面試了楊格,但是我數學不夠好,我不能完全相信丘先生的推薦,我就讓我手下的菲爾茲獎得主 Michael Freedman 面試了他,面試之後(Michael Freedman)說這個小孩不得了,那時候他才剛剛本科畢業,但在哈佛至少是前五名的水平。
我當時跟楊格講,你把谷歌的 Offer 拿來給我看一看,我給你加一塊錢,就來微軟吧。所以他就這樣來了微軟,我們微軟研究院平時只招博士生的,楊格作為一個本科畢業生進了微軟研究院,不僅進了微軟研究院,過去這五年還做得無比優秀,特别是在 GPT 發展過程中做了舉足輕重的貢獻。
最近馬斯克在做一家初創企業、一個新的獨角獸企業,叫 xAI,楊格是最早被馬斯克邀請為合夥人的。我先這樣簡單介紹一下楊格,然後他回答一下孫老師這個很難的問題。
楊格:我試着回答一下孫老師的問題。您的問題是說以後把模型變得更大、數據集更大,(性能)是不是還會繼續上升?
這個看情況,但至少是這樣的,模型變得更大的話,再調整訓練集(fix training set)、就是同樣的訓練集(training set),訓練損失(training loss)肯定是一直會下降到 0。
但是在訓練集(training set)和最後想要的通用智能(general intelligence)之間,這個距離(gap)大小的話,那就要看你收集的數據集是質量好還是差。
所以,模型越來越大的同時,要收集越來越多的、質量越來越好的數據集,并且數據集要更加豐富。
以前是用更加偏向網上輿論之類的數據集,以後要用更加偏向數學、科學、更有邏輯性的訓練集(training set),這樣以後才能提高模型的科學和數學的推理能力,這個還有很長的路可以走。
△楊格
孫茂松(主持人):模型性能肯定會上升,這個沒問題。我的這個問題,說再直白一點,比如在影像這個領網域,有沒有可能将來產生湧現?
因為現在影像的模型是比較小的,我看和文本模型相比影像模型大小只有十分之一、還差得很遠。那如果把影像模型這部分做大,特别是在一個時序空間裡面把視頻放進來,先不說三維,就說在視頻領網域有沒有可能產生一個湧現?不光是文本領網域。
楊格:那肯定的。我剛才說數據集更加豐富,指包括視頻、文本、圖片等數據我覺得都可以加到裡面。以後還有其它的信息(signal)、專門的信息(signal),都可以用來搜集成更豐富的訓練集(training set),我覺得肯定都會有用,就是看它的質量。
沈向洋:我補充一下,我也同意楊格講的,這個(大模型的)能力我個人認為還沒有到底。
這并不代表我不同意周老師演講中提到的,有了大模型,還要有行業模型、場景模型,這個為了落地肯定要做的。
但是從智能的角度來講,我自己覺得 GPT-3 只是起了個頭。現在 GPT-4 讓大家很震驚、GPT-5 還在探索,甚至過一兩年 GPT-5 出來以後,我覺得肯定也還沒有到底。
對于我們做科研的人來說,很重要的問題是(大模型性能)是否還會猛漲?至少做 GPT-5 的這幫人認為還是會猛漲。我個人也是充分地相信,我們今天還是要下定決心、要有一批人狠狠地做大模型,這是毫無疑問的。
那麼剛才講到多模态、計算機視覺,我自己也是非常相信,今天視覺大模型還是做得不夠大。我們怎麼去訓練多模态?其實 GPT-4 都沒有做得很好、還有很多想象的空間,你也知道,我們在 IDEA 研究院也在繼續嘗試做更多這樣的東西。
過去這幾年,有幾篇文章我自己是很震驚的,其中一篇文章就是谷歌的 ViT(Vision Transformer)。
你問我計算機視覺會不會有(智能湧現)?我們以前做計算機的時候,周老師做自然語言處理,我以前做計算機視覺,我們倆人基本上很少交流,因為我們隔行如隔山。
大模型一來徹底打破了壁壘。今天周老師可以走出來,滔滔不絕講一通計算機視覺,我聽了會以為他真的很懂,原因就是這些技術,像(ViT 裡面的)Transformer,其實是從自然語言領網域出來的,ViT 非常簡單,它裡面把一張照片劃成一格一格,每格就是一個字了。
這裡面我覺得充滿着想象力,計算機視覺大模型會越來越大、越來越好。
△沈向洋
張建偉:我也補充一下,未來學習曲線增長會多陡,我覺得一方面在于數據的質量和數據的多樣化,如果都是同質化的數據,學習是不會再增長的,這方面數據的多樣化非常重要。
另一方面是語言的多樣化和文化的多樣化,還有多模型的富集(enrichment)。
我想現在單模态純語言模型出現的問題,未來可以用多模态的形式進行驗證,降低非常愚蠢的問題出現的幾率,提高它的可靠性。
未來在影像方面的模态(modelity),甚至在具身智能的力覺、觸覺、整個互動全模态的信息,不只是對機器人有用,對整個大模型的質量和它的可靠性,都有非常好的影響。
△張建偉
周明:我補充一下,剛才幾位老師講得都很好。我是這樣的觀點,純粹加數據它肯定還會漲,但是漲的陡度,我個人認為會越來越平,但什麼時候開始平下來還不知道,是不是現在 ChatGPT、GPT-4、GPT-5 之後就開始平,還是會再漲不知道,但是我覺得還是會漲,這是第一個觀點。
第二個觀點,我認為(大模型)到一定程度會黔驢技窮。但我的觀點被很多人罵,說你是反對大模型,你家裡沒有錢,所以升不了這麼大的模型。
我認為,像剛才建偉也講,異構或者說異質的信息有可能幫助大模型增長。
舉個例子,很多人都反對知識圖譜,認為知識圖譜在大模型時代就是 "Nothing"。但我個人認為,知識圖譜肯定是沒用好,而不是 "Nothing",未來是有可能用好的。
現在用土辦法,把知識圖譜變成文字再訓練大模型,我認為是逆歷史潮流而動,是沒有辦法的辦法,未來肯定有好的辦法把知識圖譜用在大模型裡,這是第一。
第二,還有一件事就是所謂的邏輯推理。用大模型做美國律師考試的問題,無論什麼大模型,能力都是在一點點增長,但特别特别慢。
我覺得這跟丘先生倡導的交叉學科是非常有關的,如果我們把數學邏輯推理巧妙地融入到大模型中,興許有一天我們能看到大模型更大幅度地增長。
△周明為什麼中國沒有出現 ChatGPT?
孫茂松(主持人):我還想再問一個問題。ChatGPT 出來以後,大家捶胸頓足,說這個為什麼中國沒搞出來?咱們展望未來,這裡面肯定有很多深刻的問題。像我們的高等教育,大家能不能給提點什麼建議,比如我們培養學生的時候,或者學生接受我們某種教育的時候,應該注意點什麼?
或者有高度交叉性、創新性工作的時候,老師應該注意點什麼,學生應該注意點什麼?
楊格:很簡單,就是 "Follow your dreams"。因為你看這一階段的很多傑出的搞 AI 的人,像工程師、研究人員,有幾個都是像我這樣沒有讀博士,只是就想去幹,拼一下就拼出結果的,像 Alec Radford,GPT-1、GPT-2 都是他自己做的,後來 OpenAI 就開始砸錢了。
曹操說的 " 亂世出英雄 ",這是個新世界,你不要想一些外部環境,直接去幹,很有可能擦出火花,這就是要你自己有熱情。
孫茂松:我特别同意,要有夢想、有熱情。
張建偉:剛才提到的興趣型,我想作為我們未來人才培養是一個重要的指标。現在國内經常從高考就以分為最重要的指标,到大學實際上我們可以轉換一些方式,讓靠興趣驅動的學生變得越來越多,功利型的學生變得越來越少。
要允許願意探索的學生失敗,年輕人還有很長的時間,他們有時間失敗和探索,這方面的趨勢應該繼續鼓勵。
科研方面,我們也要減少現在比較死板的 KPI 方式,允許科學家坐冷板凳,十年磨一劍,允許失敗,才有可能出現 GPT 這樣重大的突破。
周明:我想替那些起于微末之時的學生說句話。很多學生不是名校、名專業的,數學也不是太好,編程也一般,這樣的人怎麼實現美好的前程?我想多說一句這樣的話,第一,不要氣餒。
總有某一點是别人不如你的地方,比如說劉備同學,劉、關、張其實他的武力最弱,他還能把關、張兩個人忽悠起來一起幹。
我們每個同學都有自己的優點,你從你的優點出發,買到一張船票,上了船就有很多同志跟你一起航行,實現偉大的夢想,這是我的建議。
沈向洋:您這個問題問的很難,你自己也是清華的教授,我自己在清華也帶過一些學生,在微軟研究院工作很多年,現在做數字經濟研究院在深圳,最近擔任香港科技大學校董會主席,有機會思考高等教育和科研的問題。
我覺得現在全國都在想一個問題,在這樣新的科技發展的形勢下,一方面是學校對孩子們的培養,要能提供一些寬松的環境、創新的機會。
我特别喜歡剛才周明講的,每一個人都有自己的機會,特别是如果有機會進入一些機構、部門學習,抓住這樣的機會,總是可以做一些非常了不起的事情。
從我們的角度來看,更加要思考有沒有一些方式,怎麼樣做好有組織的科研。因為你問 GPT 這件事情,GPT 出來之後大家一片焦慮之聲,你一定要知道,ChatGPT 發生在美國也是很偶然的一個事件。
ChatGPT 發生前一年,不要說我們這些人沒有反應過來,蓋茨自己也沒有反應過來。蓋茨說,直到去年 6 月份,他都不相信這件事能做出來,一直到 8 月份給他 Demo 了,其中 60 道題做對 59 道,他那時候才相信這件事真是這樣。
我想每一個不同的行業的問題,是需要我們找出一條自己的道路,怎麼樣有組織做科研的道路。
OpenAI 這樣的做法,跟我們微軟研究院是非常不一樣的打法,OpenAI 有了這樣的成功,也不代表他接下來馬上會繼續不斷成功。
只有時間能證明,所以我們自己要有努力奮鬥的精神,不斷地嘗試如何把大家組織起來,在現在的形勢下做科研。
舉個具體的例子,剛才周明也講到了,我剛才演講裡也講到了算力的問題。今天沒有這樣強大的算力,楊格去了馬斯克那裡,馬斯克給他買一萬張卡的話,楊格去了也是英雄無用武之地。
從這個意義上講,我覺得方方面面的配合也非常重要,這是非常困難的問題,我也只能分享一點自己粗淺的看法。
對幾位 AI 大牛的主題演講、以及圓桌論壇感興趣的,可以戳直播回放觀看 ~
" 基礎科學與人工智能 " 論壇直播回放:
https://live.huiyiguanjia.com/PcLivePro/index.html?istest=true&rid=1162369611