今天小編分享的科學經驗:馬斯克xAI創始成員國内首發聲:ChatGPT時代「亂世出英雄」,歡迎閲讀。
馬斯克組局xAI" 鑽研宇宙本質 ",創始成員高深又神秘。
相比專注于 AI 領網域本身,這些成員大多具有基礎學科背景,接觸 AI 之前或是在研究基礎數學,或是在搞物理。
這家公司究竟要做什麼?
就在這兩天,丘成桐弟子楊格(Greg Yang),成為第一個以 "xAI 創始成員 " 身份在國内會議上發言的人。
在國際基礎科學大會的 " 基礎科學與人工智能 " 論壇上,他談及了自己一直以來、也是接下來要進行的數學 AI 工作,以及對大模型當前發展現狀的看法。
而他的個人經歷也再次浮出水面,為更多人所關注。
接下來要進行什麼研究?
在國際基礎科學大會上,楊格就自己正在研究的方向進行了一場演講。
演講主題,主要與AI 和數學交叉學科有關——
從數學角度出發,建立一種描述神經網絡架構的統一編程語言Tensor Programs。
這是他從微軟研究院開始就一直鑽研的領網域,繼 2019 年連續獨立發表的兩篇論文之後,迄今這一項目已經有 7 篇相關論文問世。
具體來説,Tensor Programs 項目有一個 " 短期目标 " 和一個 " 長期目标 "。
短期來看,這個編程語言能實現在設計新神經網絡架構時,自動進行初始化條件分析,并給出其中最優的超參數初始化條件,從而讓模型訓練更順利。畢竟此前,這一領網域的初始化設定幾乎 " 全靠經驗 "。
長期而言,Tensor Programs 項目的目标是開發大規模深度學習的 " 萬物理論 "。
這也與楊格在推特説的、他在 xAI 要進行的研究方向一致:
目前無論是大模型還是其他 AI 研究方向,都依舊沒有真正意義上解決 AI" 黑箱 " 的問題,換而言之,AI 究竟走哪種研究方向(堆疊更大參數量的模型、還是 MoE)收益更高,還沒有一個明确的結論。
因此,Tensor Programs 最終目标是找到一種理論上的規則,可以真正理解 AI 大模型的行為。
Tensor Programs 最新的項目進展,是微軟與 OpenAI 合作發表的論文 µ Transfer,楊格以共同一作的身份完成了這項研究。
這項研究的核心是幫助大模型找到最合适的超參數配置,從而替更多模型節省時間和算力成本,否則對于大模型來説," 重訓 " 是一個非常浪費參數的行為。
目前這項研究已經開源,楊格也在這次的演講中着重以 µ Transfer 為例,介紹了 Tensor Programs 項目的進展。
從這幾篇研究論文側重的 AI 模型來看,大模型如今已經是楊格研究的重點方向之一。
一個值得關注的點就是,μ Transfer 已經用到 GPT-4 中了。
公眾号 " 安迪的寫作間 " 作者在楊格(Greg Yang)演講結束後,和他聊了聊:
下台我問了他關于GPT-4 用到 μ Transfer 了嗎,給出肯定回答。
所以,他究竟如何看待大模型的未來?
在這次論壇的圓桌對話上,楊格也提到了自己對大模型發展方向的看法。
他認為,繼續堆疊大模型參數可以讓模型效果越來越好,但這有個前提,即數據集的質量和數量必須要上升。
以前收集網絡數據就行,如今訓練集必須變得更偏向數學、科學、更有邏輯性,才能提高模型的科學和數學推理能力。
同時,楊格也給了如今拼搏在科研、交叉創新一線的 AI 研究人員一點建議,就是 "Follow your dreams":
這一階段的很多傑出的搞 AI 的人,像工程師、研究人員,有幾個都是像我這樣沒有讀博士,只是就想去幹,拼一下就拼出結果的,像 Alec Radford,GPT-1、GPT-2 都是他自己做的,後來 OpenAI 就開始砸錢了。
曹操説的 " 亂世出英雄 ",這是個新世界,你不要想一些外部環境,直接去幹,很有可能擦出火花,這就是要你自己有熱情。
沒錯,當年的楊格,打破了微軟研究院 " 只招博士生 " 的慣例,本科畢業就進入了這一機構工作。
他在學術經歷上究竟有什麼過人之處?
換而言之,為何他會成為馬斯克選中的 "12 人 " 之一?
楊格是誰?
楊格出生于湖南省,在北京讀完小學後,就去了美國,本科考上了哈佛數學系。
在哈佛的頭兩年,楊格參加了鼓手團、咨詢團等眾多活動。
大二結束時,有着音樂夢的他決定休學全身心投入音樂事業,成為一名電子舞曲音樂制作人和 DJ,取藝名 "Zeta"。
也是在此期間,楊格接觸到了人工智能。
一年半後,楊格發現自己的 " 真愛 " 終歸還是數學,于是又回到了哈佛。
讀完春季學期的課程後,他又休學兩年,這一次他沒有執着于音樂,而是快速學習了數學和理論計算機科學,以及人工智能的前沿進展,此外還廣泛涉獵物理學、生物學和神經科學。
此外,他還研究起了神經圖靈機,并結合可微拓撲學中的思路,提出 "Lie Access Neural Turing Machine",發表于 ICLR。
再次回哈佛,楊格師從丘成桐教授。
△楊格與丘成桐,圖源:楊格推特
2017 年,楊格順利從哈佛畢業,拿到了數學學士學位和計算機科學碩士學位。并獲得了 2018 年摩根獎榮譽提名(Honorable Mention for the 2018 Frank and Brennie Morgan Prize for Outstanding Research in Mathematics by an Undergraduate Student)。
畢業後,老師丘成桐曾問楊格 " 你畢業去哪兒 ",他説 " 我要去谷歌 "。
丘成桐説 " 谷歌這種很差的公司就不要去了,我有個朋友叫沈向洋,我馬上給他打電話 "。
後來,沈向洋讓菲爾茲獎得主 Michael Freedman 面試了楊格:
面試之後(Michael)説這個小孩不得了,那時候他才剛剛本科畢業,但在哈佛至少是前五名(的水平)。
我(沈向洋)當時就跟楊格講,你把谷歌的 Offer 拿來給我看一看,我給你加一塊錢,就來微軟吧。
最後楊格選擇了微軟。而進入微軟後楊格也獲得了沈向洋的高度評價:
微軟研究院平時只招博士生的,楊格作為一個本科畢業生進了微軟研究院,不僅進了微軟研究院,過去這五年還做得無比優秀,特别是在 GPT 發展過程中做了舉足輕重的貢獻。
進入微軟後,楊格的重要成果之一就是持續開發上面提到的 "Tensor Programs" 框架,其中還用 GPT-3 對所提出的超參數遷移方法進行了驗證,相關論文已收錄于 NeurIPS、ICML 等頂會:
此外,谷歌學術數據顯示,楊格從 2015 開始發布論文,至今已有 34 篇。
其中引用量最高為 415,這也是他在微軟的工作,楊格在這個項目中擔任主要指導(Primary mentor)。
目前,楊格個人主頁和推特主頁等均已更新,已離開微軟研究院,加入 xAI,接下來将繼續做數學工作。
楊格做出了新一輪的選擇,但從第一次休學過後,他再也沒有放棄對數學的熱愛。
在這次的論壇上,楊格也被問到,當時去從事音樂後又轉到數學研究,是怎樣一直堅定走到現在的?
楊格回答道:
其實就是個人愛好,在我大二休學之前,我一直都是數學比較好的人,可能會覺得一輩子在這種(數學研究中)。之後雖然我去搞音樂,但有段時間自己思考後,發現其實我個人還是很熱愛數學。
這裏面可能有外在動機(motivation extrinsic)和内在動機(motivation intrinsic)。像數學答卷老師給你 100 分,你覺得很高興,這是外在的。這種外在和内在混在一起,可能感覺不到自己真心的愛好,但是後來休息一段時間以後,感覺(對數學)是發自内心的熱愛,之後就走了這麼長的路。
One More Thing
還記得前段時間楊格給大夥兒推薦的 300 多本(大部分是數學)書嗎?
不少網友看過之後,表示 " 書單實在太長了,不是普通人能看完的 ",還有網友調侃 " 能不能用 GPT 幫我總結一下 " ……
論壇結束後,我們也和楊格聊了聊,了解了他對 ChatGPT 等大模型的一些看法。
提問:看到您前段時間推薦了大概 300 本多書,有很大一部分是數學書,您認為 AI 是否有可能把它直接總結成一個核心的要點給我們?平時在日常生活中,您是不是也會用 GPT-4 一樣的模型,去幫助做一些數學的基礎研究什麼的?
楊格:我覺得 AI 的總結能力(summarization)現在應該挺好的了,做簡單的總結應該沒問題。但你要再深入理解它裏面的道理,像是一些數學道理的話,可能 AI 現在的幫助還不是那麼大。
日常生活的話,是會經常用到(大模型)。
提問:可以透露一下主要是用在哪些方面嗎?
楊格:我覺得最有用的方法就是寫程式吧。比如有些程式你确實可以自己寫,但自己寫的話,一是可能要花幾個小時,二是覺得這種東西不是特别有趣,所以像這種工作你就可以用 ChatGPT 來幫你做。
提問:相當于您完成核心思考,然後 ChatGPT 幫您實現代碼的工作。
楊格:其實就是實現它已經在網上看到很多很多遍、所以它能寫得很好的一些程式。
但如果現在你想寫一個復雜的程式、像是有什麼邏輯性的程式的話,讓 ChatGPT 來做可能還不一定做那麼好。但如果是那種你寫了幾百遍的程式了,你不想再寫,就可以用 ChatGPT 完成。
參考鏈接:
[ 1 ] https://arxiv.org/abs/2203.03466
[ 2 ] https://github.com/microsoft/mup
[ 3 ] https://mp.weixin.qq.com/s/s7MGUCHoEfyXhUcQAScltw