今天小編分享的科學經驗:德撲AI之父轉投OpenAI!Science封面研究大牛,頂會拿到手軟,歡迎閱讀。
OpenAI 被爆最新人事動向:
前 FAIR(Meta)研究科學家 Noam Brown 加盟!
這位大佬來頭可不小,研究曾登上《Science》封面。
不僅如此,他此前的研究成果可謂相當炸裂,可以用一句話來總結:
NeurIPS、AAAI 等眾多頂會論文獎拿到手軟!
就是這樣一位傳奇人物,加入 OpenAI 後他對自己要做的事放出狠話:
如果成功,我們或許會看到比 GPT-4 好 1000 倍的大語言模型。
所以,他之前拿下過什麼成就,下一步又究竟要做什麼?
德撲 AI 之父!拿獎拿到手軟
Noam Brown 與 AI 結緣,要從他的一篇博士論文說起。
三年前,Noam Brown 從卡内基梅隆大學(CMU)以 230 頁超硬核論文完成答辯,拿下計算機科學博士學位。
這篇論文,寫的正是 Noam Brown 與其 CMU 導師 Tuomas Sandholm 一起創建的 AI 系統——稱霸德州撲克賽場的賭神 Libratus(冷撲大師)和 Pluribus。
與圍棋、國際象棋、跳棋等棋類遊戲不同,這些遊戲屬于完美信息博弈,對戰的雙方,清楚每一時刻局面上的全部情況。
而相比之下,德州撲克存在大量的隐藏信息,包括:對手持有什麼牌,對手是否在詐唬?
這也就決定了德撲的一個主要特征——不完美博弈。
為此,Noam Brown 創建的 Libratus 将三個負責開發撲克策略、實時優化策略、比賽結束後審查牌局的 AI 系統結合了起來。
2017 年年初,在賓夕法尼亞州匹茲堡的 Rivers 賭場上,4 名頂尖人類職業玩家和 Libratus 在為期 20 天的賽程裡面對戰 12 萬手,Libratus 一路以碾壓的态勢豪取勝利,赢得 176 萬美元 ( 虛拟貨币 ) 。
和 AlphaGo 不同,在人機大戰之前 Libratus 沒有研究過人類如何打德州撲克,也沒有和人類職業玩家有過交手。
但 Libratus 對戰四位人類高手還是拿下了大比分優勢:14.7 個大盲注 / 百手 ( 14.7bb/h ) 。
" 一般領先 5-10bb/h 就肯定是赢了 ",Noam Brown 表示。
德撲 AI 不僅取得了這場比賽的勝利,Pluribus 還在那年登頂了《Science》封面。
與此相關的研究,目前也已有近 700 的引用量。
當然,Libratus 不是憑空而生,2015 年 4 月它的前身 Claudico 正是在同一個賭場裡,和四位人類頂級玩家交鋒 8 萬手後,累積輸掉 73.2 萬美元 ( 當然也是虛拟貨币 ) ,敗給了人類。
Noam Brown 多年來在多步驟推理、自我對戰和多智能體 AI 方面的研究,終于以 Libratus 的成功交上了一份滿意的答卷,并在此之後,包攬眾多大獎。
比賽勝利同年,他獲得了NeurIPS 2017 最佳論文獎。2019 年又繼續與導師合作,成功拿下AAAI 2019 傑出論文獎。
之後 Noam Brown 的一系列成果獲得了《Science》2019 年年度突破的亞軍、馬文 · 明斯基獎,還被評為《MIT 科技評論》35 歲以下 35 位創新者之一。
此前獲得過這個稱号的,就包括谷歌創始人 Larry Page、Sergey Brin,Facebook 創始人 Mark Zuckerberg,Paypal 及 Slide 創始人 Max Levchin,還有著名人工智能科學家吳恩達等一眾大佬。
但是不管 Libratus 距離撲克之神還有多遠,Brown 坦言他不會再對這個德撲 AI 進行優化了。
博士畢業後,Noam Brown 加入了 FAIR(Meta),成為其研究科學家。
在 Meta,他曾參與共同開發出第一個在戰略遊戲 Diplomacy 中達到人類水平的 AI —— CICERO。
一切看起來順風順水,Noam Brown 為什麼突然要轉戰 OpenAI,又究竟要做什麼?
加入 OpenAI 後:用遊戲中的方法提升大模型
Noam Brown 給出了他的答案:
多年來,一直在研究撲克和 Diplomacy 等遊戲中的 AI 自我對戰和推理。現在,我将研究如何将這些方法真正通用化。
所以,下一個大模型難道将借鑑遊戲中的方法?
其實,Noam Brown 的靈感來自于當年 Libratus 成功擊敗了頂級人類選手時,他所觀察到的一種現象。
而這種現象與 2016 年 AlphaGo 擊敗李世石極為相似。
回想 AlphaGo 擊敗李世石,其中的關鍵在于:
AI 在每一步棋之前都能夠進行約1 分鍾的 " 思考 "。
而就這一點對于 AlphaGoZero 來說,相當于将預訓練的規模擴大了約 10 萬倍(搜索後評分約為 5200 Elo,不經搜索評分約為 3000 Elo)。
Noam Brown 在撲克中觀察到了類似的現象,将其運用于 Libratus,才有了後面的成功擊敗頂級人類選手。
除此之外,AnthropicAI 的技術工程師 Andy L. Jones,在 Hex 棋盤遊戲中詳細研究了訓練時間和測試時間的計算權衡,也發現了類似的模式。
這項研究展示了如何在 MCTS(Monte Carlo Tree Search,蒙特卡洛樹搜索)的訓練計算和推理計算之間進行權衡,而增加 10 倍的 MCTS 步驟幾乎等同于增加 10 倍的訓練:
Noam Brown 認為:
現在所有這些方法都是針對特定的遊戲而設計的。如果我們能夠發現一個通用版本,那麼增益将是巨大的。
雖然推理可能會慢 1000 倍,并且成本更高,但是與為了一種新的抗癌藥物或者為了證明黎曼猜想一樣,我們會為推理付出怎樣的代價呢?
接着他又補充道:
提升能力總是存在風險的,但如果這項研究取得成功,它在安全研究方面也将具有重要價值。想象一下,如果我們能夠花費 100 萬美元的推理成本來預測一個更具能力的未來模型,這将給我們一個此前所沒有的警示。
對于 Noam Brown 加入 OpenAI 這事兒,評論區趕來的大多是來道喜的。
比如說 PyTorch 聯合創始人 Soumith Chintala:
前同事 Meta AI 研究總監、佐治亞理工學院計算機科學家 Dhruv Batra 也發來了 " 賀電 ":
參考鏈接:
[ 1 ] https://twitter.com/polynoamial/status/1676971503261454340
[ 2 ] https://noambrown.github.io/
[ 3 ] https://www.science.org/toc/science/365/6456