今天小編分享的教育經驗:紅杉資本訪談:AI大模型的過去、現在與未來,谷歌前研究員Misha Laskin談從AlphaGo到Gemini的技術飛躍,歡迎閱讀。
The following article is from AI深度研究員 Author AI工作坊
作者| Misha Laskin 谷歌DeepMind前研究科學家
來源 | AI工作坊,管理智慧
咨詢合作| 13699120588
文章僅代表作者本人觀點,圖片來源于pixabay
人工智能即使備受争議,但它确實在慢慢改變我們日常的工作和生活方式。然而,要充分發揮大型語言模型(LLMs)作為AI代理的潛力,我們仍面臨諸多挑戰。為此,我們可以向開發AlphaGo和頂級LLMs的研究人員學習,以找到更好的解決方案。
近日,紅杉資本邀請到了谷歌DeepMind前研究科學家Misha Laskin參與訪談。Misha正通過他的新公司Reflection AI,致力于實現構建最優代理模型的願景。他正在融合強化學習的搜索功能和LLMs,以達成這一目标。Misha的合夥人是Ioannis Antonoglou(谷歌 DeepMind的核心技術大佬),也是AlphaGo和AlphaZero的共同創造者和Gemini的RLHF(基于人類反饋的強化學習)負責人。他們正利用獨到見解,為開發者培訓可靠的模型,以開發強大的代理工作流程。
在訪談中,Misha分享了幾個關鍵見解:
首先,關于大語言模型,他發現一個令人驚訝的事實:即使模型沒有按照預期方式工作,實際上也往往相當接近目标。他認為,這些模型似乎只是在某些方面需要更好的基礎。正是這種特性使得它們在聊天中表現出色。盡管有時不太可靠,偶爾會偏離主題,但總體來說是不錯的對話夥伴。
其次,Misha強調了強化學習在提高AI系統可靠性方面的重要性。他認為,未來的AI系統需要在規劃和搜索能力上有所突破。
最後,Misha做出了一個大膽的預測:我們距離實現AGI(通用人工智能)可能只有3年左右的時間。他相信,這些AI将能夠完成復雜任務,顯著提升人類生產力。
00:00 介紹
10:01 與Ioannis Antonoglou一起進入AI領網域
25:41 AI代理的當前狀态
29:17 AlphaGo、AlphaZero和Gemini的成就和挑戰
32:58 探讨LLMs缺乏固定真實獎勵的問題
44:12 AI代理的任務類别
45:54 如何吸引頂尖人才
50:52 距離擁有高能力AGI還需多久
56:01 快速問答環節
訪談約12,000 字,閱讀約需 30分鍾
旁白: 在這一集的《訓練數據》中,我們邀請到了Reflection AI的CEO及聯合創始人Misha Laskin加入我們。Misha曾是DeepMind的研究科學家,他的聯合創始人Ioannis Antonoglou則是AlphaGo和RHF在Gemini項目的主要開發者。
1、 與Ioannis Antonoglou一起進入AI領網域
主持人: Misha,首先,我們很想了解更多關于你的個人背景。你在俄羅斯出生,一歲時移居以色列,然後在九歲時移居美國華盛頓州。你的父母一直在推動科技和研究領網域,我認為這激發了你對推進技術前沿和進入人工智能世界的熱情。你能分享一下是什麼激勵你進入這個領網域,以及在你的童年和成年期間有哪些事情給你帶來了靈感嗎?
Misha Laskin: 當然可以。你知道,當我父母從俄羅斯移民到以色列時,是蘇聯解體時期。他們幾乎是一無所有地來到以色列,只帶着300美元,而這些錢在他們剛一落地就被偷了,因為他們付了一個公寓的定金,然後那個公寓就消失了,我甚至不知道那裡是否真有一個公寓。他們不會說希伯來語,于是決定在耶路撒冷希伯來大學追求化學博士學位。這并不是因為他們有什麼特别的學術熱情,而是因為以色列為俄羅斯移民提供了進一步教育的獎學金。我問過我的父母這件事,他們是如何逐漸愛上他們的專業的,因為他們在其中變得出色。我從他們那裡學到的可能是,他們并不是特别熱衷于化學,但随着他們對它的了解和深入,他們成了這個領網域的大師,這對我影響很大。
移居到美國後,我的父母承諾我們搬到了一個美麗的州——華盛頓州,那裡有山脈。我記得坐飛機時非常激動,我甚至在以色列向所有朋友炫耀。然而,飛機最終降落在了一個荒涼的地方,我問我的父母:"山在哪裡?"他們說:"你在飛機上看到了山。"這個地方有點無聊,叫三聯市(Tri-Cities),它的存在是因為曼哈頓計劃,這裡是钚富集的地點,名為漢福德核電站,與洛斯阿拉莫斯相似,都是上世紀40年代為特定項目建立的城市,地處偏僻。那裡除了歷史,沒什麼可做的。我在那裡的生活讓我有很多自由時間,最終讓我對科學產生了興趣,最開始是物理學。當我厭倦了電子遊戲後,我找到了一些關于物理學的費曼講座,費曼的講解方式非常生動,即使是數學不太好的我也能理解世界的基本運作方式。
主持人: 這真是一段很有啟發性的經歷,謝謝你分享這些個人的故事。我們繼續讨論你在Reflection AI的工作以及你如何看待AI未來的發展。
Misha Laskin: 這可能是最激勵我的事情。我對理解事物如何在根本層面上運作產生了極大的興趣,我想要處理那些根節點問題。就像我讀到的那些例子,比如晶體管的發明,是由理論物理學家William Shockley發明的,或者GPS的工作原理,你需要進行相對論的計算,這源自于愛因斯坦的狹義相對論。我想要從事這樣的工作,這就是為什麼我選擇了物理學。我在這個領網域接受了教育,獲得了博士學位。我認為可能關鍵的信息是,你不僅要處理根節點問題,你要處理你這個時代的根節點問題。你要從事那些現在可以解鎖的事情。毫不奇怪,當你作為一名物理學家接受訓練時,你會處理一些非常有趣的問題,學習大約100年前人們是如何思考物理的。100年前,物理是我們時代的根節點問題。這就是為什麼我決定不從事物理學作為我的職業生涯。我做了一個180度的轉變,想要做一些非常實際的事情,所以我開始了一家初創公司。當我在那裡工作時,我注意到深度學習作為一個領網域正在起飛,特别是當AlphaGo出現時,它給我留下了深刻的印象。AlphaGo的著名走法,第37步,看起來像是一個壞棋,但事實證明,10步之後,這實際上是将AlphaGo置于赢得比賽的最佳位置的最優走法。你可以感覺到這不僅僅是暴力破解,這個系統能夠找到人們以前沒有想到的創造性解決方案。這讓我非常真切地感覺到,解決代理問題,這是第一個真正的大規模超人類代理。這就是為什麼我進入AI領網域,從第一天起就致力于構建代理。
主持人: 你的職業道路非線性,從物理學到AI,這種轉變聽起來非常引人入勝。你是如何找到自己的方向并最終進入這個領網域的?
Misha Laskin: 是的,那是一條非線性的道路。我當時是一個局外人,那時候這個領網域也很有競争力。OpenAI在那個時候發布了一些研究請求,大約是2018或2019年。這些研究請求是他們希望其他人來研究的問題。當我看到這個列表時,這些問題已經有些過時了,我不認為他們真的還關心這些問題,但這給了我一些具體的問題可以去研究。我開始在其中一個問題上取得進展,我感覺我在取得進展,雖然我不知道我實際上取得了多少進展。我開始不斷地向OpenAI的幾位研究科學家發郵件提問,這實際上是在冷聯系他們,直到我可能變得太煩人了,他們開始,嗯,我想說他們的回應相當優雅。我在那裡建立了一些關系,其中一個人介紹我認識了Pieter Abbeel,他是伯克利的一位大牛,我認為他是我們這個時代最偉大的研究人員之一,專長在強化學習和機器人領網域,但他的實驗室幾乎涉及一切,包括一些最有影響力的生成模型研究。其中一篇關鍵的擴散模型論文就出自他們手中。老實說,我很幸運,他願意給我一個機會,将我帶入了他的團隊。真的,Pieter Abbeel教授沒有任何理由這麼做,當我站在另一邊看待加入團隊的申請者時,真的沒有任何理由去接受一個未經審查的人。但他冒了這個險,我認為這是我進入這個領網域的第一步。
主持人: 你和你的聯合創始人Ioannis Antonoglou在DeepMind和Google進行了一些令人難以置信的項目,也許你可以給這裡的朋友們介紹一下你們參與的一些項目,比如Gemini和AlphaGo,這些項目的關鍵學習點是什麼,以及它們是如何推動你們的思考直到今天的?
Misha Laskin: 是的,Giannis是我進入AI領網域的主要原因。他是AlphaGo的關鍵工程師之一,他當時在首爾,參與了與李世石的比賽。在AlphaGo之前,他還參與了一篇名為深度Q網絡(DQN)的論文,這實際上是深度學習時代的第一款成功的代理,它能夠玩Atari視頻遊戲,這開啟了深度強化學習領網域的整個研究。這是一個證明點,說明你可以從原始感官輸入中學習如何在環境中可靠地行動,這在當時是完全不明确的。Ioannis還參與了AlphaGo及其後續的系列工作,如AlphaZero和一篇名為MuZero的論文。我認為這真正展示了你可以将這個想法推進多遠,它與我們今天的大型語言模型相比,Alpha模型實際上非常小,但在這一點上卻非常聰明。至少對我來說,AlphaGo的關鍵教訓是在Rich Sutton的一篇著名論文中得到了概括,他是強化學習研究的一位重要人物。在那篇論文中,他提出了"苦澀的教訓"的想法,基本上是說,如果你正在構建基于你自己理解的系統,這些系統可能會被那些自我學習的系統取代,或者是那些以可擴展方式利用計算能力的系統。
他認為,利用計算的兩種方式一種是通過學習,即訓練,就像我們今天認為的語言模型,它們主要通過在互聯網上訓練來利用計算。另一種方式是搜索,利用計算來展開一系列計劃,然後選擇最好的一個。AlphaGo實際上是這兩個想法的結合。我仍然認為這是AI中最深刻的想法,将學習和搜索結合起來是以可擴展方式利用計算的最佳方式,這些因素共同產生了在圍棋上超人類的代理。AlphaGo的問題是它只擅長一件事,我記得當時在該領網域,感覺有些困頓,因為深度強化學習領網域的目标是構建通用代理,超人類的通用代理,而我們達到的是超人類的非常狹窄的代理,并且沒有明确的路徑來使它們變得通用,因為它們的數據效率太低了。如果訓練一個任務需要60億步驟,那麼你從哪裡獲取訓練其他任務的數據呢?這是語言模型時代的一大突破,你可以将互聯網上的所有數據視為許多任務的集合,比如Wikipedia是描述一些歷史事件的任務,Stack Overflow是編碼問題的問答任務,你可以将互聯網視為一個龐大的多任務數據集,這是非常有趣的。
我們從語言模型中獲得通用性的原因是,它基本上是一個在大量任務上訓練的系統。這些任務并不是特别有指向性,也沒有可靠性或代理性的概念。因此,從這種系統中產生的語言模型并不是特别好的代理,它們當然非常了不起,可以做很多不可思議的事情,但代理性中的一個基本問題是你需要多步思考,并且每一步都有一定的錯誤率,這種錯誤會累積,這就是所謂的錯誤累積。這意味着如果你在第一步就有一定百分比的錯誤機會,那麼這個錯誤會在幾步之内迅速累積,以至于在一個有意義的任務上變得不可靠。我認為現在缺失的關鍵是,我們有的語言模型是利用學習的系統,它們還不是以可擴展方式利用搜索或規劃的系統。
主持人: 這真是個有趣的觀點,那麼反射AI的靈感和你們的長期願景是什麼?你能分享一下最初的靈感和你們正在追求的問題空間嗎?
Misha Laskin: 最初的靈感很大程度上來自于我和Ioannis在Gemini項目上的緊密合作。Ioannis領導了RF工作,而我負責獎勵模型的訓練,這是RF中的一個關鍵部分。我們和其他人一起工作的是這些語言模型,在訓練後期你會對其進行聊天對齊,使它們适合于與用戶進行良好的互動體驗。通過像ChatGPT或現在被命名為Gemini的Bard,這些預訓練的語言模型非常适應性強,通過正确的數據組合,你可以使它們适應成高度互動的聊天機器人。我們從中獲得的關鍵洞見是,沒有特别針對聊天做的事情,你只是在收集聊天數據。但如果你為另一種能力收集數據,你也能解鎖那個能力。當然,這不是那麼簡單,很多事情都在改變。比如說,聊天是主觀的,所以你訓練的算法與你會為具有明确目标的任務訓練的算法不同。還有各種問題,但主要的是,我們認為架構和模型是有效的,很多我認為是瓶頸的東西已經被計算能力和規模衝刷掉了。像我之前認為需要研究突破的長上下文長度,現在所有參與者都發布了相對于我們一兩年前認為可能的模型,具有極端的長上下文長度。這些方法在訓練這些東西和在訓練後對齊它們方面都相當穩定,這确實是一個數據問題,也是一個如何在這些對象上啟用規劃和搜索的問題。我們認為如果我們自己來做,我們可以更快地解決這個問題,我們只是想要非常迅速地解決它。所以你描述的代理,無論是對你和Ioannis作為研究者,還是對Reflection來說,都是一種夢想。
2、 AI代理的當前狀态
主持人: 因為現在"代理"成了2024年的熱門詞匯,每個人都開始自稱是代理,這個詞開始有點失去意義了。我們能否暫停一下,因為這個詞現在被過度使用了嗎?
Misha Laskin: 這是一個有趣的問題,因為"代理"這個術語在研究社區已經流傳了一段時間。從AI的早期開始,我主要在深度學習時代的背景下思考代理的概念,從DQN開始。代理的定義相當簡單,就是能夠獨立推理并采取必要的多個步驟來完成其被指定的目标的AI系統。目标的指定方式随時間而變化,在深度強化學習時代,目标通常通過獎勵函數指定,比如對于AlphaGo,目标是赢得圍棋比賽。人們通常将代理視為優化獎勵函數的實體,但即使在語言模型出現之前,也有研究以目标為條件的代理,無論是在機器人學還是在視頻遊戲中,你可以為機器人設定一個目标,比如給它一個蘋果被移動的影像,并要求它復現那個影像,它需要在世界中行動,拾起蘋果并移動它以達到目标。簡而言之,代理就是需要在環境中行動以實現某些目标的AI系統。
主持人: 考慮到最近在代理領網域,特别是編碼代理領網域的活動,如果我們把目标設定為"為我創建一個計算器應用",代理需要去完成這個任務。在你看來,這算是代理的推理嗎?擴展這種能力是否能帶我們進入所謂的"應許之地",或者你認為我們需要采取不同的方法,可能更依賴強化學習或其他技術來實現這一目标?因為我覺得這些代理的任務完成率還在134%左右,我很好奇我們如何能将它們提高到99%。
Misha Laskin: 這些确實是代理,只是在能力範圍内可能還未達到高可靠性水平。大多數人今天在語言模型的背景下考慮代理時,會想到的是被提示的代理,你可以通過提示模型或設定一系列的提示來讓它完成任務,這使任何人都能将一個語言模型從零開始使其工作。我認為這很有趣,但它只能走這麼遠。這實際上是"苦澀教訓"的一個例子,因為提示事物并将其引導到特定方向,正是我們在模型中嵌入的啟發式方法,試圖實現更高的智能。自深度學習時代以來,代理領網域的每一個重大進展都顯示,通過學習和搜索,許多這些方法都被淘汰了。提示的目的是指定目标,你總是需要提示來告訴代理要做什麼,但一旦你開始偏離這一點,提示的目的實際上是将代理置于軌道上,你就開始為它思考了,你告訴它"現在去這裡做這件事"。我認為這種做法将會消失。我認為這是當今發生的局部現象,未來的系統不會這樣。關鍵是思考和規劃需要在AI系統中發生,而不是在提示層,這樣才能避免達到瓶頸。
我認為你希望盡可能多地将任務交給AI系統。這些語言模型從未被訓練用于代理,它們是為聊天互動和預測互聯網上的事情而訓練的,所以能夠通過提示獲得某種程度上有效的結果幾乎是個奇迹。但有趣的是,一旦你能夠通過提示達到某種程度的效果,這實際上是開始使用強化學習算法的最佳起點。強化學習算法所做的只是強化良好行為并盡可能減少不良行為。如果你有一個代理什麼也不做,那麼就沒有良好的行為可以增強,因此算法不起作用。這被稱為稀疏獎勵問題,如果你沒有達到你的獎勵,即沒有完成你的任務,那麼就沒有學習的來源。但如果你通過提示使代理達到某種工作狀态,比如說它的完成率是133%,那麼你就有了一個最小程度上有能力的基礎,可以加強真正良好的行為。
那麼挑戰變成了數據挑戰,你從哪裡獲得用于訓練的提示集合?你在哪個環境中運行這些算法?我猜Susan确實帶有一個環境,但對于許多問題,你需要考慮這個問題。然後,最大的挑戰可能是如何以可擴展的方式驗證事情是否正确完成。如果你能解決這些問題,比如任務從何而來(通常這是通過產品實現的,這是可解的)、你在哪個環境中運行它們,使用什麼算法,但真正關鍵的是你在哪個環境中運行它們,以及如何驗證事情是否正确完成。
主持人: 我認為這是實現代理的一個方案,這觸及到了今天AI代理領網域問題空間的核心。為了稍微設定一下Reflection正在追求的問題背景,你認為AI代理市場的當前狀态如何?我認為許多人假設我們能夠用現有模型做的比實際上的能力更多。當前關于AI代理的嘗試失敗的原因是什麼?
Misha Laskin: 當前關于AI代理的嘗試失敗的原因是什麼?一種分類或定義通用代理的方式,或許我會使用"通用代理"這個術語,因為我将"通用性"用于廣度。一個通用代理需要能夠處理廣泛的事務,可以處理多種輸入,但它也需要在任務復雜性方面具有深度。比如說,AlphaGo可能是我們構建過的最深入的代理,它只能做一件事,因此并不那麼有用,它可以下圍棋,但不能玩井字棋。而當前的語言模型系統,如Gemini、Claude、ChatGPT和GPT系列模型,則傾向于另一個方向,它們非常廣泛,但在深度方面并不非常有能力。它們在廣泛方面極其令人印象深刻和有能力,我認為這實際上是一種奇迹。
正如我之前說的,我們感覺我們還沒有解決通用性的問題,然後這些模型出現了,但現在我們處于光譜的另一端。我們現在擁有的是更多關于廣度的進展。尤其是最新一代的模型,比如GPT4.0和最新的Gemini家族模型,它們在多模态方面進行了創新,它們可以在同一基礎層理解不同的模态,而無需将一種模态轉換成語言。我稱這為廣度。但在這個過程中,沒有哪些東西是為深度訓練的。互聯網并沒有真正的數據來描述如何順序地思考。人們嘗試解決這個問題的方法是使用可能具有這種結構的數據集,并希望它能推廣,比如數學數據集、編程數據集,通常指的是解決數學問題的推理。
這還沒有真正直面問題。我認為我們需要的方法是,讓我們假設有一個通用的方法,你可以針對任何任務類别采取一系列提示,用于你的訓練數據,并使語言模型在這些任務上迭代地變得更加有能力。我認為有人需要解決深度問題,整個領網域或大型實驗室一直在努力解決廣度問題,這當然很棒,也有一個很大的市場,解鎖了很多非常有用的東西,但同樣,有人需要解決深度問題。
3、AlphaGo、AlphaZero和Gemini的成就和挑戰
主持人: 這非常好地引入了你和 Loannis從AlphaGo、Alpha Zero和Gemini的工作中獲得的獨特見解,以及訓練後和數據的重要性。你能分享更多關于這些經驗如何塑造你獨特視角的信息嗎?這些視角如何幫助我們解鎖更多潛能?
Misha Laskin: 關于語言模型,我發現的一個非常驚訝的事實是,它們有時候即使沒有按照你希望的方式工作,實際上也非常接近。它們感覺像是需要在某事上有更好的基礎。我認為這就是它們在聊天中表現良好的見解來源。你可以和它們玩耍,它們是不太可靠的,有時會偏離軌道,但幾乎是不錯的聊天夥伴。
那麼,如何将預訓練的語言模型變成可靠的聊天機器人呢?在這裡的可靠性是通過人類偏好來衡量的,即與這個聊天機器人互動的人是否比其他聊天機器人或其以前的版本更喜歡它。如果當前版本比之前的幾個版本更受歡迎,那麼你就知道你取得了進展,這種進展是通過為它收集數據實現的。就是收集用戶輸入到聊天框的查詢,模型提供的輸出,以及這些輸出之間有效排名的數據,從而推動模型更傾向于更受歡迎的輸出。
當我們談到排名時,這個排名從哪裡來?它來自于人類。要麼是人類标注者,要麼是嵌入到產品中的。你有時可能會在ChatGPT中看到"點贊"或"狂踩",它是在收集你的反饋,了解你的偏好。這些數據被用來使模型與用戶偏好對齊。這是一個非常通用的算法,也是一個強化學習算法,因此被稱為"基于人類反饋的強化學習"。你只是在強化人類反饋表達偏好的内容。沒有理由相信,這種方法不能用于使代理更可靠。還有一系列其他問題需要解決。
這就是為什麼這個問題如此困難,因為一旦你進入代理領網域,就不僅僅是語言輸出,還有它們互動的工具,你知道的,假設你想發送電子郵件或在集成開發環境中工作,或者代理在環境中做任何事情都需要工具,需要環境,而每個部署代理的人都在不同的環境中部署代理。如你所說,融入不同環境并在其上引入代理能力确實是一項挑戰。這就是為什麼從事這類工作有些困難,你需要小心處理環境以及你如何構建它,因為你不想過度适應某個特定環境。從概念上講,這與為聊天對齊模型非常相似,只是途中需要解決更多的集成挑戰。
4、探讨LLMs缺乏固定真實獎勵的問題
主持人: 既然你視AlphaGo為構建真正有能力的代理的頂峰,我想象你正在嘗試在大型語言模型(LLMs)中引入一個類似AlphaGo的時刻。你認為遊戲玩法與LLMs之間的主要區别是什麼?在我看來,遊戲有一個非常明确的獎勵函數,可以進行自我對弈,但是将人類反饋的強化學習應用于LLMs是否足夠呢?
Misha Laskin: 我認為你提到的沒有确切獎勵的問題可能是關鍵問題之一。我們從上一代強化學習研究中學到的是,如果你有一個确切的獎勵,你幾乎可以保證成功。這已經在許多非常令人印象深刻的項目中得到了證明,這些項目的規模前所未有。除了AlphaGo外,還有OpenAI的DOTA 5或者AlphaStar。例如,AlphaStar和DOTA 5可能更加小眾,因為你需要玩這些遊戲才能理解,但作為一個前星際争霸玩家,我對AlphaStar的策略發現感到震驚,就像比我們更聰明的外星人來到地球玩這個遊戲并完全超越了我們。
一個确切的獎勵對于确保行為至關重要。現在,對于人類偏好和代理而言,我們面臨的是非常通用的對象,我們沒有确切的獎勵來判斷某事是否完成,比如編碼任務的确切獎勵是什麼?它可能通過一些單元測試,但仍然可能是錯誤的。這是一個非常困難的問題,我認為這是代理的根本問題。還有其他問題,但這是一個大問題。對于聊天來說,你如何繞過這個問題?再次通過RHF(來自人類反饋的強化學習)。你訓練獎勵模型,這是一個預測某事是否正确完成的語言模型。
這種方式工作得很好,但挑戰在于,當沒有确切的真實情況時,你擁有這種可能出錯的噪聲模型,代理很快就足夠聰明,找到獎勵模型中的漏洞并加以利用。舉一個具體例子,在聊天中,假設你注意到你的聊天機器人輸出了一些可能有害的内容,或者有些話題你不希望它讨論,因為它們可能很敏感。所以你在數據混合中加入了一些數據,例如聊天機器人說"抱歉,作為一個語言模型,我無法回答這個問題"。如果你現在針對這個訓練了一個獎勵模型,并且在你的數據混合中只放入了顯示這種情況的數據點,而沒有放入聊天機器人實際上回答了敏感問題的實例,那麼獎勵模型可能會認為,只要不回答用戶的查詢就是好事,因為它只看到了那種情況的積極用例。當你針對這個進行訓練時,語言模型的策略最終會足夠聰明,發現這個獎勵模型在我不回答問題時給我高分,它可能會退化成一個根本不回答你問題的語言模型。這就是為什麼這非常微妙且困難的原因。我敢肯定很多與ChatGPT或Gemini等模型互動的用戶有時會發現它們有時突然不回答問題,或者在某些方面變得稍差,或者在某些方式上表現出政治偏見,我認為這很多都是數據的人工效應,但這些人工效應通過不良的獎勵函數被放大了。
主持人: 關于大模型訓練流程,或者說大AI系統訓練流程,分為預訓練和後訓練兩個階段。預訓練部分似乎已經在很大程度上得到了解決,我們現在處于規模擴大的階段,技術也基本成熟。而後訓練部分仍然處于一種研究階段,人們還在探索哪些技術可以普遍适用。
Misha Laskin: 從理想狀态來看,預訓練的責任是獲取基本技能,你可以把它看作是獲取語言模型從零到良好的能力的過程,這就是為什麼它如此強大。而後訓練的責任是加固良好行為,從聊天的角度來看,你在加固模型沿着聊天軸的良好行為。這實際上非常有趣,因為訓練AlphaGo和Gemini的高層次配方實際上是相同的,你有模仿學習階段,然後是強化學習階段。
強化學習階段在AlphaGo中要復雜得多,這回到了獎勵模型的問題。如果你有一個相當嘈雜且易于被利用的獎勵模型,那麼你能做的就只有那麼多,在策略變得足夠聰明并找到欺騙它的方法之前。即使你使用最復雜的RL算法,比如AlphaGo中的蒙特卡洛搜索,也可能不那麼有效,因為它可能會陷入一種退化狀态,策略會在它能進行任何有趣的搜索之前就破解獎勵模型。
例如,如果你在下棋時考慮多步前的行動,但是你在每一步的判斷都很糟糕,那麼計劃十步前就沒有意義了。而我們今天在RHF方面的情況就是這樣。有一篇非常有趣但被低估的論文,名為《獎勵模型過度優化的擴展定律》,這是一篇來自OpenAI的研究這種現象的論文。這篇論文有許多有趣的點,它表明這種現象在所有規模和所有嘗試過的算法中都存在。
關于你提到的AlphaZero的結果,如果你遵循它的成果,我們可能根本不需要預訓練,這是對這一發現的合理結論嗎?這真的是一個值得探讨的問題,因為它挑戰了我們對預訓練和後訓練階段的常規理解,提示我們重新思考這些階段的必要性和效果。至少在我的思維模型中,AlphaGo的模仿學習部分是必要的,更多是從實用性角度考慮的。當DeepMind從AlphaGo過渡到AlphaStar時,并沒有發布類似"AlphaStar Zero"的模型,AlphaStar的很大一部分是跨多個遊戲的模仿學習。我認為AlphaGo處于一種特殊的位置,你不僅有一個零和遊戲,而且可以相對快速地達到遊戲的終點,所以你可以很快得到關于你的行動是否正确的反饋。
所以,如果沒有明确的獎勵函數,将這種方法普遍應用是一個過于不受約束的問題。我認為在實踐中,如果我們對所有事物都有明确的獎勵函數,AlphaZero的方法将普遍适用,但因為我們沒有,所以需要進行模仿學習,這幾乎是一種實際需要,我們需要某種方式進入遊戲。
主持人: 你之前描述了從技術角度以及產品分發和用戶接觸角度,将代理置于其環境中的重要性。對用戶來說,首次與最強大的代理互動時,選擇正确的任務類别非常重要。你腦海中有哪些任務類别?你認為用戶可以如何将這些代理應用于他們的日常工作流程?
Misha Laskin: 如果你想在深度軸上取得進展,你可以首先嘗試像AlphaGo那樣的困難任務,或者你可以以一種同心的方式擴展你能夠處理的任務的復雜性。我們專注于以這種同心方式啟用深度,并且非常關注擁有一個通用配方,這個配方不會繼承某些任務的特定啟發式方法。從研究的角度來看,我們正在構建這種通用配方。現在你必須将這些配方實體化以展示進展,至少對我們來說,展示不同環境的多樣性非常重要。因此,我們正在考慮多種類型的代理,如網頁代理、編碼代理和作業系統計算機代理。
5、如何吸引頂尖AI人才
主持人: 對我們來說重要的是展示你可以擁有一個通用的啟用代理的配方。稍微換個話題,你已經吸引了一個出色的團隊,你還希望招募哪些人加入你的團隊?
Misha Laskin: 我們正在尋找能夠在這種多樣和創新環境中貢獻力量的人才,尤其是那些對開發和應用高級AI系統具有深刻理解和經驗的專家。我們很幸運能夠從頂尖的AI實驗室吸引到一些人才。我認為這很大程度上歸功于 Loannis和我所做的工作,尤其是 Loannis的聲譽。我曾看過邁克爾·喬丹的紀錄片,喬丹之所以如此高效,很大一部分是因為他個人在比賽中的出色表現,可能是最佳的。他真正激勵了他的團隊成員盡可能地提升到他的水平,即使他們可能達不到那樣的高度。Loannis對人們也有這種影響,我在Gemini項目上與他密切合作,他對我也有這種影響。我不知道我是否達到了他的水平,但我渴望達到,并且通過這一過程,我明顯成為了一個更好的工程師和研究人員。我認為這是很大的吸引力,你可以從他那裡學到很多。
我們目前主要在尋找的是,我們沒有急于招聘,而是更加有方法地招聘。我們确實對其他研究人員和工程師加入我們的使命感興趣。加入我們的每個人的共同點是,我們都非常渴望成功。Loannis和我本可以留在DeepMind繼續推動代理項目,但我們決定以自己的方式做是因為我們認為我們可以更快地推進這個目标。這種緊迫感部分是由于我們真正相信,我們距離AG(通用人工智能)大約只有三年的時間。
主持人: 你所說的"主任務"與"支線任務"的框架,以及你和團隊成員展現出的零自滿和正常的急迫感,都非常讓人欣賞。我要強調的另一件事是,你描述 Loannis激勵和激勵他人的聲譽同樣适用于你和 Loannis在DeepMind的所有人。所以,三年内我可能就擁有了一個能為我寫備忘錄的代理,希望如此。我有一個迫切的問題:這是幾十年後的事情嗎?還是幾個月後的事情?聽起來你們更接近于幾個月或幾年内的時間框架。
Misha Laskin: 是的,确實讓人有些驚訝,這個領網域發展的速度之快令人擔憂。在深度和可靠性方面,可靠性也等同于安全性。我們希望這些系統是安全的。最近有一篇來自Anthropic的論文讨論了機械解釋性,這一整個研究領網域非常有趣,并且開始展示出實際的應用價值,比如在模型中找到特定的"說謊"神經元,或者可以被抑制的神經元。對我來說,安全性就是可靠性。如果一個系統在你的電腦上亂來,破壞各種東西,那麼這是一個不安全的系統。或許這是一種功利主義的安全觀——你只是希望這些系統能正常工作,按照你的意圖行事。
主持人: 我還有幾年時間找到除了寫備忘錄之外的其他愛好——或者也許你将擁有一支AI實習生軍團,為你完成所有的研究工作。
Misha Laskin: 從兩個角度來看這個問題。一是我們從事這項工作是因為這是我們這個時代的科學根本問題。我們是科學家,這就是為什麼我們如此感興趣并致力于此。在某個世界中,你有機會成為有史以來最激動人心的科學冒險之一的一部分,并且實現了建立通用代理的目标——你有高度安全可靠的數字代理在你的電腦上運行,完成那些你不想做的繁瑣工作。我不認為人類減少工作時間的需要或生產力的需求會改變,我只是認為每個人的生產能力和影響世界的能力将大幅提升。作為一名研究者,有很多事情我需要花時間去做,而一個更智能的AI可以幫助我更快地實現我們的目标。這有點循環,但如果我們接近一個數字化的通用人工智能,我們會更快地解決這個問題。
另一個角度是從用戶的角度看,我們在計算機上做的很多事情,可以認為計算機是我們作為人類接觸到的第一個數字工具,就像過去的錘子、鑿子和鐮刀一樣。我們正在向超越這些的層面邁進,不是你必須學習如何精确使用所有這些工具并花費所有時間,這實際上是從實現個人目标中抽走了時間。你将擁有極其有用的AI代理,幫助你實現任何目标。這非常令人興奮,因為我們個人目标的雄心正不斷增長,比如一個軟體工程師今天可以借助這些工具完成更多工作,但這只是開始。我認為我們将能夠為自己設定更加雄心勃勃的目标,因為我們可以将很多必要的工作解除安裝給系統,這些都是我非常期待的事情。
6、對AI領網域最激動的事情
主持人: 在接下來的一年、五年和十年中,我對AI領網域最激動的事情之是什麼?
Misha Laskin: 我想是最近這篇關于機械解釋性的工作。這意味着這些模型大多是黑盒子,目前還不清楚如何像研究神經科學一樣研究它們——如果你把它們想象成大腦的話。這似乎是一個非常有趣的研究方向,現在開始顯示出在非玩具環境下的有效迹象。也許可以說,語言模型的"神經科學"是一個非常有趣的AI領網域。更廣泛地說,如果我在學術界,我可能會非常關注AI的科學,這不僅僅是AI的神經科學,還包括可以從理論和實證的角度探究的各種問題,比如這些模型的擴展定律是如何确定的,以及如何改變數據混合。
我們現在基本上處于相當于19世紀後期的物理學階段,那時電力剛被發現,沒人知道它是如何或為什麼工作的。那時有很多實證結果,但沒有相應的理論來解釋這些現象,這就意味着它們并不是很被理解。然後,一系列非常簡單的理論模型被開發出來,用來理解這些現象,這最終催生了下一波的實證突破。所以,我認為AI的科學目前處于這樣的狀态,我非常期待看到它的發展方向。
主持人: 在AI世界中,你最欽佩的人是誰?
Misha Laskin: 當被問及這個問題時,很多人可能會提到一些名字,但我想強調一下我基于與他們合作的經歷而欽佩的人,因為通過我在AI領網域的這些年,有幾位這樣的人給我留下了深刻印象。其中之一肯定是Pieter Abbeel。我從未見過任何人像Peter那樣高效地操作。自從遇見他以來,我從他那裡學到的不僅僅是研究作為一種創造性追求的思考方式,更多的是關于操作上的能力和效率。他的實驗室做了很多創造性的工作,但我認為這些工作都非常艱難,需要極大的專注和推動力。他管理他的實驗室就像是我經歷過的最嚴格的訓練營,這極大地幫助了所有項目的聚焦。所以,無論是從他所做的工作(顯然是跨領網域的卓越工作,包括在強化學習、無監督學習和生成模型方面的突破性工作),還是從他對才能的識别和啟用方面,我都非常欽佩他。
像David Silver這樣的人,他不僅是Deep Q-Network論文的第一作者,還是A2C和A3C兩篇定義了深度強化學習的算法論文的核心人物。他的優勢在于他非常善良和以人為本,盡管成就卓越卻十分謙遜。至于 Loannis,他确實有種"邁克爾·喬丹效應",和他一起工作,你會不由自主地希望做到最好。我們早期的團隊雖小,但大家受到他的啟發,非常努力。
7、對于初創AI公司的創始人的建議
主持人: 非常感謝你分享這些。聽你談論每個人真的很有趣。關于Peter Abel,我經常告訴他,他在過去幾年裡實際上創造了一個影響深遠的團隊,這可能是因為他教會了他們許多東西,同時也自然地吸引了創造性思維者和獨立思考者加入他的實驗室。他還教會了他們如何嚴格管理實驗室并極其專注地工作,所以我确信這并非偶然。最後一個問題:對于正在建立AI公司的創始人,你有什麼建議?你現在剛開始你的旅程,我相信你也向其他人征求了很多建議,你會将什麼建議傳遞給下一代?
Misha Laskin: 我認為幾年後我可能會更有資格回答這個問題,那時的答案可能更有意義。但我會提供一條我在之前的創業經歷中經歷過的建議,這與AI無關——就是致力于對你真正重要的事情。這種重要性幾乎獨立于你周圍發生的事情,即使在情況不佳時,這件事仍然對你有趣。這就是一種圍繞這個問題的根本驅動力,與發生的其他一切無關,它本身就非常吸引你。
我之所以這麼說,是因為AI是如此有趣、有能力和酷炫的技術,很容易被它的魅力所吸引,想要看看我們能做些什麼。但如果沒有一種強烈的内在指南針,你最終可能會發現自己處于困境。
主持人: 就我以前的經歷而言,如果有可能的話,我會做一些不同的事情,并建議也這樣做。我喜歡的一句話是"在自己的體育場上玩耍,不要被别人體育場的光鮮亮麗分心"。你需要那種内在的驅動力和對問題的痴迷,以幫助你度過所有困難時期。
Misha Laskin: 是的,如果你真的關心某個問題,你也會關心你為其解決問題的客戶。擁有你不關心的客戶是一個糟糕的處境。所以,這種關心必須是自然而然的,這是一種個人的感覺,你很難強迫自己關心某些事情,如果這些事情與你内心的某些東西不一致的話。
主持人: Misha,非常感謝你今天的加入。你正在處理我們時代最雄心勃勃的問題,我喜歡你将其描述為我們時代的根節點問題。很明顯,你和Yannis的經驗使你們成為在這一領網域最優秀的團隊。無論是從RLF的角度,還是從獎勵模型訓練的角度,你們倆在AlphaGo、Alpha Zero和Gemini上的見解和經歷,我們都非常期待Reflection的未來。END
華夏基石·AI啟航論壇
誠邀您的參與,掃碼即可獲取活動詳情:
喜歡這篇文章
請為我點贊和在看
>