強化學習之父Sutton最新萬字采訪：炮轟深度學習只是瞬時學習，持續學習才是智能突破的關鍵

今天小編分享的教育經驗：強化學習之父Sutton最新萬字采訪：炮轟深度學習只是瞬時學習，持續學習才是智能突破的關鍵，歡迎閱讀。

來源 |圖靈人工智能，管理智慧

咨詢合作| 13699120588

文章僅代表作者本人觀點

前兩周加拿大阿爾伯塔大學（University of Alberta）機器智能研究所與強化學習傳奇人物 Rich Sutton 錄了期播客，也就是 AI Scaling Law 信仰之文《苦澀的教訓》的作者！Sutton 教授十分低調，很少接受采訪，但這一次他分享了非常有意義的對 AI 行業的看法：AI 研究需要重新關注 "持續學習" 能力，而不是僅僅追求在固定數據集上的性能。我們會在未來幾十年内完全理解智能的本質，這将從根本上改變人類對自身的理解，并帶來深遠的技術和社會影響

Rich Sutton 是一位加拿大計算機科學家。他是阿爾伯塔大學計算科學教授和 Keen Technologies 的研究科學家。被認為是現代計算強化學習的創始人之一，對該領網域做出了多項重大貢獻，包括時間差異學習和策略梯度方法。Rich Sutton于2019年在其個人博客上發表了一篇著名文章《Bitter Lesson》（苦澀的教訓）。這篇文章是人工智能領網域的重要觀點總結。文章的核心内容是探讨人工智能發展的歷史和未來方向，強調一個重要的教訓：簡單、通用的方法（例如利用更多計算資源的學習算法）最終會比人類設計的復雜、領網域特定的方法更成功

照例先給Rich Sutton教授采訪内容劃個重點（完整采訪附在文後）

持續學習與深度學習

深度學習過于關注"瞬時學習"（transient learning），在廠裡學成後就固定下來了；這種方法雖然在非線性映射方面取得了成功，但犧牲了持續學習的能力；現在 AI 領網域過于關注"我們能做什麼"，而不是"我們還不能做什麼"

1986 年反向傳播的發現帶來了非線性學習能力，但反向傳播只是梯度下降，而梯度下降中沒有任何東西能驅使學習系統找到能很好泛化的特征，它只是找到能很好解決現有問題的特征；這個權衡在當時是可以接受的，但現在需要改變

Sutton 認為真正的突破應該來自于對學習目标的重新思考，而不是簡單地改進現有的優化方法

目标與心智

Sutton 相信獎勵假說，即所有的目标追求都可以被理解為最大化一個單一的、外部接收到的标量信号

為了實現這個"總體目标"，我們為自己設定許多子問題，比如我有個子問題是如何拿起茶杯并成功送到嘴邊而不灑出來，所有這些都是對解決總體目标有用的子問題

復雜的高層次目标，如獲得博士學位、建立家庭等都是為了優化這個基礎的目标獎勵

這種觀點可能讓人感到不适，但 Sutton 認為這恰恰表明我們正在接近真相 - 從微小的事物也可以產生非常抽象的東西，現在的 LLM 不就是很好的例子麼？（《苦澀的教訓》建議多讀幾遍）

如果你能規劃，能通過試錯學習，這就是 Sutton 認為的"心智"；

這一切都涉及到模型，我們通過試錯學習，建立世界模型，并能夠使用該模型進行規劃，這并不是過分的要求，所以 Sutton 還是挺支持 LeCun 的研究的

對研究方法的建議

要保持日常寫作習慣，記錄并發展自己的想法；

要中立對待流行趨勢，選擇真正重要且有潛力的問題；

研究者專注于未解決的問題，而不是已經成功的領網域；

完整采訪中文文字版（英文采訪視頻請自行搜索Rich Sutton’s new path for AI）

人工智能新道路：與Rich Sutton的對話

主持人A: Rich，非常感謝你做客我們的播客"大約正确"。我們一直想邀請你，今天終于實現了，真是太好了！

Rich Sutton: 謝謝Scott，很榮幸來到這裡。

主持人B: 我們之前在播客中讨論過幾次強化學習，但我們很想知道強化學習的哪些方面吸引了你？你為什麼開始研究這個領網域？

Rich Sutton: 我一直對與世界互動并從中學習的系統很感興趣，而強化學習正是如此。它需要一個目标，我們将其形式化為獎勵。但令人驚訝的是，回溯人工智能的發展，從我70年代開始研究人工智能以來，很少有研究關注系統與世界互動、從中學習并實現目标。即使在早期控制論、模式識别和監督學習中，這些系統也沒有目标，它們只是試圖識别模式。模式識别是智能的重要組成部分，但它并不會為了目标而與世界互動。所以，這方面一直讓我覺得有所缺失。當我開始研究時，并沒有強化學習這個領網域，是我們創造了它，因為當時沒有人做這方面的研究。

主持人A: 你是否記得某個時刻，讓你突然意識到"啊，我想研究這個以目标為導向的方向"？

Rich Sutton: 這是一個逐漸形成的想法。我們研究了人們研究過的所有不同領網域，比如模式識别、控制理論等等，一直在尋找"在哪裡可以找到一個系統，它試圖做某事并從中學習"。那時有老虎機問題（Bandits），你可以反復執行某個動作直到獲得最大獎勵，但這已經是最接近的了，它們并沒有類似"我記得在這種情況下我應該這樣做，在那種情況下我應該那樣做，以便實現我的目标"的機制。

主持人B: 老虎機問題本質上是無狀态的，對吧？你只是反復做同一件事。

Rich Sutton: 是的，它是無狀态的。

主持人A: 你認為為什麼人工智能會從預測開始？

Rich Sutton: 根據我對歷史的理解，它并不是真正從預測開始的。我認為早期研究者一開始就想讓系統通過互動來實現目标。後來他們倒退回模式識别，因為模式識别更清晰、更簡單。然後他們逐漸忘記了一些最早期的研究，比如1954年Farley和Clark的研究，他們讨論了試錯學習。後來，試錯學習逐漸變成了監督學習，成了一條更清晰的前進道路。

主持人B: 這是一種簡化。

Rich Sutton: 是的，一直以來都是如此。很抱歉從這麼早的歷史開始。

持續學習與深度學習

主持人A: 沒關系，這很有趣，打好基礎很重要。而且邀請你的好處之一就是你還記得這些事情。讓我們回到現在，你目前在強化學習領網域思考哪些問題？哪些方面讓你感興趣？

Rich Sutton: 我只能通過談論整個人工智能領網域來描述它，談談人工智能中正在發生什麼、沒有發生什麼以及需要發生什麼。我仍然認為人工智能是與世界互動以實現目标。我想這意味着我們在談論強化學習。但如果你只是為了實現目标而與世界互動，那麼你就必須建立一個世界模型，你必須有一個目标，你必須在多個時間尺度上對世界進行建模，你必須學習理解世界的正确結構、特征和概念。我還沒提到你必須嘗試不同的事情，看看哪些有效，這就是強化學習的起點。我想說，多年來，我們已經開發出了很好的線性映射方法。如果你需要學習線性關系，那麼我們做得很好，我們可以在線學習，可以持續學習。

主持人B: 你能舉一個線性關系的例子嗎？哪些情況下線性關系很有效？

Rich Sutton: 所有算法實際上都是為線性情況定義的，對于非線性情況，你會得到線性TD Lambda、非線性TD Lambda、Q學習，它們都有線性版本。線性版本學習速度很快，并且可以随着世界的變化而适應，但它們無法學習非線性映射，無法學習異或，無法學習新的特征。1986年我們發現了反向傳播算法，我們開始能夠學習非線性映射。但這就像一個惡魔的選擇，當我們想學習非線性事物時，我們不得不放棄快速變化和持續學習的能力。

主持人A: 你必須放棄嗎？我的意思是，我不認為你應該放棄。

Rich Sutton: 最初發現的方法無法持續學習。它們能夠學習非線性事物，這太令人興奮和強大了，以至于我們為了學習非線性映射而放棄持續學習的能力，這是一個很好的權衡。

主持人B: 這是一個很好的權衡，但我們堅持得太久了。

Rich Sutton: 而且，不知何故，我覺得這個領網域的美學已經改變了，這個領網域想要專注于他們能做什麼，而不是注意到他們不能做什麼。

主持人A: 你認為這是什麼原因造成的？

Rich Sutton: 原因很簡單，我們能做某些事情，所以我們就會去做這些事情。所有的深度學習都是關于"我們能用數據集做什麼？我們從中學習，然後凍結我們學習到的系統，然後在世界上運行它"。ChatGPT根本不學習，但構建它需要大量的學習。我們在語言方面取得了驚人的成就，但我們不得不放棄持續學習的能力。在正常使用過程中，ChatGPT并不會學習。這是對研究人員的考驗：他是想看看我們不能做什麼并努力解決這個問題，還是想看看我們能做什麼并繼續深入研究？這就像在路燈下找鑰匙的問題：我丢了鑰匙，我會在路燈下找，因為那裡是我能看到的地方，盡管那可能不是鑰匙所在的地方。我認為做所有不同的事情都沒問題，但我認為重要的觀察是，這個領網域絕大多數都朝着一個方向發展，朝着……

主持人A: 所以以至于如果你想說"我們有一些事情做不到"，你會受到強烈反對。他們會說："是的，但我們可以做所有這些其他事情，所以不要批評我們。"

Rich Sutton: 是的，我認為這是一個很大的影響。在早期，機器學習更加開放，"這是一個有趣的問題，讓我們試試"。然後，在某個時候，深度學習……這個領網域進入了一個階段，除非你做一些復雜的事情，比如Atari遊戲，否則你無法發表論文。你有一些新想法？它在大問題上是如何工作的？我認為這種情況正在逐漸緩解，人們對我們不能做什麼更感興趣了，關于持續學習的整個事情正是現在更容易被接受的研究方向。

主持人B: 你能定義一下什麼是持續學習嗎？

Rich Sutton: 持續學習就是持續學習，而不是在工廠裡學習，然後當你進入世界時就被凍結。有時我會嘗試尋找,如果我們有持續學習，這幾乎是正常的，那麼什麼應該是不正常的呢？不正常的，我試着稱之為"短暫學習"（transient learning）。深度學習所做的就是短暫學習，你在一個特殊的階段學習，然後學習就結束了，你再也不會學習了。這就是短暫學習，這是不尋常的

主持人A: 片段式學習（episodic learning）？

Rich Sutton: 我不能用這個詞，因為強化學習以一種非常特殊的方式使用"片段"這個詞。

主持人B: 這确實讓我覺得很合理。我的意思是，想想我們是如何學習的，我不會每天回家後就忘記我所做的一切。每當我獲得新信息時……

主持人A: 也許不好的日子會忘記。

主持人B: 所以我很想知道，為什麼這沒有成為默認的學習方式？

Rich Sutton: 它從一開始就是默認的，只是在最近幾十年裡，我們陷入了這種群體思維，我們都以一種特定的方式思考。我喜歡這樣想：我們試圖創造什麼？我們試圖創造一個固定且表現非常好的系統嗎？我們的最終產品會是能夠随着遇到新事物而繼續學習的東西嗎？當你每天來上班時，你會想"我真的很棒，我只需要做同樣的事情"嗎？還是你會想"他們付我錢是因為我可以适應發生的事情，我可以靈活地學習新事物"？

主持人A: 大多數時候，我不知道。兩者都很重要。

Rich Sutton: 但适應性對我來說似乎總是很重要。硬性智能……智能是一種策略，還是一種适應任何情況的能力？

主持人B: 當我們試圖構建這些可以持續學習的系統時，面臨哪些挑戰？

Rich Sutton: 這是你問我的第一個問題，你問我"現在最令人興奮的事情是什麼？"，然後我開始長篇大論……這個領網域已經做出了這種權衡：他們可以做非線性的事情，但前提是他們放棄持續學習。這是該領網域非常強烈的趨勢，它取得了巨大的成功，我對此毫不介意。我介意的是，他們沒有給研究其他方向留下空間。但我是一個成功的學者，而且我老了，我可以做我想做的任何事情。所以我要去做我真正認為最重要的事情，即使沒有其他人認為它重要。我認為是時候……早就應該有人弄清楚如何進行持續的非線性學習了。在我看來，這些根本不應該相互對立。我正在以一種特定的方式進行研究，專注于在線學習和單一任務，就像世界在逐漸變化，你必須不斷地跟随它，并在這種環境中學習。我只是想填補這個空白，我們應該能夠進行非線性學習，并且仍然完全持續學習。

主持人B: 為什麼我們不能？是什麼阻礙了我們？

Rich Sutton: 我們創造了所有這些專門的東西來使短暫學習工作得很好，比如回放緩衝區，我們進行歸一化的方式，以及像提前停止。我們已經開發了大量的技術和技巧來使短暫學習工作，所以這阻礙了對網絡進行持續學習，因為……你不會在ImageNet上做得很好，因為ImageNet是标準基準測試，它是為短暫情況設計的。你不會馬上在Atari遊戲上做得很好，因為我們開發了所有這些定制方法，使Atari遊戲在短暫學習方法下工作得很好。方法不同，問題也不同。你不能只是介入并在标準問題上做得更好，因為所有标準問題都是為短暫情況設計的。

主持人A: 所以聽起來你好像在說，是時候退一步，看看更大的圖景，而不是這些狹隘的解決方案了。

Rich Sutton: 絕對是這樣。你也可以從另一個角度說，人們沒有意識到這有多重要，這意味着當它被解決時，它将是一個更大、更重要的成果。如果你能負擔得起，做一個反向者是件好事。就像我說的，我很幸運，我可以做我想做的工作。讓我告訴你我對它的真實感受……我原以為我在說實話，我原以為其他人會做這件事。當我還是博士生時，我的同學Charles Anderson，也是Van Bardo的學生，他做了非線性部分，我要做強化學習的特定部分，然後我們會把它們放在一起，這會很好。然後我很失望，40年過去了，這些人還沒有解決這個問題。相反，非線性學習轉向了離線短暫學習，他們沒有給我提供我可以用來學習策略、學習價值函數、學習世界模型、學習世界轉移模型的方法。他們沒有弄清楚表征學習，他們沒有弄清楚"讓我們弄清楚什麼是世界的正确表征，那些能夠很好地泛化的表征，讓我現在就能快速學習"。這絕對是強化學習，我想說也是人工智能前進的瓶頸。我們沒有能夠持續學習的方法，除了線性情況。我們沒有找到好的表征的方法……我們總是要與傲慢作鬥争，因為傲慢會損害你看到真相的能力。但我所說的有點傲慢，我說"我給了這些人40年的時間來解決這個問題，他們沒有做到，現在我不得不自己做"。這大致上就是我所說的，這非常傲慢，至少第二部分是這樣，我就能在幾年内做好。我的意思是，我已經思考了很長時間，我真的希望我不必做這件事，這太遺憾了。

主持人A: 我的意思是，他們已經奠定了一些基礎，對吧？他們所做的工作并非完全無用，它會幫助你。

Rich Sutton: 也許你只是出于禮貌，但我感覺它不是基礎，它實際上是偏離解決方案的。它使得做正确的事情變得更加困難，因為他們沒有說"這是一個我們需要解決的問題"，他們說我們已經完成了關于學習表征的反向傳播論文，他們認為這是如何學習表征的解決方案。但是，表征不應該是一般的，并且在許多情況下都有用嗎？然後無論你需要做什麼，你都在它上面學習一個線性映射。

主持人B: 我同意這一點。

Rich Sutton: 我認為他們認為反向傳播可以學習到好的表征。

主持人B: 啊，好吧，我同意你，我不這麼認為。

Rich Sutton: 啊，好吧，有趣。或者他們說這使得其他人更難說"這是一個未解決的問題，我要研究它"。他們說："不，不，反向傳播已經解決了這個問題，如果你要研究它，你最好在反向傳播附近工作，并證明你比它更好。"

主持人B: 那麼表征有什麼問題呢？他們沒有做什麼？

Rich Sutton: 反向傳播只是梯度下降，梯度下降中沒有任何東西會驅動學習系統找到能夠很好地泛化的特征。它只是找到解決現有問題的特征。

主持人B: 所以這不是反向傳播的問題，而是反向傳播試圖解決的目标的問題，損失函數的問題。

Rich Sutton: 所以聽起來只是在說服人們我們沒有正确的解決方案。

Rich Sutton: 你可以這樣做，這是一種失敗的方法。你說："沒有人研究這個，我必須首先說服人們這是正确的事情，然後我再研究它。" 但是，你會把所有時間都花在說服别人上，你永遠不會真正地研究它，所以你永遠不會真正地成功。其他人會說："看，他說我們需要做這件事，但他沒有取得任何進展。" 浪費時間試圖說服其他人去做你認為重要的事情是一個很好的失敗方法。

主持人B: 那麼有什麼替代方案呢？

Rich Sutton: 你必須是一個反向者，并且真正去做。你可以花一些時間試圖說服其他人，如果你希望發表論文，你必須這樣做。

主持人A: 但在某種程度上，這就是我們在非線性環境中的朋友們所做的，對吧？他們忽略了所有人長達十年左右的時間，而所有人都告訴他們，他們所做的事情沒有任何原則。每個人都熱愛他們有原則的統計機器學習，而他們一直在埋頭苦幹。

Rich Sutton: 是的，但他們總是有好的結果，他們總有一些可以指出的進步。

主持人A: "總是"這個詞說得太絕對了。我記得在我研究生早期，深度學習周圍肯定有很多噪音

主持人B: 是的，而且人們仍然認為這很愚蠢。

主持人A: 所以，無論如何，也許應該贊揚他們堅持了下來。

Rich Sutton: 這是關于荒野的故事。神經網絡在荒野中度過了它們的十年，所以沒有人認為它好。所以我想我說的是，持續學習在荒野中度過了它的十年，現在它開始被接受了

主持人A: 這很好。

Rich Sutton: 一切都會回歸，科學中的所有這些問題都是自我糾正的。

主持人A: 但它們真的是這樣嗎？這需要有人來決定，對吧？科學本身就是其中的人，所以只有當有人做出決定時，它才會自我糾正，而且這可能需要很長時間。

Rich Sutton: 好吧，我認為我們應該争取在2030年之前

主持人A: 知道我們可能不會成功，但你必須嘗試。

Rich Sutton: 當我們說"成功"時，指的是什麼？理解大腦如何工作？

主持人A: 理解一個系統如何通過試錯，通過嘗試不同的事情來學習，建立一個世界模型，以便我們能夠理解世界，它可以找到決策的支點。我應該去參加這個演講還是那個演講？我應該去洗手間嗎？我應該喝一口茶嗎？所有這些……你知道，你必須找到這些選擇，生活中存在着低級的選擇，但你必須找到生活中 meaningful 的選擇。所有這些都涉及到一個模型。所以要求我們通過試錯來學習，并建立一個我們世界的模型，并能夠使用該模型進行計劃，這并不過分。這就是我認為構成心智的一系列事情。

主持人B: 我認為人類獨有的特性是能夠同時擁有多個目标。我有很多事情要做，我可以把你煩死，告訴你我現在正在做的所有事情。你知道，我們都有我們正在做的事情，我們有家庭，我們有事業，我們有朋友，我們有愛好，所有這些事情都相互疊加。每天我們都決定我們的目标是什麼，我們今天要做什麼。有時它會讓我們朝着更大的目标前進，有時只是星期天，沒關系。

主持人A: 是的。你必須找到平衡點才能保持……有時就像紙牌屋一樣。

主持人B: 但我想到像動物，動物的目标是什麼？也許它們目标的復雜性更低。

Rich Sutton: 它們也更少地與某種内部獎勵有關，對吧？

主持人B: 我不反對你的觀點。

Rich Sutton: 但我認為，只有一個目标和有很多目标都是正确的。我相信獎勵假設，即所有目标尋求都可以被很好地理解為最大化單個标量外部接收信号

主持人B: 是的。

Rich Sutton: 這是實現目标的一部分……我們為自己提出了許多子問題，比如我有一個子問題：我如何拿起我的茶并成功地把它送到我的嘴裡而不灑出來？所有這些都是對我們解決整體目标真正有用的子問題。所以我認為子任務、子問題是解決單個總體問題的解決方法。所以這讓我兩者兼得，我有一個目标，但我的大腦裡充滿了"這會讓我做到嗎？那會讓我做到嗎？我必須學習所有這些獨立的事情，并學習每個問題的解決方案，然後……然後我的生活将充滿‘我決定暫時致力于那個目标’，這将驅使我最終到達某個地方，然後我可以致力于另一個目标。"

主持人B: 所以你把目标看作是子問題，所有這些不同的目标，有點像創造這些子目标

Rich Sutton: 創造它們，絕對是提出它們。博士學位，我想獲得博士學位，我想獲得終身教職，我想xx

主持人B: 在這種情況下，什麼是所有這些子目标的單一目标？

Rich Sutton: 單一目标将是獎勵。我們并不真正知道人們的獎勵是什麼，但它就像快樂和痛苦，也許還有人們對你的态度，來自其他人的尊重。獎勵假設的驚人之處在于，有一個微小的标量值，你正試圖最大化它，它是一個低級的東西，它就像一個數字在每個時刻進入你的大腦，它在下丘腦中計算，然後從中產生了"我想組建家庭，我想擁有一個成功的研究科學家職業"等等。從一個不抽象的東西中產生了非常抽象的目标和非常抽象的概念。曾經有一段時間，這太不可思議了，以至于說出來會很尴尬。但現在這應該很直白了，我們已經多次看到這種情況發生。你知道，AlphaGo學會了下圍棋，它擁有所有圍棋中需要的抽象概念。學會了下國際象棋，它擁有國際象棋中所有需要的抽象概念。或者像語言模型，它讓我大吃一驚，它從這個簡單得多的問題中學到了什麼。"哦，我的天哪，下一個詞"。

主持人B: 是的，從微小的事物中可以產生非常抽象的東西。

Rich Sutton: 是的

主持人B: 好吧，這是一個令人信服的故事。我得承認，當你這樣說的時候，我也覺得有點心理上不舒服。

主持人A: 我承認，這讓你覺得自己沒有你想象的那麼復雜。

Rich Sutton: 是的。在這幾十年裡，我們将要學習，我們将要更好地理解心智，我認為這不會都是舒服的。我認為不舒服的事實實際上讓我覺得我們正在取得進展，我們正在更好地理解事物。

主持人A: 我們不僅僅是在尋找我們想要相信的真相，而是在尋找真正的真相。

Rich Sutton: 你想想，要創造一個想要做某事的人，比如成為一名研究科學家，是不可能的。進化是如何讓你擁有這個目标的？這是不可想象的，而且行不通。它必須給你一個它可以感知的目标，一個具體的目标

主持人A: 這讓我們回到了心理上的不适。

Rich Sutton: 将會出現其他智能體，我們将理解它們是如何工作的，它們只是試圖讓這個數字更高，這很有趣

主持人B: 所以你說你認為我們會在未來六年内理解這一點？

Rich Sutton: 不，我有一個預測，到2030年有四分之一的可能性我們會理解，這将是模糊的，但基本上我們會理解智能。這并不意味着我們将理解人類的心智，這将需要更長的時間。我們将理解如何通過試錯學習來實現目标，如何建立一個世界模型，使你能夠在多個抽象層次上進行計劃，并且做到這一點沒有重大差距。你知道，它将學習好的表征，學習很好地泛化。它将是一個神經網絡，只是某種不同的算法。

主持人A: 它将有一個獎勵。世界是什麼？

Rich Sutton: 世界是我們與之互動的東西。我們向它發送比特，它向我們的眼睛等發送比特。

主持人A: 但你指的是所有這一切，還是指某個構建的世界？

Rich Sutton: 我認為世界是被構建的，盡管……我們向世界發送比特，它向我們發送比特。我們從這個我們向其發送比特并從中接收比特的東西中理解世界

主持人A: 所以你說的是任何世界？

Rich Sutton: 任何世界，是的。

主持人A: 能夠建立模型，轉移模型，這樣你就能計劃

Rich Sutton: 如果你能計劃，并且你也能通過試錯學習，這就是我認為的心智。

主持人A: 如果你的預測是真的，就像你說的，我認為你說的是到2030年有四分之一的機會。

Rich Sutton: 到2040年有二分之一的機會。

主持人A: 那意味着什麼？這将如何改變現狀？

Rich Sutton: 我們将理解心智是如何工作的。這将幫助我們理解我們自己的心智。人工智能研究人員将在更詳細的層面上理解它，它将逐漸滲透到社會，滲透到世界的意識中。我們會感到不舒服，然後會逐漸适應。這将帶來技術變革，它将改變經濟。我不确定哪一個更重要，社會學上的還是技術上的。無論如何都會有很多技術變革，即使沒有理解心智也是如此。但我認為這将真正改變我們，因為它将……我們将更好地理解我們自己，這也許是重點。所以我認為這将是非常深刻的，完全獨立于它對經濟的影響，它對地緣政治的影響。

主持人A: 你認為如果我們更好地理解它，它會影響我們教學的方式，我們教育人們的方式嗎？

Rich Sutton: 是的，完全會。一個很大的變化将是增強。如果我們理解我們的大腦是如何工作的，那麼我們應該能夠添加比如更好的記憶力。我想被增強，我想更好地思考，我想數字基質相對于生物基質有很多優勢。所以我們可以變得更好，有很多事情因為我們不知道自己是如何工作的而被阻礙了。正如我所說，理解心智與理解人類心智不同，與理解人類大腦不同，那将需要更長的時間。

主持人A: 你是心理學家，你處于神經科學的邊緣，你如何看待像Neuralink這樣的腦機接口？

Rich Sutton:: 我的意思是，我看到了很多它們可以提供幫助的地方。我認為我們離大多數人覺得這是他們想要的東西還很遠。我認為這可能不是2040年的事情。

研究建議

主持人A: 我想這是我們給你的最後一個問題：你對學生或其他嶄露頭角的研究人員有什麼關于研究的建議嗎？如何選擇研究方向，如何取得良好的進展？

Rich Sutton: 是的，我想我有一些。準備一個研究筆記本，每天都寫，寫下你的想法，并思考你的想法，試着挑戰它們，讓它們變得更好。如果你想讓其他人對你所想的感興趣，那麼你應該首先自己關心它，你應該至少關心到把它寫下來，挑戰它，發展它，推進它。這是最重要的。我偶然發現了這個策略，它改變了我的整個軌迹。這真的很難做到，因為它是一張白紙，你知道，你有什麼要說的？也許你對你正在想的事情感到困惑。一個有幫助的想法是，通常情況下，寫下你的想法的價值與它們的模糊和混亂程度成正比。

主持人A: 價值與寫下它們的難度成正比。

Rich Sutton: 如果你說："我甚至不知道如何……我同時在想六件事，我不可能把這些寫下來。" 這就是當你寫下一些東西時，它将超級有價值的時候。

主持人A: 這是你知道你真的想追求一個想法的方式嗎？這是一個标志嗎？

Rich Sutton: 不，這将是可怕的。你正試圖向自己解釋清楚你在想什麼。如果你想不出其他要寫的東西，就寫下"我認為我腦子裡盤旋着的六個有趣的想法是什麼？" 然後把它們寫下來，一到六。然後說："好吧，這就是全部嗎？還有第七個嗎？" "這六個中，有兩個真的是一樣的嗎？" 或者對這六件事中的每一件再寫一段，解釋你是什麼意思，向自己解釋你的想法是什麼。僅僅通過這樣做，你就會說："現在，當我試圖解釋它時，這個想法就消失了。你知道，也許它什麼都不是。" 或者，也許它在你寫下它的時候成長和改變了。所有這些事情都會發生，所以重要的是堅持寫下去。試着每天寫一頁，不要太 stressed，但要定期寫下去。這是我的建議。

第二個建議是，你應該盡量對流行的東西保持中立。你知道，如果它流行或不流行，那不應該影響你，因為如果它流行，那麼研究它會更容易，因為人們會理解它，但它的價值會更低，因為每個人都在做。所以你應該保持中立，選擇你認為重要且可能富有成果的問題。

主持人A: 你有什麼建議來決定我接下來應該做什麼嗎？

Rich Sutton: 是的，所以就像我寫下這六件事，"我認為這六件事很有趣"，然後解釋它們。然後我回過頭來說："好吧，現在讓我們試着說，我現在可以研究哪一件？"

主持人A: 如果有三件呢？

Rich Sutton: 把它們寫下來，繼續下去，直到只剩下一件……

主持人A: 哦，不，不

Rich Sutton: 這是一個好問題。我并不是說你找到一件事就去做，你必須做一些事情，因為這是研究，大多數事情不會馬上成功。

主持人A: 聽起來你可能用過很多筆記本。

Rich Sutton: 我大概有25本，在我停止使用實體筆記本的時候。現在我只是在我的MacBook上寫。

主持人A: 你有沒有回去重溫它們？

Rich Sutton: 不像你想的那麼頻繁。

主持人A: 是的

Rich Sutton: 但你确實會不時地這樣做。現在它都在電腦上，我可以搜索并更容易地找到這些東西

主持人A: 我想我們就到這裡了，除非你還有什麼想談的，而我們沒有談到的。

Rich Sutton: 非常感謝你給我這個機會。我學到了很多，并不都是舒服的，正如我們所指出的，但都很有趣。

主持人A: 非常感謝你，Rich。

Rich Sutton: 謝謝。

喜歡這篇文章

請為我點贊和在看