今天小編分享的科學經驗:圖靈獎頒給強化學習師徒,一個造船改行寫代碼,一個痛批AI投身AGI,歡迎閲讀。
計算機最高獎圖靈獎揭曉!
強化學習先驅 Andrew Barto 與 Richard Sutton 共同獲獎,他們被評價為" 引領基礎 AI 技術開發的研究人員 "。
值得一提的是,兩位是師徒關系,Richard Sutton 是 Andrew Barto 他第一位博士生。
兩人 1998 年合著的《強化學習:導論》,時至今日也是強化學習的标準教材,引用數接近 8 萬,尤其在最近五年也仍在持續攀升。
最近幾年來 AI 的重大進展,從 AlphaGo 到 ChatGPT,都與他們開創的強化學習技術密切相關。
師徒拉開了強化學習大門
先來看 Andrew Barto,是馬薩諸塞大學阿默斯特分校信息與計算機科學系榮譽教授,年紀在 76 歲左右。
他是 IEEE Fellow,曾獲馬薩諸塞大學神經科學終身成就獎、IJCAI 研究卓越獎(Research Excellence Award)和 IEEE 神經網絡學會先驅獎。
Barto 本科畢業于密歇根大學數學專業,此前他主修的是船舶建築與工程專業。在閲讀了邁克爾 · 阿比布、麥卡洛克和皮茨的著作後,他開始對使用計算機和數學來模拟大腦產生了興趣。
五年後,他以一篇關于細胞自動機的論文獲得了計算機的博士學位。
《細胞自動機作為自然系統的模型》
1977 年,他作為博士後研究助理在馬薩諸塞大學阿默斯特分校開始職業生涯,此後擔任過多個職位,包括副教授、教授和系主任。
任職期間,Barto 共同領導了自主學習實驗室(最初為自适應網絡實驗室),該實驗室提出了強化學習的幾個關鍵思想。
直到 Richard Sutton 來到他的實驗室,他們正式拉開了強化學習的大門。
2012 年他官宣退休,再也不再招收學生。
再來看看他的學生 Richard Sutton,時至今日仍然 AGI 探索積極分子。
目前,他是是阿爾伯塔大學計算機科學教授、Keen Technologies(一家總部位于德克薩斯州達拉斯的通用人工智能公司)的研究科學家,以及阿爾伯塔機器智能研究所(Amii)的首席科學顧問。
1978 年,他從斯坦福大學心理學專業畢業,随後在 Andrew Barto 的指導下,先後獲得了碩博學位。
他的博士論文《Temporal Credit Assignment in Reinforcement Learning》(強化學習中的時間學分分配),介紹了行為批判架構和時間學分分配,足足有 210 頁。
而要説興趣轉向強化學習的緣由,他是受到 Harry Klopf 在 20 世紀 70 年代的研究成果的影響,該成果提出監督學習不足以用于人工智能或解釋智能行為,而由" 行為的享樂方面 "驅動的試錯學習才是必要的。
Sutton 從 2017 年到 2023 年是 DeepMind 的傑出研究科學家。在加入阿爾伯塔大學之前,他曾于 1998 年至 2002 年在新澤西州 Florham Park 的 AT&T 香農實驗室人工智能部門擔任首席技術人員。
2019 年,他曾撰文《痛苦的教訓》痛批當前 AI 的發展,表示 " 未能吸取慘痛教訓,即從長遠來看,建立我們的思維方式是行不通的 "。
他認為 "70 年的人工智能研究表明,利用計算的通用方法最終是最有效的,而且領先優勢很大 ",打敗了在計算機視覺、語音識别、國際象棋或圍棋等特定領網域基于人類知識的努力。
2023 年,他官宣與 John Carmack 合作,共同開發 AGI,也就是 Keen Technologies。
圖靈獎官方科普強化學習強化學習的起源
強化學習是怎麼來的?圖靈獎官網在頒獎公告中介紹到:
人工智能(AI)領網域通常涉及構建智能體——即感知和行動的實體。
更強的智能體選擇更好行動方案。因此,人工智能的核心是某些行動方案比其他方案更好的觀念。獎勵——一個從心理學和神經科學借用的術語——表示提供給智能體與其實際行為質量相關的信号。強化學習(RL)是在此信号下學習如何更成功行為的進程。
獎勵學習的理念對動物培訓師來説已經存在了數千年。
後來,艾倫 · 圖靈在 1950 年的論文《Computing Machinery and Intelligence》中提出了 " 機器能思考嗎?" 的問題,并提出了基于獎勵和懲罰的機器學習方法。
雖然圖靈報告稱已經使用這種方法進行了一些初步實驗, 且 Arthur Samuel 在 20 世紀 50 年代末開發了一個通過自我對弈學習的國際象棋程式,但在接下來的幾十年裏,人們在這條道路上進步甚微。
直到 20 世紀 80 年代初,Barto 和他的博士研究生 Sutton 受到心理學觀察的啓發,開始将強化學習構想為一個通用的問題框架。
他們借鑑了馬爾可夫決策過程(MDPs)提供的數學基礎。在馬爾可夫決策過程中,智能體在随機環境中做出決策,每次狀态轉移後都會收到一個獎勵信号,并旨在最大化其長期累積獎勵。标準的馬爾可夫決策過程理論假設智能體知曉關于馬爾可夫決策過程的一切信息,而強化學習框架則允許環境和獎勵未知。強化學習所需的最少信息,再加上馬爾可夫決策過程框架的通用性,使得強化學習算法能夠應用于廣泛的問題,如下文将進一步解釋。
Barto 和 Sutton 共同以及與其他人一起,開發了許多強化學習的基本算法方法。其中包括他們最重要的貢獻——時序差分學習(在解決獎勵預測問題上取得了重大進展),還有策略梯度方法以及将神經網絡用作表示學習函數的工具。
他們還提出了将學習與規劃相結合的智能體設計,展示了獲取環境知識作為規劃基礎的價值。
或許同樣具有影響力的是他們的教科書《Reinforcement Learning: An Introduction》(1998),這本書至今仍是該領網域的标準參考文獻,被引用次數超過 7.5 萬次。它讓數千名研究人員得以理解這一新興領網域并為之做出貢獻,直至今日仍激勵着計算機科學領網域許多重要的研究活動。
深度強化學習的應用
盡管 Barto 和 Sutton 的算法是幾十年前開發的,但強化學習在實際應用中的重大進展卻是在過去十五年中通過将強化學習與深度學習算法(由 2018 年圖靈獎得主 Bengio、Hinton 和 LeCun 創)相結合而實現的,這催生了深度強化學習技術。
強化學習最著名的例子是 AlphaGo 在 2016 年和 2017 年戰勝了最頂尖的人類圍棋選手。近期的另一項重大成就是 ChatGPT。
ChatGPT 是一個分兩個階段訓練的大語言模型,其中第二階段采用了一種名為基于人類反饋的強化學習(RLHF)的技術,以捕捉人類的期望。
強化學習在許多其他領網域也取得了成功。一個備受矚目的研究實例是機器人在手中操作技能學習以及解決實體魔術方塊問題,這表明在模拟環境中進行所有強化學習,最終在差異顯著的現實世界中也能取得成功。
其他領網域包括網絡擁塞控制、芯片設計、互聯網廣告、優化、全球供應鏈優化、提升聊天機器人的行為和推理能力,甚至改進計算機科學中最古老問題之一——矩陣乘法的算法。
最後,一項部分受神經科學啓發的技術也反過來帶來了啓發。近期的研究(包括 Barto 的工作)表明,人工智能領網域的特定強化學習算法能夠很好地解釋關于人類大腦中多巴胺系統的一系列研究發現。
美國計算機協會(ACM)主席 Yannis Ioannidis 稱 "Barto 和 Sutton 的工作展示了運用多學科方法應對我們領網域長期存在的挑戰所藴含的巨大潛力 "。
從認知科學、心理學到神經科學等研究領網域都啓發了強化學習的發展,強化學習為人工智能領網域一些最重要的進展奠定了基礎,也讓我們對大腦的工作方式有了更深入的了解。
Barto 和 Sutton 的工作并非我們可以抛在身後的墊腳石。強化學習仍在不斷發展,為計算機科學和許多其他學科的進一步發展提供了巨大潛力。我們用本領網域最負盛名的獎項來表彰他們是恰如其分的。"
谷歌高級副總裁 Jeff Dean(谷歌為圖靈獎提供資金支持)指出,"Barto 和 Sutton 開創的強化學習直接回應了圖靈的挑戰 "。
在過去幾十年裏,他們的工作一直是人工智能發展的關鍵。他們開發的工具仍然是人工智能熱潮的核心支柱,帶來了重大進展,吸引了大批年輕研究人員,并推動了數十億美元的投資。強化學習的影響在未來仍将持續。"
參考鏈接:
[ 1 ] https://amturing.acm.org