大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

圖靈獎頒給強化學習師徒,一個造船改行寫代碼,一個痛批AI投身AGI

2025-03-06 简体 HK SG TW

今天小編分享的科學經驗:圖靈獎頒給強化學習師徒,一個造船改行寫代碼,一個痛批AI投身AGI,歡迎閱讀。

計算機最高獎圖靈獎揭曉!

強化學習先驅 Andrew Barto 與 Richard Sutton 共同獲獎,他們被評價為" 引領基礎 AI 技術開發的研究人員 "。

值得一提的是,兩位是師徒關系,Richard Sutton 是 Andrew Barto 他第一位博士生。

兩人 1998 年合著的《強化學習:導論》,時至今日也是強化學習的标準教材,引用數接近 8 萬,尤其在最近五年也仍在持續攀升。

最近幾年來 AI 的重大進展,從 AlphaGo 到 ChatGPT,都與他們開創的強化學習技術密切相關。

師徒拉開了強化學習大門

先來看 Andrew Barto,是馬薩諸塞大學阿默斯特分校信息與計算機科學系榮譽教授,年紀在 76 歲左右。

他是 IEEE Fellow,曾獲馬薩諸塞大學神經科學終身成就獎、IJCAI 研究卓越獎(Research Excellence Award)和 IEEE 神經網絡學會先驅獎。

Barto 本科畢業于密歇根大學數學專業,此前他主修的是船舶建築與工程專業。在閱讀了邁克爾 · 阿比布、麥卡洛克和皮茨的著作後,他開始對使用計算機和數學來模拟大腦產生了興趣。

五年後,他以一篇關于細胞自動機的論文獲得了計算機的博士學位。

《細胞自動機作為自然系統的模型》

1977 年,他作為博士後研究助理在馬薩諸塞大學阿默斯特分校開始職業生涯,此後擔任過多個職位,包括副教授、教授和系主任。

任職期間,Barto 共同領導了自主學習實驗室(最初為自适應網絡實驗室),該實驗室提出了強化學習的幾個關鍵思想。

直到 Richard Sutton 來到他的實驗室,他們正式拉開了強化學習的大門。

2012 年他官宣退休,再也不再招收學生。

再來看看他的學生 Richard Sutton,時至今日仍然 AGI 探索積極分子。

目前,他是是阿爾伯塔大學計算機科學教授、Keen Technologies(一家總部位于德克薩斯州達拉斯的通用人工智能公司)的研究科學家,以及阿爾伯塔機器智能研究所(Amii)的首席科學顧問。

1978 年,他從斯坦福大學心理學專業畢業,随後在 Andrew Barto 的指導下,先後獲得了碩博學位。

他的博士論文《Temporal Credit Assignment in Reinforcement Learning》(強化學習中的時間學分分配),介紹了行為批判架構和時間學分分配,足足有 210 頁。

而要說興趣轉向強化學習的緣由,他是受到 Harry Klopf 在 20 世紀 70 年代的研究成果的影響,該成果提出監督學習不足以用于人工智能或解釋智能行為,而由" 行為的享樂方面 "驅動的試錯學習才是必要的。

Sutton 從 2017 年到 2023 年是 DeepMind 的傑出研究科學家。在加入阿爾伯塔大學之前,他曾于 1998 年至 2002 年在新澤西州 Florham Park 的 AT&T 香農實驗室人工智能部門擔任首席技術人員。

2019 年,他曾撰文《痛苦的教訓》痛批當前 AI 的發展,表示 " 未能吸取慘痛教訓,即從長遠來看,建立我們的思維方式是行不通的 "。

他認為 "70 年的人工智能研究表明,利用計算的通用方法最終是最有效的,而且領先優勢很大 ",打敗了在計算機視覺、語音識别、國際象棋或圍棋等特定領網域基于人類知識的努力。

2023 年,他官宣與 John Carmack 合作,共同開發 AGI,也就是 Keen Technologies。

圖靈獎官方科普強化學習強化學習的起源

強化學習是怎麼來的?圖靈獎官網在頒獎公告中介紹到:

人工智能(AI)領網域通常涉及構建智能體——即感知和行動的實體。

更強的智能體選擇更好行動方案。因此,人工智能的核心是某些行動方案比其他方案更好的觀念。獎勵——一個從心理學和神經科學借用的術語——表示提供給智能體與其實際行為質量相關的信号。強化學習(RL)是在此信号下學習如何更成功行為的進程。

獎勵學習的理念對動物培訓師來說已經存在了數千年。

後來,艾倫 · 圖靈在 1950 年的論文《Computing Machinery and Intelligence》中提出了 " 機器能思考嗎?" 的問題,并提出了基于獎勵和懲罰的機器學習方法。

雖然圖靈報告稱已經使用這種方法進行了一些初步實驗, 且 Arthur Samuel 在 20 世紀 50 年代末開發了一個通過自我對弈學習的國際象棋程式,但在接下來的幾十年裡,人們在這條道路上進步甚微。

直到 20 世紀 80 年代初,Barto 和他的博士研究生 Sutton 受到心理學觀察的啟發,開始将強化學習構想為一個通用的問題框架。

他們借鑑了馬爾可夫決策過程(MDPs)提供的數學基礎。在馬爾可夫決策過程中,智能體在随機環境中做出決策,每次狀态轉移後都會收到一個獎勵信号,并旨在最大化其長期累積獎勵。标準的馬爾可夫決策過程理論假設智能體知曉關于馬爾可夫決策過程的一切信息,而強化學習框架則允許環境和獎勵未知。強化學習所需的最少信息,再加上馬爾可夫決策過程框架的通用性,使得強化學習算法能夠應用于廣泛的問題,如下文将進一步解釋。

Barto 和 Sutton 共同以及與其他人一起,開發了許多強化學習的基本算法方法。其中包括他們最重要的貢獻——時序差分學習(在解決獎勵預測問題上取得了重大進展),還有策略梯度方法以及将神經網絡用作表示學習函數的工具。

他們還提出了将學習與規劃相結合的智能體設計,展示了獲取環境知識作為規劃基礎的價值。

或許同樣具有影響力的是他們的教科書《Reinforcement Learning: An Introduction》(1998),這本書至今仍是該領網域的标準參考文獻,被引用次數超過 7.5 萬次。它讓數千名研究人員得以理解這一新興領網域并為之做出貢獻,直至今日仍激勵着計算機科學領網域許多重要的研究活動。

深度強化學習的應用

盡管 Barto 和 Sutton 的算法是幾十年前開發的,但強化學習在實際應用中的重大進展卻是在過去十五年中通過将強化學習與深度學習算法(由 2018 年圖靈獎得主 Bengio、Hinton 和 LeCun 創)相結合而實現的,這催生了深度強化學習技術。

強化學習最著名的例子是 AlphaGo 在 2016 年和 2017 年戰勝了最頂尖的人類圍棋選手。近期的另一項重大成就是 ChatGPT。

ChatGPT 是一個分兩個階段訓練的大語言模型,其中第二階段采用了一種名為基于人類反饋的強化學習(RLHF)的技術,以捕捉人類的期望。

強化學習在許多其他領網域也取得了成功。一個備受矚目的研究實例是機器人在手中操作技能學習以及解決實體魔術方塊問題,這表明在模拟環境中進行所有強化學習,最終在差異顯著的現實世界中也能取得成功。

其他領網域包括網絡擁塞控制、芯片設計、互聯網廣告、優化、全球供應鏈優化、提升聊天機器人的行為和推理能力,甚至改進計算機科學中最古老問題之一——矩陣乘法的算法。

最後,一項部分受神經科學啟發的技術也反過來帶來了啟發。近期的研究(包括 Barto 的工作)表明,人工智能領網域的特定強化學習算法能夠很好地解釋關于人類大腦中多巴胺系統的一系列研究發現。

美國計算機協會(ACM)主席 Yannis Ioannidis 稱 "Barto 和 Sutton 的工作展示了運用多學科方法應對我們領網域長期存在的挑戰所蘊含的巨大潛力 "。

從認知科學、心理學到神經科學等研究領網域都啟發了強化學習的發展,強化學習為人工智能領網域一些最重要的進展奠定了基礎,也讓我們對大腦的工作方式有了更深入的了解。

Barto 和 Sutton 的工作并非我們可以抛在身後的墊腳石。強化學習仍在不斷發展,為計算機科學和許多其他學科的進一步發展提供了巨大潛力。我們用本領網域最負盛名的獎項來表彰他們是恰如其分的。"

谷歌高級副總裁 Jeff Dean(谷歌為圖靈獎提供資金支持)指出,"Barto 和 Sutton 開創的強化學習直接回應了圖靈的挑戰 "。

在過去幾十年裡,他們的工作一直是人工智能發展的關鍵。他們開發的工具仍然是人工智能熱潮的核心支柱,帶來了重大進展,吸引了大批年輕研究人員,并推動了數十億美元的投資。強化學習的影響在未來仍将持續。"

參考鏈接:

[ 1 ] https://amturing.acm.org

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們