今天小編分享的科技經驗:圖靈獎的獲獎者們,擔心成為 AI 界的「奧本海默」,歡迎閱讀。
1947 年,艾倫 · 圖靈在一次演講中提到「我們想要的是一台能夠從經驗中學習的機器」。
78 年後,以圖靈命名,有着「計算機界諾貝爾獎」之名的圖靈獎,頒給了兩位畢生致力于解決圖靈這一問題的科學家。
安德魯 · 巴托(Andrew Barto)與理查德 · 薩頓(Richard Sutton)共獲 2024 年度圖靈獎,二人是相差九歲的師徒,是 AlphaGo 和 ChatGPT 技術上的奠基人,亦是機器學習領網域的技術先驅。
圖靈獎獲獎者安德魯 · 巴托(Andrew Barto)與理查德 · 薩頓(Richard Sutton)|圖片來源:圖靈獎官網
谷歌首席科學家 Jeff Dean 在頒獎詞裡寫道「由巴托和薩頓開創的強化學習技術,直接回答了圖靈的問題。他們的工作是過去幾十年 AI 進步的關鍵。他們開發的工具仍是 AI 繁榮的核心支柱……谷歌很榮幸贊助 ACM A.M. 圖靈獎。」
圖靈獎 100 萬美元獎金的唯一贊助方即是谷歌。
而在獲獎後,站在聚光燈下的兩位科學家卻劍指 AI 大公司,他們對媒體發出「獲獎感言」:現在的 AI 公司在「受到商業激勵」而非專注于技術研究,在社會上「架起一座未經測試的橋梁,讓人們過橋來測試。」
無獨有偶,圖靈獎上一次頒發給人工智能領網域的科學家,是在 2018 屆,約書亞 · 本希奧、傑弗裡 · 辛頓、楊立昆三位因在深度學習領網域的貢獻而獲獎。
2018 年圖靈獎得主們|圖片來源:eurekalert
其中,約書亞 · 本希奧和傑弗裡 · 辛頓(亦是 2024 年諾貝爾物理學獎獲獎者)兩位「人工智能教父」在最近兩年的 AI 浪潮裡,也頻繁呼籲全球社會和科學界警惕大公司對人工智能的濫用。
傑弗裡 · 辛頓更是直接從谷歌辭了職,以便「暢所欲言」,這次獲獎的桑頓,在 2017 - 2023 年也曾任 DeepMind 的研究科學家。
當計算機界的最高榮譽一次次被授予給 AI 核心技術的奠基者們時,一個耐人尋味的現象逐漸浮現:
為何這些站上巅峰的科學家,總會在聚光燈下轉身敲響 AI 的警鍾?
人工智能的「造橋者」
如果說艾倫 · 圖靈是人工智能的引路人,那安德魯 · 巴托和理查德 · 薩頓就是這條道路上的「造橋者」。
在人工智能飛馳之時,在被授予禮贊之後,他們在重新審視自己搭建的橋梁,能否承載人類安全通行?
或許答案正藏在他們跨越半個世紀的學術生涯中——唯有回溯他們如何構建了「機器的學習」,才能理解他們為何警惕「技術的失控」。
圖片來源:卡耐基梅隆大學
1950 年,艾倫 · 圖靈在其著名論文《計算機器與智能》中,開篇就提出一個哲學和技術問題:
「機器能思考嗎?」
由此,圖靈設計出了「模仿遊戲」即後世廣為人知的「圖靈測試」。
同時圖靈提出,機器智能可以通過學習獲得,而不是僅依賴事先編程。他設想了「兒童機器(Child Machine)」的概念,即通過訓練和經驗,讓機器像孩子一樣逐步學習。
人工智能的核心目标是構建出能感知、并采取更好行動的智能體,而衡量智能的标準,即智能體有判斷「某些行動比其他行動更好」的能力。
機器學習的目的就在于此,給予機器行動後相應的反饋,并且能讓機器自主地在反饋經驗中學習。換言之,圖靈構思出基于獎勵和懲罰的機器學習方法與巴普洛夫訓狗無異。
我在遊戲裡越玩越敗越強,也是一種「強化學習」|圖片來源:zequance.ai
由圖靈引出的機器學習之路,在三十年後,才由一對師徒建出了橋——強化學習(Reinforcement Learning,RL)。
1977 年,安德魯 · 巴托受到心理學和神經科學的啟發,開始探索一種人類智能的新理論:神經元就像「享樂主義者」,人類大腦内數十億個神經元細胞,每個都試圖最大化快樂(獎勵)并最小化痛苦(懲罰)。而且神經元并不是機械地接收信号和傳遞信号,如果某個神經元的活動模式導致了正反饋,它就會傾向于重復這個模式,由此共同驅動了人類的學習過程。
到了 1980 年代,巴托帶上了他的博士生理查德 · 薩頓,想把這套「不斷嘗試、根據反饋調整連接,找到最優的行為模式」的神經元理論應用在人工智能上,強化學習就此誕生。
《強化學習:導論》成為經典教材,已被引用近 80000 次|圖片來源:IEEE
師徒二人利用馬爾可夫決策過程的數學基礎,開發并編寫出了許多強化學習的核心算法,系統地構建出了強化學習的理論框架,還編寫了《強化學習:導論》教科書,讓數萬名研究人員得以進入強化學習領網域,二者堪稱強化學習之父。
而他們研究強化學習的目的,是為了探尋出高效準确、回報最大化、行動最佳的機器學習方法。
強化學習的「神之一手」
如果說機器學習是「填鴨式」學習,那強化學習就是「放養式」學習。
傳統的機器學習,就是給模型被喂大量标注好的數據,建立輸入和輸出之間固定的映射關系。最經典的場景就是給電腦看一堆貓和狗的照片,告訴它哪張是貓、哪張是狗,只要投喂足夠多的圖,電腦就會辨認出貓狗。
而強化學習,是在沒有明确指導的情況下,機器通過不斷試錯和獎懲機制,逐漸調整行為來優化結果。就像一個機器人學走路,不需要人類一直告訴它「這步對,那步錯」,它只要嘗試、摔倒、調整,最終自己就會走路了,甚至走出自己獨特的步态。
顯而易見,強化學習的原理更接近人類的智能,就像每個幼童在跌倒裡學會走路,在摸索中學會抓取,在咿呀裡捕捉音節,學會語言。
爆火的「回旋踢機器人」背後也是強化學習的訓練|圖片來源:宇樹科技
強化學習的「高光時刻」,正是 2016 年 AlphaGo 的「神之一手」。當時 AlphaGo 在與李世石的比賽中,第 37 手落下了一步令所有人類驚訝的白棋,一步棋逆轉敗勢,一舉赢下李世石。
圍棋界的頂級高手和解說員們,都沒有預料到 AlphaGo 會在該位落子,因為在人類棋手的經驗裡,這步棋下的「莫名其妙」,賽後李世石也承認,自己完全沒有考慮過這個走法。
AlphaGo 不是靠背棋譜背出來的「神之一手」,而是在無數次自我對弈中,試錯、長遠規劃、優化策略後自主探索出來,這既是強化學習的本質。
被 AlphaGo「神之一手」打亂節奏的李世石|圖片來源:AP
強化學習甚至反客為主影響人類智能,就像 AlphaGo 露出「神之一手」後,棋手開始學習和研究 AI 下圍棋的走法。科學家們也在利用強化學習的算法和原理,試圖理解人類大腦的學習機制,巴托和桑托的研究成果之一,即建立了一種計算模型,來解釋多巴胺在人類決策和學習中的作用。
而且強化學習特别擅長處理規則復雜、狀态多變的環境,并在其中找到最優解,比如圍棋、自動駕駛、機器人控制、與語焉不詳的人類談笑風生。
這些正是當下最前沿,最熱門的 AI 應用領網域,尤其是在大語言模型上,幾乎所有領先的大語言模型都使用了 RLHF(從人類反饋中強化學習)的訓練方法,即讓人類對模型的回答進行評分,模型根據反饋改進。
但這正是巴托的擔憂所在:大公司建好橋後,用讓人們在橋上來回走的方法,來測試橋的安全性。
「在沒有任何保障措施的情況下,把軟體直接推給數百萬用戶,并不是負責任的做法,」巴托在獲獎後的采訪裡說道。
「技術的發展本該伴随着對潛在負面影響的控制和規避,但我并沒有看到這些 AI 公司真正做到這一點。」他補充道。
AI 頂流到底在擔心什麼?
AI 威脅論沒完沒了,因為科學家最害怕親手締造的未來失控。
巴托和桑頓的「獲獎感言」裡,并無對當前 AI 技術的苛責,而是充斥着對 AI 公司的不滿。
他們在采訪裡都警告表示,目前人工智能的發展,是靠大公司争相推出功能強大但容易犯錯的模型,他們借此籌集了大量資金,再繼續投入數十億美元,展開芯片和數據的軍備競賽。
各大投行都在重新估值 AI 行業|圖片來源:高盛
的确如此,根據德意志銀行的研究,當前科技巨頭在 AI 領網域的總投資約為 3400 億美元,這一規模已經超過希臘的年度 GDP。行業領頭羊 OpenAI,公司估值達到 2600 億美元,正準備展開新一輪 400 億美元的新融資。
實際上,許多 AI 專家都和巴托和桑頓的觀點不謀而合。
此前,微軟前高管史蒂芬 · 辛諾夫斯基就曾表示,AI 行業陷入了規模化的困境,靠燒錢換技術進步,這不符合技術發展史中,成本會逐漸下降而不是上升的趨勢。
就在 3 月 7 日,前谷歌 CEO 埃裡克 · 施密特、Scale AI 創始人 Alex Wang、AI 安全中心主任丹 · 亨德裡克斯三人聯名發表了一篇警示性論文。
三位科技圈頂流認為,如今人工智能前沿領網域的發展形勢,與催生曼哈頓計劃的核武器競賽相似,AI 公司都在悄悄進行自己的「曼哈頓計劃」,過去近十年裡,他們對 AI 的投資每年都在翻倍,如不再介入監管,AI 可能成為自核彈以來最不穩定的技術。
《超級智能戰略》及合著者|圖片來源:nationalsecurity.ai
因深度學習在 2019 年獲得圖靈獎的約書亞 · 本希奧,也在博客中發長文警告,如今 AI 產業有數萬億美元的價值供資本追逐和搶奪,還有着足以嚴重破壞當前世界秩序的影響力。
諸多技術出身的科技人士,認為如今的 AI 行業,已經偏離了對技術的鑽研,對智能的審視,對科技濫用的警惕,而走向了一種砸錢堆芯片的大資本逐利模式。
「建起龐大的數據中心,收用戶的錢還讓他們用不一定安全的軟體,這不是我認同的動機。」巴托在獲獎後的采訪裡說道。
而由 30 個國家,75 位 AI 專家共撰的第一版《先進人工智能安全國際科學報告》中寫道「管理通用人工智能風險的方法往往基于這樣一種假設:人工智能開發者和政策制定者,可以正确評估 AGI 模型和系統的能力和潛在影響。但是,對 AGI 的内部運作、能力和社會影響,科學理解其實非常有限。」
約書亞 · 本希奧的警示長文|圖片來源:Yoshua Bengio
不難看出,如今的「AI 威脅論」,已經把矛頭從技術轉向了大公司。
專家們在警告大公司:你們燒錢,堆料,卷參數,但你們真正了解你們開發的產品嗎?這亦是巴托和桑頓借用「造橋」比喻的由來,因為科技屬于全人類,但資本只屬于大公司。
何況巴托和桑頓一直以來的研究領網域:強化學習。它的原理更貼合人類智能,且具有「黑箱」特色,尤其是在深度強化學習中,AI 行為模式會變得復雜且難以解釋。
這也是人類科學家的擔憂所在:助力和見證了人工智能的成長,卻難以解讀它的意圖。
而開創了深度學習和強化學習技術的圖靈獎獲獎者們,也并不是在擔心 AGI(通用人工智能)的發展,而是擔心大公司之間的軍備競賽,在 AGI 領網域造成了「智能爆炸」,一不小心制造出了 ASI(超級人工智能),兩者的分野不僅是技術問題,更關乎人類文明的未來命運。
超越人類智能的 ASI,掌握的信息量、決策速度、自我進化的水平,将遠超人類的理解範圍,如果不對 ASI 進行極為謹慎的設計和治理,它可能成為人類歷史上最後一個,也是最無法抗衡的技術奇點。
在 AI 狂熱的當下,這些科學家或許是最有資格「潑冷水」的人。畢竟五十年前,在電腦還是個龐然大物時,他們就已經開啟了人工智能領網域的研究,他們從過去塑造了當下,也有立場去懷疑未來。
AI 領導者會迎來奧本海默式的結局嗎?|圖片來源:經濟學人
在 2 月《經濟學人》的采訪裡,DeepMind 和 Anthropic 的 CEO 表示:
會因擔心自己成為下一個奧本海默,而徹夜難眠。