專訪ChatGPT背後的科學家：OpenAI的300人工作方法論 - 大酷樂

今天小編分享的教育經驗：專訪ChatGPT背後的科學家：OpenAI的300人工作方法論，歡迎閲讀。

以下文章來源于商隐社，作者商隐社

責編 | 金木研

第 7584 篇深度好文：5484 字 | 12 分鍾閲讀

商業思維

筆記君説：

ChatGPT 掀起了一股全球範圍内的 AI 浪潮，OpenAI 也随之成為最炙手可熱的明星公司。

我們不禁好奇，為什麼是 OpenAI 這樣名不見經傳的小公司，而不是谷歌這種大公司創造了 ChatGPT？OpenAI 有何獨特的工作方法論？

目前國内大模型創業如火如荼，但不得不承認，各家產品與 ChatGPT-4 相比還有很大差距，為什麼在技術創新方面我們總是慢人一步？

我們來看看（此前在 OpenAI 領導過一個開放式研究小組）肯尼斯 · 斯坦利（Kenneth Stanley）是怎麼思考的。

一、放棄對目标的神話

或許你該升個職、跳個槽、減減肥、找個對象、賺個幾百萬、買個房子。

上述社會追求的背後，存在這樣一個設想：任何值得追求的社會成就，最好先将其設定為目标，再堅定不移地朝着這個目标努力。

這不禁讓人發問：這世界上是否存在不需要設定目标就能完成的事情？

縱觀大部分行業，答案似乎是 " 沒有 "。

我們已經太習慣于通過 " 目标 " 來界定所有的努力，甚至忘了我們可以去質疑目标的價值。

目标提供了一種安全感，當我們感到迷惘時，機械地逐步推進目标，起碼可以讓我們擁有一種固定且可靠的生活。

因為 " 設定目标 " 這一行為本身，暗含着一種可能性假設：只要你用心去做，便有可能事成。只要目标明确，努力和付出必有回報。

某些時候，目标确實能為我們提供生活的意義或方向。但它同樣限制了我們的自由，成為禁锢我們探索欲望的牢籠。

我們常常因過分執迷于目标而錯失良多。目标論導致我們只關注終點的收獲，而忽視了每一條探索道路本身的特殊性和獨特性價值。

我們的世界充斥着為了獲得成功而設定的各種目标，這使我們的生活變得機械化，壓抑了我們的生活熱情。

但事實上，若想實現更多所謂的豐功偉業，目标往往會成為絆腳石，比如與探索發現、創造力、發明或創新，或者找到真正的幸福。

這是因為，如果将我們所做的每件事，看作實現一個或另一個目标的踏腳石，那麼探索任何復雜問題的過程都将是充斥無數欺騙性的踏腳石。

欺騙性往往是目标不能帶來偉大成就的關鍵原因。如果目标具有欺騙性，那麼設定目标，并以此為努力方向的做法對實現目标沒有什麼幫助。

因此，實現遠大目标的最佳方式就是放棄對目标的神話，進而忽略目标。

聽起來不可思議，但 OpenAI 确實如此。這家公司成立的前 15 個月，都沒有一個明确的研究目标。

2016 年 5 月，時任谷歌首席 AI 研究員參觀 OpenAI，對其工作方式相當困惑。他詢問 OpenAI 的目标是什麼，沒想到難倒了 OpenAI：" 我們現在的目标，就是 .... 做點好事。"

然而數月之後，這位研究員卻毅然辭職加入了 OpenAI，他想一起做點好事。

二、尋找一塊可能成功的踏腳石

放棄目标的困難之處在于，意味着放棄 " 存在正确道路 " 的想法。但如果目的地本就不存在，那麼所謂的正确道路也不應該存在。

其實，改變世界的神奇公式并不存在。偉大的成就并沒有所謂的成功腳本，它們往往沒有經過周密的計劃便誕生。

通往成功的踏腳石，往往是未知的。因此，當進入一個充滿不确定性的世界時，對未知的機會秉持開放和靈活的态度，有時候比明确地知道自己要做什麼更重要。

所有人都應該開始尋找可能通往成功的踏腳石，且無需事先設定任何特定的終點。

你必須先找到一塊正确的踏腳石來站穩腳跟，再加上足夠的運氣和頭腦，才有可能發現通向目标的道路。

在 AI 研究的眾多方向中，AGI（通用人工智能），便是 OpenAI 找到的一塊踏腳石。

所謂 AGI，即 " 超級智能 "，接近科幻電影中萬能的人工智能。與之形成對比的是人臉識别、翻譯、下圍棋等只能完成單一任務的人工智能。

但以那時候的科研基礎而言，談論 AGI，就像談論如何長生不老一樣荒謬。

科學家 all in AGI，賭赢，可以在教科書裏比肩牛頓；賭輸，則成為美版知乎 Quaro 的民科代表。

但企業 all in AGI，大概率會成為先烈。龐大的資本支出，讓無論是相信 " 專家算法 " 的 IBM，還是 " 深度學習 " 的谷歌、百度，巨頭們的一切 AI 研究，都為產業化服務。

願意成為這個冤大頭的，只有 OpenAI 一家。

很多時候，盲目地堅持最初的目标并不會帶來偉大的成就。恰恰因為帶來最偉大成果的踏腳石是未知的，所以不試圖尋找特定的東西，往往會帶來最令人興奮的發現。

踏腳石不一定意味着通往最終的目的地，它自身也無關對錯，只涉及探索的過程和無限的可能性。

我們需要接受的現實是：很多事情，是無法單純地通過努力實現的。

只有在明确的目标被忽視、探索的缰繩被徹底松開時，我們才有可能征服最遙遠的未知邊界。

三、順着有趣和新奇的方向前進

事實上，與其追求某個最終目标，不如轉而尋求新奇的事物。因為後者的回報，将是一連串的、無窮無盡的踏腳石，即一項新奇事物的產生，将帶來更多的新奇事物。

這樣一來，未來就不再是某個特定的終點，而是一條沒有盡頭、未被定義、潛力無限的道路。

新奇事物的重要性在于，它們往往可以成為踏腳石探測器，因為任何新奇的東西，都是催生更新奇事物的潛在踏腳石。

換句話説，新奇性是識别趣味性的一條 " 簡單粗暴 " 的捷徑，而有趣的想法往往能夠開辟全新的可能性。

新奇有趣的想法不僅遠非微不足道，而且往往還會帶來新的思維方式，進而觸發更偉大的創新和發現。

更重要的一點是，通過不斷地使新事物成為可能，新奇性以及趣味性能随着時間的推移產生聚合效應。

但追逐新奇性往往意味着一種漫無目的的不确定性，我們又該怎麼知道要去哪裏？

這其實就是關鍵所在。最偉大的創新過程之所以會成功，正是因為它們并不試圖去往任何特定的地方。

按照這個邏輯，我們需要放棄目标帶來的虛假安全感，轉而去擁抱未知的、瘋狂的可能性。

當然，我們仍然有理由擔心，這種對新奇性的探索令人不踏實，甚至可能有點聽天由命。

但事實并非如此。新奇性的概念不要求我們依賴一個具有欺騙性的指南針，只要求我們将當前的位置與過去進行比較。

與其擔心我們不知道要去什麼地方，不如将我們現在所處的位置，與我們曾經到過的位置進行比較。

與未來不同的是，過去不存在模糊性或欺騙性。這種比較不會讓我們判斷自己朝向目标的進展如何，但可以讓我們判斷在多大程度上擺脱了過去事物的束縛。

這種比較将問題從 " 我們正在接近什麼 "，變成 " 我們正在逃離什麼 "。

而逃離過去的有趣之處在于，它能夠開啓全新的可能性。

雖然人類的直覺和預感往往促使我們朝着沒有任何目标的方向前行，但我們最終依然能發現一些與眾不同或有趣的東西。

因此，在讨論新奇性時，趣味性的概念會自然而然地出現，這并不是巧合。當一個想法真正讓人感到新奇時，它就足以讓我們產生好奇心。

如果我們選擇了一條有趣的道路，它可能會通往重要的目的地，盡管我們可能并不知道這個目的地确切在哪裏。

鮮有人知的是，在 OpenAI 不斷迭代更新的過程中，電子遊戲也曾發揮過舉足輕重的作用。

早期的 OpenAI 曾在 2019 年打造出名為 OpenAI Five 的遊戲 AI，并成功擊敗了兩屆 DOTA2 國際邀請賽的世界冠軍 OG 戰隊。

這并非不務正業。

盡管當時的人工智能已經在 " 聽、説、看 " 等方面取得了一定突破，而且基于強化學習的 Alpha Go 也剛剛擊敗了人類圍棋世界冠軍。

但在 OpenAI 團隊看來，這些突破依舊沒有跳出 " 弱人工智能 " 的範疇，并不具備理解問題的和解決問題的能力。

OpenAI 團隊認為，要想讓人工智能具備這種能力，就必須将其置于更為廣泛和復雜的環境中進行訓練，這樣才能讓人工智能發展出可以有效遷移復用的知識和解決問題的策略，而電子遊戲就是這個 " 訓練環境 " 的絕佳選擇。

而以規則復雜、要素眾多、環境多變，同時也是全球擁有超高人氣的電子遊戲 DOTA 2，順理成章地成為了 OpenAI 的首選。

正如 OpenAI 團隊所言：" 相比标準的開發環境，DOTA 2 顯得更加有趣，也更加困難。但是，如果一個 AI 能在像 DOTA 這樣復雜的遊戲裏超越人類，那這個 AI 本身就是一個裏程碑。"

相較于 AI 之前在國際象棋和圍棋裏取得的成就，像 DOTA 2 這類復雜的遊戲能更好地捕捉現實世界中的混亂和連續性，使其訓練出的 AI 能夠擁有更好的通用性，從而更有可能應用于遊戲之外的人類社會。

最終，OpenAI 在 DOTA 2 上的嘗試，為 AI 強化學習效率提升提供了方向，這些都成為了 ChatGPT 的養分。

可以説，正是 OpenAI 團隊順着有趣的方向探索，才獲得了 ChatGPT 這樣創新的產品。

許多參與 ChatGPT 創立的人并沒有想到它會成為一個世界性的產品，引起如此大規模的反應。相反，他們只是覺得聊天很有趣，因為聊天是一種很自然的與智能進行互動的方式。所以這不是計劃好的，純粹是一個意外。

但這并不等于説 " 偉大的發現都來自偶然 "。這種説法的謬誤之處在于将偶然性看成一種意外。

如果偶然性發現純屬意外事件，那就意味着沒有任何特殊的教育背景或智力水平的人，也能夠得出同樣的發現。

我們或許會假設，凌亂無序或瘋狂甚至是開啓偉大發現之旅的最佳方式。但在現實世界中，情況似乎并非如此。

大多數重大的偶然性發現，都不是外行人的瘋狂想法推動的。事實上，這些偉大的發現，大多數都出自智力超群、受過良好教育，且在各自行業内頗有建樹的人之手。

在任何偶然性發現的背後，幾乎總有一位心态開放的思想家，他們對怎樣會產生最有趣的結果往往有着強烈的直覺。

歸根結底，我們必須獲得某種知識，才能繼續創造新奇事物，這就意味着新奇性探索是一種信息收集器，用于不斷積累關于世界的知識。

探索的時間越長，最終積累的信息越多，就越容易創新。

四、成為一個尋寶者

創新并非少數人的專利。對許多人來説，創新是可能的，因為我們都有不同領網域的經驗，在任何你有經驗的領網域，你都可以創新。例如，你會找到一種創新的方式來裝飾你的家。

然而，不是每個人都需要或者應該創新。人們應該做他們想做的事情。如果你喜歡安全的适度的目标，過着沒有風險的生活，那也可以是一種美好的生活。

如果你更喜歡探險冒險和不确定的目标，那也是一條合理的道路，只要你接受它可能走不通的風險。簡而言之，就個人而言，每個人應該有選擇自己喜歡的道路的自由。

對于後者而言，我們需要從目标的 " 一招鮮，吃遍天 " 的虛妄幻想中解放出來，繼而擁抱現實，讓自己成為一名擁有 " 即便沒有目标，也能發現意外之喜 " 這種強大能力的 " 尋寶者 "。

在漫無目标的新奇性探索中，你不一定能找到心中想要的寶藏，反而可能發現許多意料之外的寶藏，這将使整個過程充滿驚喜。

本質上，尋寶者又可以説是秉持機會主義的探險家，他們致力于尋找任何有價值的東西，而不在乎這些東西具體是什麼。

要想成為一名合格的尋寶者，我們就必須盡可能多地積累踏腳石，因為我們永遠不知道哪塊踏腳石可能通往有價值的地方。

也就是説，我們需要保持多樣化的思維。因為一心一意地追求某個特定目标太有欺騙性，所以我們應該盡可能保留不同選擇的可能性，以防一開始看起來最靠譜的路徑，到後來反而行不通。

這種看法聽起來或許很悲哀，因為人類沒有關于未來的确切指南針。我們為創造确定性和有目标的努力所做的一切，都可能是徒勞無功的。

但我們完全不必失望，也許探索和發現本身就不應該專注于具體的目标，而是應着眼于一些更偉大的東西。

很反常識的一點是，達成共識并不是尋寶者的工作方式。有時候通往創造性想法的最佳路徑，就是遵循個人喜好，而無需任何共識和目标。

事實上，沒人能對 2022 年 ChatGPT 的爆發胸有成竹。過去 5 年，30 多名中高層離開 OpenAI，各自開辟 AI 創業項目。

他們的創業項目清單裏，囊括了語言理解、計算機視覺、視覺搜索引擎、計算機任務自動化、太空技術、人工智能安全等 AI 各個領網域，既包括 AI 大模型的底層技術，也有中間層和具體的應用層。

這無疑都是推動 AI 發展的有益探索。

OpenAI 創始人薩姆 · 阿爾特曼曾笃定地表示，在公司内部，即使是管理層，也不一定有工程師了解這個 300 多人的團隊。

OpenAI 作為平台給這些工程師提供充分的自由和自信，包括他們在離開公司後獨立創業，也得益于 OpenAI 長期形成的公司文化。

OpenAI 内部研究小組之間的 " 不團結 "，有時候反而可以推動進步。這樣一來，" 不團結 " 的力量，可以幫助更好地組織科學探索和其他創造性的工作。

五、總結

當探索的目的地變得未知，我們必須放下對最終目的地的執念。

這就是 " 踏腳石原則 "，即一個好的想法會帶來另一個好的想法；一處寶藏會指向更多的寶藏，在可能發現的無限的踏腳石上，形成源源不斷的連鎖和分支。因此，你需要做的，就是成為一個熟練的尋寶者。

如果你想成為一名行事無須設定特定目标的尋寶者，那麼就要遵循一種特殊的線索，即當某些東西讓你感覺有趣時，尋寶的旅程就可以開啓。

" 踏腳石原則 " 反映在工作中，就是讓我們更有信心跟随自己的直覺，僅僅是因為它們看起來很有趣，即使不确定回報會是什麼。

實際上，目标驅動的公司往往因為在幾年内沒有推出創新的產品而萎靡不振。在人工智能的商業化領網域，充斥着不少雄心勃勃的公司，它們最後不得不降低自己的期望值。還有很多公司陷入到了争分奪秒的軍備競賽中，數據積累和技術耐心成為難以避免的犧牲品。

成功的人往往會問的是，我們能夠從這裏走到哪裏，而不是我們如何能夠抵達遙遠的那裏。他們并沒有将精力浪費在遙遠而宏偉的願景上，而是專注于當前可能發生的前沿事件。

根據當前所處的位置，決定應該去哪裏，往往比根據想要去哪裏，來決定前進的方向要更明智。

* 文章為作者獨立觀點，不代表筆記俠立場。

分享、點贊、在看，3 連 3 連