今天小編分享的科技經驗:硅谷大佬都在聊的AI Agents,是真熱還是虛火?,歡迎閲讀。
圖片來源 @視覺中國
ChatGPT 獲得巨大成功後,OpenAI 已然奔向下一個目标—— AI Agents(智能體)。
" 如果一篇論文提出了某種不同的訓練方法,OpenAI 内部會嗤之以鼻,認為都是我們玩剩下的。但是當新的 AI Agents 論文出來的時候,我們會十分認真且興奮地讨論。普通人、創業者和極客在構建 AI Agents 方面相比 OpenAI 這樣的公司更有優勢。" OpenAI 聯合創始人,前 TeslaAI 總監 Andrej Karpathy 説道。
Karpathy 的公開發言為 AI Agents 添了不少熱度。但他的判斷并非一家之言。
早在 3 月份,AutoGPT 就在 GitHub 上獲得 7.4 萬星,并快速成為史上 Star 數量增長最快的開源項目;而後發布的 BabyAGI、AgentGPT 更如雨後春筍般湧現:訂購披薩、整理郵箱、創建博客,甚至舉辦一場情人節派對 ……
越來越多的 AI Agents 出現在人們生活的各個場景下,熱潮迅速開始從硅谷蔓延。
自主執行、獨立運作,AI Agents 被科技人士給予極高的期待,認為其是 " 變革社會的生產力工具 "。更有人将其視作 " 通往通用人工智能(AGI)時代的開始 "。
但呼聲并不能掩蓋現存的問題。
" 大模型是 AI Agents 的前提,有了足夠好的硬體基礎後,才能去發展 AI Agents。" 真格基金管理合夥人戴雨森對「甲子光年」表示。
嚴格來説,市面上只有 ChatGPT 一個 " 合格 " 的大模型底座。受制于模型算力,國内仍然缺乏 AI Agents 的開發土壤。
未來美好,現實殘酷。技術研發與創業投資等都在搖擺中進行。AI Agents 的紅利期何時真的伴随大模型浪潮而來,誰都不得而知。但可以肯定的是,改變已悄然開始。
AI Agents:幫你做事的 " 數字助理 "
與其把 AI Agents 當作 ChatGPT 更新版,不如将它視作人類的 " 數字助理 " 更為合适。
它不僅告訴你 " 如何做 ",更會 " 幫你做 "。作為一種媒介,AI Agents 代替人類與 GPT 等大語言模型(Large Language model, LLM)進行反復互動,只要給定目标,它便可以模拟智能行為,自主創建任務、重新确定任務列表優先級、完成首要任務,并循環直到目标達成。
與傳統的人工智能不同,AI Agents可以在沒有人類控制的情況下獨立運行。通過接入 API,AI Agents 甚至可以浏覽網頁、使用應用程式、讀寫檔案、使用信用卡付款等等。
簡單來説,只需要給它一個目标,AI Agents就能完成剩下的全部工作。例如 HyperWrite 研發的 AI agent 通過 Chrome 浏覽器的控制程式來自動幫你訂購披薩。
圖源:HyperWrite CEO Matt Shumer Twitter 賬号
這種想象放在科幻電影裏并不難,但在人工智能探索歷程上,已經持續了将近半個世紀。
早在 20 世紀 80 年代,計算機科學家就開始探索如何開發一個可以像人類一樣互動的智能軟體。 但苦于數據和算力限制,AI Agents 缺乏必要的現實條件。
斯坦福大學計算機科學博士 Joon Park 曾在訪談中表示:" 我們一直在朝着那個方向努力,但過去幾十年的所有方法,甚至都沒有接近我們現在借助 LLM 所實現的效果 ...... 這就是為什麼我們忘記了這一願景。但當 LLM 出現時,我們意識到機會來了。"
大語言模型是 AI Agents 的核心大腦。通過拆解復雜任務,可以将復雜的用户需求拆解為可實現的任務方式。
一方面,大模型的訓練建立在互聯網的基礎上包含了大量的人類行為數據,彌補了構建可信 AI Agents 的關鍵要素。
另一方面,在可觀的知識容量下,大模型湧現出優秀的上下文學習能力、推理能力。通過建立思維鏈來實現模型的連續思考和決策,AI Agents 可以分析復雜問題,并将其拆解成簡單、細化的子任務。
與此同時,LLM 以語言作為媒介也改變了前端的互動形式。BV 百度風投 AI 應用賽道負責人,投資副總裁温永騰告訴「甲子光年」:"BV 百度風投很早就開始關注 AI Agents 的發展,通過研判,我們認為原先的圖形用户界面(GUI)有可能轉變為語言用户界面(LanguageUI),AI Agents 的前端應用将存在于所有可能與人類互動的前端形式之中。"
只是拆解任務,還遠遠算不上智能。LLM 驅動下的AI Agents,離不開三個關鍵組件:
LLM 驅動下的 AI Agent System 概覽(圖源:Lilian Weng 個人博客)
三個組件配合下,AI Agents 不僅能像人一樣思考,也能像人一樣行動。
就像人類一樣,在從事復雜任務時,每一步之間往往會有一個推理過程。AI Agents 也會借助 ReAct 組件(Reasoning and Acting),将大模型的推理能力和行為決策緊密結合起來,使語言模型可以根據知識進行有邏輯地計劃安排。
Reflexition 框架則為 AI Agents 提供動态記憶與自我反思的能力。通過語言反饋而非更新權重的方式來強化 Language Agents,讓它可以改進過去的行動決策、糾正過往的錯誤以不斷提高自身表現。
在信息獲取、儲存、保留、檢索的進程上,AI Agents 也力圖模仿人類的記憶構成,構建高效的内存系統。
模拟人類記憶方式,AI Agents 會将感覺記憶、短期記憶、長期記憶,分别表示為原始輸入的學習嵌入(如文本、影像等)、上下文學習、外部向量儲存。任務與結果會儲存在記憶模塊中,當信息被調用時,儲存在記憶中的信息會回到與用户的對話中,由此創造出更加緊密的上下文環境。
人類最顯著的特征之一就是使用和創造工具。通過配備外部工具,使用 API 來調用各種接口,AI Agents 能夠模拟人類使用工具,完成更復雜的任務。
雖然技術層面并未完全成熟,諸如數據管理、長期記憶等問題仍在解決。但 AI Agents 自主執行、迭代優化、" 解放雙手 " 的能力也讓走紅成為必然。
接替 LLM,AI Agents 成為下一個 AI 熱點
ChatGPT 的誕生,實現了 AI 與人類進行多輪對話,并提供信息和建議的功能。Copilot 的推出,使 AI 足以承擔為人類完成工作初稿的能力,例如 Github Copilot、Microsoft 365 Copilot、Midjourney,分别成為人們在編程、辦公、影像生成領網域中的 " 智能副駕 "。
告訴 AI 完成一件任務,它就能完成一件任務——撰寫文案、回答問題,或者生成一張人類肉眼難以分辨真假的照片。而與此同時,人們也往往需要為 AI 的每一步行動提供具體清晰的提示。
此時的 AI 就像是初來乍到,沒有任何經驗,需要手把手教導的實習生。但是,如果你想要一個聽指令辦事,執行中遇到困難自己解決,盡量不給人添麻煩的好員工呢?
3、4 月份,Camel、AutoGPT、BabyAGI、西部世界小鎮等多個 AI Agents 集中爆發,似乎讓人們看到了這樣的可能。
自 3 月份,Significant Gravitas 将 AutoGPT 開源後,發布時間不到 2 個月,AutoGPT 在 GitHub 上獲得的 star 數量已經達到 13 萬,成為史上 star 數量增長最快的開源項目。
斯坦福大學打造的西部世界小鎮(圖源:論文《Generative Agents: Interactive Simulacra of Human Behavior》)
Andrej Karpathy 就曾在 Twitter 上表示:" 提示工程(prompt engineering)的下一個前沿是 AutoGPTs"。截至目前,AutoGPT 在代碼托管平台 Github 上已經獲得超過 14 萬 star,排名歷史第 25 位。
OpenAI 聯合創始人兼 CEO Sam Altman 曾在多個場合表示,構建龐大 AI 模型的時代已經結束,智能體才是挑戰。
在一篇介紹自主智能體的文章中,作者 Octane AI(一家數據營銷平台提供商)聯合創始人兼 CEO Matt Schlicht 收集了來自業界、學術界、投資界等上百餘人的觀點和看法,有來自 Meta、Nvidia、Stability AI 等大公司或 AI 初創公司的專家,也有斯坦福 CS 的教員和投資了包括 Hugging Face 在内的 AI 投資人,絕大多數都表達了對 AI Agents 潛能的期待和展望,甚至将其稱為 " 原始 AGI"。
接替大模型,AI Agents 似乎正在成為 AI 的下一個熱點。
但與此同時,反對的聲音也不絕于耳。
圖靈獎得主 Yoshua Bengio 在今年 5 月發布的博文《危害人類的 AI 是如何出現的》中就提及,人類能控制 AI Agents 總任務、總目标,并不意味着人類能控制 AI Agents 憑借自己的智慧分解出來的子任務、子目标,除非 AI 對齊(alignment)的研究取得突破,否則人類就沒有強有力的安全保障。
智能體的集體出現,大佬的追捧和質疑,AI Agents 的浪潮迅速且火熱。
然而,AI Agents 在人工智能的圈子内并不是一個新名詞。
2014 年,DeepMind 推出的圍棋 AI AlphaGo,其實就是 AI Agents 的一種。與之類似的還有 2017 年 OpenAI 推出的用于玩《Dota2》的 OpenAI Five,2019 年 DeepMind 公布用于玩《星際争霸 2》的 AlphaStar。
當時的業界潮流是通過強化學習(reinforcement learning)的方法來訓練和改進 AI Agents,主要應用于遊戲場景,特别是一些對抗性、具有明顯輸赢雙方的比賽中。但如果想要在真實世界中實現通用性,卻是一個懸而未決的問題。
之後的幾年,OpenAI 轉向大語言模型,GPT 系列的相繼推出,大模型成為各家科技廠商争先湧入的賽道,也正是大模型的發展,讓 AI Agents 有了突破瓶頸、重新發展的契機。
相較于幾年前局限在遊戲場景,在大模型的基礎上 AI Agents 可以實現什麼?BV 百度風投 AI 應用賽道負責人,投資副總裁温永騰向「甲子光年」表示:" 我們看到的不僅僅是技術進步使得 AI 在理解用户意圖、收集信息以及執行任務的能力大大增強,更重要的是,AI Agents 完全有能力重構未來的應用生态 "。
在 AutoGPT 推出後不久,已經有不少網友使用 AutoGPT 來搭建自動化的個人助理。例如 FirstSales.io 的創始人兼 CEO Udit Goenka 發帖稱,他利用 AutoGPT 搭建了一個勘探引擎,可以搜索去年獲得種子輪投資的公司,并能描述創建列表的詳細信息。
Google 軟體工程師 Yew Jin Lim 表示,他用 AutoGPT 創建了一個電子郵件助手,通過電子郵件向 AI Agents 發送任務詳情。
真格基金管理合夥人戴雨森告訴「甲子光年」:"Agent 是一個讓生產力真正能大幅提高的方向,因為如果還是人做事情,人總是有限的 "。
"AI Agents 将會成為日常生活和工作中的生產力工具。"Matt Schlicht 寫道," 從管理社交媒體賬号、投資市場,到出版最好的兒童讀物,AI Agents 将存在于各個行業和每一項可以被想象出的任務之中。" 例如 aomni,是一款可以在網絡上查找任何主題信息的 AI Agent,會通過創建列表,一項一項完成用户的目标。
除了生產力需求之外,Inflection AI 的個人 AI Agent Pi 提供了另一個可能的應用方向。
不同于 ChatGPT、Claude 通用人工智能的定位,Pi 主打高情商、情感陪伴、提供情緒價值。Pi 還會記住和用户的歷史對話,除了參與并輔助人們的工作與生活,還會學習聯系朋友和家人的方式與用户建立聯結。目前 Inflection AI 已獲得超 15 億美元的投資,超越了 Anthropic,僅次于 OpenAI。
AI Agents 會是下一個風口嗎?
"Building a kind of JARVIS(構建類似于 JARVIS)",這是 Andrej Karpathy 在 Twitter 上最新更新的簡介,JARVIS 是漫威超級英雄鋼鐵俠的一位人工智能助手,具備獨立思考的能力,能幫主人處理各種事務,計算各種信息。
Karpathy 的簡介也意味着,AI Agents 賽道的發令槍已經打響。
外媒《The Information》指出,Sam Altman 曾在 5 月私下告訴部分開發者,OpenAI 希望将 ChatGPT 打造成個人工作助手,并有知情人士指出,OpenAI 一直在關注如何使用聊天機器人來創建自主的AI Agents,相關功能很有可能部署在 ChatGPT 助手中。
無獨有偶,Meta 也看到了 AI Agents 的機會。
早在 4 月,Zuckerberg 就曾對投資者表示,Meta 看到了 " 以有用且有意義的方式向數十億人介紹 AI Agents 的機會 ",但此時他并沒有説明具體的應用。
而在 6 月一次與員工舉行的全體會議上,Zuckerberg 宣布了一系列處于不同開發階段的技術,其中一個就是将帶來具有不同個性和能力的 AI Agents 來提供幫助或娛樂,最初主要用于 Messenger 和 WhatsApp。
在國内,AI Agents相關的產品也相繼誕生。
在 7 月初的 WAIC 現場,阿裏雲就發布了旗下第一個智能體—— ModelScopeGPT,面向開發者群體,并将在未來推出一系列智能體以應對多種應用場景。
華為在該領網域也有涉及,但更側重于具身智能(Embodied AI),即大模型與機器人的結合。
除了大廠,AI Agents 也是創業者們的機會。OpenAI 聯合創始人 Karpathy 特意在此前的演講中提到:" 普通人、創業者和極客在構建 AI Agents 方面相比 OpenAI 這樣的公司更有優勢。"
BV 百度風投 AI 應用賽道負責人,投資副總裁温永騰表示,BV 團隊目前也對初創企業在 AI Agents 領網域中的機會持樂觀态度。
" 未來的應用生态将是多元化的,而非由單一巨頭主導。AI Agents 的出現帶來了一次範式轉移的機會,許多傳統應用都面臨被颠覆改造的可能性。在這個過程中,初創公司有大量的機會去開墾新的領網域。對于每一個特定的任務,AI Agents 都有大量的優化空間,包括特定算法與服務的構建、用户數據以及產品設計等方面,都是初創公司可以建立差異化優勢的地方。"
" 此外,當前 AI Agents 的生态還不夠明确,這為初創企業提供了有利的發展機會,因為它們并不需要在一個已經确定的規則下進行競争,從這個角度上來看,初創企業與大公司是站在同一起跑線上的,并且初創企業更為靈活,可以很快進行產品的調整。"
憑借在人工智能領網域布局多年所積累的認知,BV 百度風投并不認為模型公司會壟斷應用層的機會。因為對于底層模型公司來説,構建生态的意義遠大于壟斷某一應用,如果底層模型公司采取排他性的策略來獲取應用層的競争優勢,可能會對其自身的生态造成傷害。底層模型公司可能會在他們關注的一兩個領網域構建強大的 AI Agents,但他們沒有必要在所有領網域都與初創企業競争。
尚未确定的生态,還未被制定規則的賽場,所有人又回到了同一起跑線上。
但不可否認的是,目前為止,除了許多演示之外,AI Agents 并沒有真正的產品出現。
真格基金管理合夥人戴雨森将 AI 和人類協作的程度類比為自動駕駛的不同階段,AI Agents 就好比自動駕駛的 L4 階段。但就如同 L4 一樣,AI Agents 容易想象、演示,卻難以實現,AI Agents 的真正應用還在不确定的未來。
将 AI 和人類協作的程度類比自動駕駛的不同階段(圖源:戴雨森即刻賬号 @yusen)
戴雨森強調,想要實現可用的 AI Agents,還需要大幅提高大模型的能力,即使是對處于頂層的 OpenAI 來説,在延遲、性能上也有很高的提升空間。
" 如果用蒸汽機來打比方的話,水燒到 100 度才能產生蒸汽,如果 AI Agents 的智力還沒有達到一定的程度,水只燒到了 50 度,即使已經花費了很多能源,依然無法產生蒸汽,依然是 0。"
AI Agents 賽道的發令槍已經打響,只不過,這絕對不是短短幾個月内的衝刺,而是注定要長達幾年,甚至跨越十年的長跑馬拉松。