今天小編分享的科技經驗:當NPC開始獨立思考,這世界還是草台班子嗎?,歡迎閲讀。
據説,很多人小時候都幻想過這樣的場景:
全中國 14 億人,每人給我一塊錢,我就能成為億萬富翁。
長大之後,我們讀書工作、成家立業,生活按部就班,大富翁的夢想畫上句号,人生更像是遊戲世界的 NPC,主打一個 " 不努力、不造反、熱情開朗、一問三不知 "。
當碳基生物組成了世界這個巨大的草台班子,硅基生物卻開始——
獨 立 思 考 了 !
是的,在 ChatGPT 狂飙一年之後,AI 已經可以主動學習、思考、判斷,并自主完成任務了。
這種像賈維斯一樣 AI 智能體,也叫 AI Agent。
一年前,ChatGPT 橫空出世,有一大批人工智能專家出來呼籲,收手吧,阿祖,再這麼開發下去,AI 就強大到人類無法控制了。
而 AI Agent,就是那個令人類 " 顫抖 " 的 AI 智能體。
什麼是 AI Agent?
2023 年上半年,斯坦福大學人工智能實驗室(SAIL)和谷歌聯合發表了一篇論文《Generative Agents: Interactive Simulacra of Human Behavior》。
在文章中,研究人員創造了一個虛拟小鎮 "Smallville",裏面有商場、公園、酒吧、學校、咖啡館等建築,還有 25 位完全由 AI 控制的居民。
每位 AI 居民都有自己獨特的身份和個性,它們在小鎮裏生活、工作,可以一起聊天、談八卦,也可以辦 Party、交朋友,甚至還擁有記憶,會根據自己見過的人、説過的話,做出判斷和決策。
具體來説,它們看到早餐起火,會走過去關掉爐子;如果看到衞生間有人,知道在外面等待;街頭看到一個人,還會停下來聊兩句 ……
而這一切行為,不是系統設定的,而是 AI 居民根據具體問題做出的具體反應。
雖然這個研究目前沒有開源,咱們并不清楚 AI 居民是如何做出具體響應的,但試想一下,你在路上碰到一個認識的人,大概會出現四種情況:
A:不喜歡,假裝沒看到
B:不熟,點頭打招呼
C:有點熟,聊兩句天氣如何,今天吃什麼
D:熟悉,聊聊各自生活,甚至還會一起約飯
而 AI 居民的反應,就像人類思考一樣,結合了兩個個體之間的 " 交往歷史 ",做出了相應的決策。
這裏的 AI 居民,具有語言、決策、記憶的綜合功能,能夠通過獨立的思考完成接受的任務,也就是最近風光無限的 AI Agent。
通俗來説,AI Agent 就是 AI 助理。
在大模型時代,AI 只能和你聊天,談心,幫你查資料、寫文章、寫代碼、搞創作,而且要想讓 AI 輸出你想要的結果,關鍵在于 " 提示詞 ",即你得學會引導 AI,才能讓它給出理想答案。
如果提示詞給的不好,AI 就會答非所問,宛如一個智障。
而在 AI Agent 時代,你只要説出結果,它會幫你理清過程,并下達指令。
打個比方,你正在打遊戲,突然感覺餓了。這個時候,AI 可能會告訴你喝點水緩解飢餓,或者建議你盡快吃飯,以免頭暈、乏力;但 AI Agent 則可能會調取你的外賣 app,分析你愛吃的菜系,還能調用支付 app,直接幫你點個外賣到家。
在這個過程中,AI Agent 經歷了 " 感知(Perception)——規劃(Planning)——行動(Action)" 三個步驟。
感知,就是收集信息并提取相關信息。
當 AI Agent 接收到你説 " 餓了 ",它會首先從一堆 " 飽漢不知餓漢飢 ""Stay hungry,Stay foolish" 等與餓了相關的信息中,提取出餓了應該怎麼辦的關鍵信息。
其次是規劃,也就是綜合各種情況,尋找可能的解決辦法。
餓了,可以出去吃,可以叫外賣,可以自己做飯,也可以喊朋友來家裏吃。此時,AI Agent 首先會檢索記憶流,即它會根據你在這個時間點通常在幹什麼,你和最近的聯系人聊了些什麼,是否聊到了美食,又或者你的日程表上這個點有沒有其他安排等等,來綜合判斷你是要出去和朋友吃,還是要在家做飯,又或者點個外賣湊活一頓。
而且在規劃過程中,AI Agent 還需要考慮到 " 近期性 " 和 " 重要性 ",比如你最近消費減少,可能是月底工資不夠花了,又或者你第二天要給女朋友送禮物,這個時候需要勒緊褲腰帶,一切從簡。
最後,再根據規劃做出行動——在綜合了你的個人習慣、消費情況、聊天記錄、日程安排等等情況後,AI Agent 決定,你應該點個外賣。
于是,它打開外賣 app,幫你叫了一份你最愛的炸雞和可樂,并幫你完成了付款。
也就是説,當你在遊戲世界歲月靜好的時候,是 AI Agent 在替你負重前行。
AI Agent 這麼強大
人類可以洗洗睡了?
電影《鋼鐵俠》裏,每次史塔克要去冒險,賈維斯都會問一句,要不要給他的妻子打個電話。
這種超越工具性的時刻,是 AI agent 的終極形态。
但 " 很多市面上的 Agent 產品,其實并不 Agent。" 一位 AI 行業連續創業者這樣評價道。
目前,市面上的 Agent,包括 OpenAI 推出的 GPTs,其實只是構建了一個基于特定知識庫或專業數據的 Chatbot,這些智能體主要用于進行問答互動,如獲取行業資訊、報告等。
其主要進化路徑,有兩個方向——
一種是自動化。即給 Agent 一個目标之後,它可以自己通過目标來模拟一個思考路徑,然後創建任務、完成任務,并且根據用户的目标不斷重復地完成任務。
以 GitHub 上大受好評的 Auto GPT 為例,你讓 Auto GPT 寫一份某地區 TOP 5 鞋廠的研究報告,這是終極目标。
為完成這個任務,Auto GPT 會先去網頁搜索該地區五大鞋廠分别是哪些,然後再去看他們的營收數據、市場份額、產品情況等,依據搜索信息,最後以分析形式形成一份報告。
在整個過程中,Auto GPT 自主将任務拆解為檢索信息、提出問題和回答問題等階段,最終完成了任務。
目前,市面上的自動化 AI 助理,主要集中在辦公場景。
比如會議紀要,一個人做起來可能要耗費好幾天的時間,但交給 AI agent,它可以在全部的錄音素材中,提取會議内容的重點,總結成 bullet point,然後自動生成待辦事項添加在 To-do List 中;
再比如,AI Agent 可以幫助銷售人員收集客户信息,分析客户喜好,拟定銷售機會、自動跟進銷售進度,等等。
另外一種路徑,則是拟人化。
不同于自主智能體的發展路徑,拟人化(智能模拟體)的發展路徑更多遵循開發者設定的内部目标,強調的是拟人化的情感與互動。
現在,這種拟人化的 AI agent 大多出現在遊戲中。像前文提到的虛拟小鎮裏的 AI 居民,以及由英偉達首席科學家 Jim Fan 等人發布的 Voyager,都是由大模型驅動并且可以終身自主學習的智能體。
好消息是,大模型的學習能力,有時會出現智能湧現。
比如把 Voyager 接入遊戲《我的世界》後,Voyager 不是一個推動劇情的 NPC,而是一個能夠主動創造内容的 " 玩家 " ——通過不斷自我進化,Voyager 在遊戲中獲得的獨特物品增加了 3.3 倍,行進距離增加了 2.3 倍,解鎖關鍵科技樹裏程碑的速度比之前的方法快了 15.3 倍。
壞消息是,這種智能體充分進化而導致的 " 不确定性 ",會讓很多玩家在嘗試過後,喪失進一步玩下去的熱情——我玩遊戲,不就是想獲得掌控感嗎?角色稍微不聽話可以,完全不聽話,還玩個啥啊。
當然,自動化和拟人化并不是 Agent 發展過程中全無交集的兩條河流。
相反,自動化和拟人化是現在 Agent 發展的兩大核心能力,圍繞着這兩個能力,AI Agent 會在不斷進化、不斷成熟的過程中,探索出更多的使用場景。
人類距離終極智能體
還有多遠?
AI Agent,相當于一個硅基生物擁有一個碳基大腦。
盡管聽起來遙不可及,但毋庸置疑的是,這将是 AI 產業的下一個風口。
比爾 · 蓋茨在一篇文章中表示,AI Agent 将颠覆個人與計算機互動的方式,并将在五年内徹底改變我們的生活。
英偉達高級研究員 Jim Fan 也預言,Agent 将 " 推動整個文明的進化 "。
那麼,人類距離終極 AI Agent,還有多少困難需要克服?
第一個問題,是開發成本高昂。
拿斯坦福大學的虛拟小鎮 "Smallville" 來説,其中每個 Agent 的成本高達 20 美元 / 時,比大多數人的時薪都要高。
第二個問題,是產品的标準化。
" 和 GPT 從免費到收費的過程一樣,Agent 商業化的普及也要經歷產品标準化的過程。" 科技行業投資人申林宇(化名)這樣評價道。
比如你用 AI Agent 辦公,考量指标應該是,它到底有沒有提高生產效率。" 各式各樣的大語言模型類產品出現後,免費試用的階段大家會有新鮮感,會去玩、會去嘗試,但是如果你説這個東西開始收費,大家的态度立刻會從獵奇轉換成審視。沒有人會為科技類的獵奇產品持續買單,科技類的產品必須切實地提高生產力才能持續商業化。"
如果 Agent 沒有成熟的產品标準,那麼商業化落地便遙遙無期。
第三個問題,是權責和道德的問題。
比如醫療類 Agent,它可能比大部分人類醫生的知識儲備都要多,但醫院如果把治療方案交給 AI,需要跨越的并不只是技術的門檻,還有道德的高牆——一個生活拮據的老人心髒不舒服,但不影響生活,醫生往往會根據情況建議保守治療,但 AI 可能會建議做個手術。
在自動駕駛領網域,AI Agent 也存在決策權歸屬問題。
一位投資人曾描述過這樣一個畫面," 你的自動駕駛車輛行駛在高速路上,忽然前方的賓利急刹車,緊急車道上停着一輛破舊的二手車,車上正有一個抱着嬰兒的母親在打電話,這個時候到底該撞向誰?我們要把這個問題交給 AI 來決定嗎?"
因此,該投資人認為,自動駕駛在 5-10 年内不會有重大的商業化突破。
即便跳過這個 " 電車悖論 ",自動駕駛過程中出現交通事故之後的權責判斷,也是擺在汽車廠商面前的現實問題。
人機配合過程中,很多時候很難判斷到底是車的問題,還是人的問題,亦或者是人和車在争奪決策權的過程中出的問題,所以很多廠家現在已經跳過了需要人機配合的 L3 階段,直奔自動駕駛的 L4 階段去了。
把什麼樣的問題交給 AI 去決定?這是 AI Agent 產品商業化無法回避的問題,而無論創造產品的人還是制造規則的人,都沒有過去的經驗可以參考,那麼,政策的推進就需要摸索和時間。
還有最後一個問題,是使用門檻太高。
很多人覺得 ChatGPT 不好用,是因為提示詞給的不夠好,而 Agent 產品的使用門檻相對會更高,消費者對其期待也更大。
一位智能駕駛研發員告訴我,很多司機不是不想調動自動駕駛,而是很多自動駕駛的互動做得不夠好,不夠讓司機省心。比如路徑如何規劃,前方有什麼路況,準備怎麼解決等,這些信息如果沒有及時傳達,司機就沒有足夠的安全感去信任和調用 AI 產品。
因此,Agent 產品如何做好互動,從而提高產品滲透率和使用率,最終觸達到用户,是 Agent 發展最後一步也是最重要的一步。
總之,在通往終極智能體的路上,人類還需要越過很多個山丘。
尾聲
2023 年 12 月,Open AI 董事長薩姆 · 奧特曼在 X(原推特)上發表了自己的 " 年終總結 "。
他寫道:" 這真是瘋狂的一年 …… 很高興 2023 年是世界開始認真對待 AI 的一年。"
過去一年,從科技公司到硬體廠商,從傳統制造業到新興產業,從投資人到開發者,幾乎全員都在聊 AI、做 AI。
AI 教育、AI 醫療、AI 律師、AI 自動駕駛,甚至 AI 性機器人 …… 各種 AI 應用此起彼伏,但放到普通人身上,AI 似乎又很遙遠——它既不能替我們完成日常工作,也不能幫我們接送孩子、照顧老人。
換句話説,絕大多數人工智能應用,現在還不夠智能、好用。
Windows 的圖形互動,簡化了人與計算機的 " 互動 " 方式,推動了 PC 互聯網的發展。
iPhone 的電容螢幕和多點觸控技術,改變了人與手機的 " 互動 " 方式,拉開了移動互聯網的序幕。
而 AI Agent,則可能改變人與 AI 的 " 互動 " 方式,讓人工智能不再是一個光鮮亮麗、又遙不可及的名詞。
盡管現在,人類距離 AI Agent 終極智能體還很遙遠,但沒有什麼能夠阻擋,一個必然會到來的潮流。