今天小編分享的互聯網經驗:對話Agent創業公司S2R:OpenAI GPT商店來了, 創業公司打不過就加入?,歡迎閱讀。
圖片來源 @視覺中國
文 | 光錐智能,作者 | 郝鑫
1 月 10 日,OpenAI 推出了在線商店 "GPT Store"。該商店已于昨日開始向付費用戶、團隊和企業用戶推出,商店匯集了用戶為各種任務創建的 ChatGPT 的自定義版本。
2023 年初到年末,Agent 就像一位來自異網域的吉普賽女郎," 神秘 " 且 " 性感 "。
從微軟發布 Microsoft 365 Copilot,引入一種基于大模型的應用開發範式,揭開了智能化的第一篇章;
到 AutoGPT、BabyAGI、HuggingGPT、AgentGPT 等單一 Agent,向 MetaGPT、AutoGen、ChatDev 等多 Agent 框架進化,勾勒出如 " 斯坦福小鎮 " 般的群體智能體藍圖;
再到 OpenAI 開發者大會,提出用 "GPTs" 方式開發 Agent,更便捷的方式意味着門檻進一步降低,借此也引發了一波 Agent 創業熱潮。
(圖:用戶創建的各種 GPTs)
剛結束的奇績創壇秋季路演中,AI 方向,51 家大模型主題公司,有 34 家與 Agent 相關。
投資人态度一百八十度大轉彎,從諱莫如深到求賢若渴,熱錢撒向了瀾碼科技、實在智能、AutoAgents 等新秀。
但至此,也才猶如三分鐘熱度吹過,微微掀起了 Agent 這位女郎面紗的一角。
" AI Agent 就是未來 ",OpenAI 聯創 Andrej Karpathy 呼喚着。
微軟比爾蓋茨發出了 " 五年内每個人都将擁有 AI 私人助理 Agent,Agent 将颠覆軟體行業 " 的最強音。
Agent 未來将至,但籠罩在其身上的迷霧卻久久不能散去。在基本的概念理解上,仍然眾說紛纭,有人認為 Agent 是一種分解復雜任務的框架;有人認為 Agent 是大模型應用的落地抓手;有人認為是一種新的互動方式;也有人認為是一種原子化的智能生產力……
對于 Agent 的不同理解,一定程度上決定了道路選擇。從目前落地現狀來看,大致可以分為三類:
重塑工作流,推動一些本身就有機器參與的行業從自動化走向智能化,典型領網域如 RPA、BI 等;
與大模型、企業私網域數據結合,嵌入到原有業務中,落地企業級應用;
将 Agent 視為可 " 自我進化 " 的新物種,通過加強其學習理解能力,來自行解決人類可能出現的問題。
" 核心在于不去主動定義 Agent,而是讓 Agent 來自我定義 ",System2 Research 產品化負責人陳锴傑道。
作為 Agent" 自我進化 " 觀點的推崇者,集結了 OpenAI GPT 架構的共同作者和來自 MIT、劍橋、普林斯頓等學校的技術和理論資源的創業公司 System2 Research ,從 2018 年就已經關注到了 Agent 技術,GPT 能力的湧現讓其看到落地的可能性。得益于此,在大部分企業還在鑽研概念和技術階段,這個十人規模的團隊已經在開始在時尚、遊戲、教育等領網域探索落地和商業化。
大模型來了以後,Agent 發生了怎樣的改變?如何讓 Agent 像人一樣自我進化?為什麼泛娛樂場景是 Agent 快速着陸的第一站?帶着重重疑惑,光錐智能對話 System2 Research 團隊,解開關于 Agent 的迷思。
核心觀點如下:
Agent 的脈絡就是在不斷地抽象世界知識去壓縮,什麼時候抽象能力足夠強,能支撐在足夠多場景互動,就是其從實驗室走向應用之時。
因為大模型能力的突破,未來五年,Agent 技術将會有極大的改變。
真正發生改變的是,有了大模型後,今天的 Agent 完成了從演員到導演的角色轉變。
核心在于不去主動定義 Agent,而是讓 Agent 來自我定義。從需求起點出發,Agent 可以自行去填補中間過程空白,完成最終的目标。
Agent 與大模型能力處于垂直方向,即大模型的底座越好,Agent 的能力也就越強。
以下為對話實錄:
光錐智能:OpenAI 的開發者大會徹底帶火了 Agent 的概念,這對你們這類 Agent 創業公司有哪些直接影響?
System2 Research:我覺得這個問題十分有意思,以前我們在和投資人接觸聊 Agent 的時候,投資人的第一反應是 " 哦,是 Agent",表現出的興趣不大,大多數情況下其實不知道我們在幹什麼。但現在出去再聊,幾乎是一擁而上,路演現場,雖然只是簡單地展示了一下 demo,還是有很多人過來主動聯系。總之,大家的眼神中多了一絲驚喜。
光錐智能:你和你的團隊是從什麼時候關注到 Agent 技術的?是什麼原因讓 Agent 從實驗室走向了應用?
System2 Research:實際上,團隊中大多數人都在上學期間或實驗室裡就接觸到了 Agent 相關的理念和技術,在這個研究方向上甚至有人一直從 2018 年跟進到了現在。以我來舉例,早在大二的時候就接觸到了 Agent,那時我在杜克大學的互動實驗室裡面研究如何控制火星車的運行,其中涉及的控制算法跟 Agent 的概念大致相同。可以把火星車想象成一個 Agent,要讓它能夠自主地在復雜環境中運行、反饋。
在第一次遊戲創業上,我也曾有過類似的嘗試。2020 年,那時還沒有大模型的概念,所以要完成一個遊戲世界的構建,需要通過壓縮現實世界的知識來實現,以此來模拟 NPC、玩家的心智,達到更好的體驗效果,那也是我第一次去主動研究 Agent 技術。盡管,我們設計了很多玩法,推動遊戲用戶來進一步豐富遊戲世界模型,但模拟、反饋效果卻不是很盡如人意。
我們發現,Agent 從只能模拟運行幾條簡單的規則,發展至從心理學、神經科學的角度來仿真人的思考過程,其整條脈絡就是在不斷地抽象世界知識然後去壓縮,什麼時候抽象能力足夠強,能支撐在足夠多場景中互動,就是其從實驗室走向應用之時。
顯然,這個時刻已經來了,那就是 GPT 的誕生。今年年初最讓我震撼的瞬間就是,基于 GPT 模型的一些小範圍嘗試,竟然能夠完成 Agent 在心智層面對人的高度抽象和模拟。也是從那個時刻開始,我們堅定地認為,因為大模型能力的突破,未來五年,Agent 技術将會有極大的改變。
光錐智能:關于 Agent 到底是什麼,至今仍眾說紛纭,你們是如何定義和理解 Agent 概念的?
System2 Research:我們通常會嘗試用一種比喻來解釋對 Agent 概念的理解。首先,我們談到 Agent 的前提,它得是一個帶有智能屬性,能在某一個環境中做動作,并基于這個行為在環境空間中做出反饋。這個核心的定義,發展了 20 多年,其實差異性不大。我們認為,真正發生改變的是,有了大模型後,今天的 Agent 完成了從演員到導演的角色轉變。
以前控制 Agent 的主動權在用戶手中,Agent 被告知,表情需要再誇張一點,腿需要再抬高一點,按照指令來演出。但現在,Agent 進化為了導演,能夠指揮片場所有演員和工作人員的編排,最後呈現出一部大戲。
光錐智能:你們對 Agent 的理解和現在市場上其他定義的區别在哪裡?
System2 Research:我們看到,現在大部分的大模型都是通過 prompt 這類 language engine(語言引擎)來喚醒,這相當于我現在有 GPT 這樣的技術,也有一個目标,但技術到目标實現中間存在特别大的鴻溝。我們認為,這個 gap,靠語言指令是無法填補的,要靠具體的動作來完成實現。
我們的核心在于不去主動定義 Agent,而是讓 Agent 來自我定義。這樣的定義,十分具有生命力,因為它是從問題和需求角度出發,即從發出指令、產生需求的起點,到中間過程再到目标實現都是靠智能體自行完成,而大模型在其中的角色就是提供 Agent 運行所需的能力支持。
比如在學習設計過程中,我們讓 Agent 自己去學習和理解,去看各種成功的和失敗的案例,直接從這些案例中掌握通用的方法,提升設計的能力。等到開始設計鞋子的時候,就不需要人去告訴它第一步應該做什麼,第二步應該找哪些顏色搭配方案參考,而是可以像一個設計師一樣,有自己的一套方法論。
過分地去強調流程、組織是沒有太大意義的,特别是在創意性的行業,畢竟作為人類我們最想要的是最終的呈現結果,到底是三步還是十步完成,不是很重要。若 Agent 在自我學習後,幫人類簡化流程,一步到位,将能釋放更大的生產力。
光錐智能:OpenAI 以 "GPTs" 的方式提出了 Agent 的創作框架,在你們看來,目前這種框架還存在哪些缺陷?基于自身的思考,你們如何從技術上構建自身的 Agent?
System2 Research:OpenAI 提出了 Agent 創作框架,但事實上,GPTs 只是 Agent 框架,并沒有解決 Agent 的核⼼技術要點。在實際落地過程中,我們也發現,GPTs 也僅能滿足一些初步的需求,并不能真正地現實應用場景中。
(圖:使用 ChatGPT-4 創建 GPTs 的界面)
因此我們小組的研究着重于解決 GPT-4 和 GPTs 中沒有解決的長期記憶、魯棒性、成本高、效率低、可控性差等一系列的 Agent 問題。
總結下來,我們的整個技術框架包含了五個特點。
長線程能力。我們的長線程思考能力是原來智能體 GPT 的 7.5 倍,Agent 也更像人,不像工具,能解決復雜問題。像一個導演可以操控一群演員來完成的任務,創造自己。
精确可控。讓大模型與數值模型結合,能夠無縫結算到數值系統,或由數值系統引導大模型的生成。
魯棒性更好。實驗數據顯示,我們構建的 Agent 魯棒性是 GPT 的 1.8 倍。
更高的效率和更高的性價比。通過技術把 Agent 思考交流的過程内化,直接訓練到模型裡面,輸出速度比 GPT-3.5 稍慢,但效果更好。内化後,不會占用大模型的 token 數量,可以用比 GPT-3.5 更低的成本,大規模運行比 GPT-4 效果更好的 Agent。
無限記憶、學習遷移能力強。我們論文中提到一個發現,即在 Agent 已經學習了很多内容,在學習新任務的同時,舊任務的表現沒有明顯的下降。這意味着 Agent 具備了強大的遷移學習能力,就像滾雪球一樣越學越靈,可以更快地跨越更多的場景,而且可以用同一套模型去服務一整個行業。
光錐智能:System2 Research 和時谛智能的關系是怎樣的?為什麼把時尚行業作為 Agent 技術落地應用場景的第一站?
System2 Research:System2 Research 小組是⼀個專注推動大型模型領網域革新的研究⼩組,集合了一些來自 MIT、劍橋、普林斯頓等院校的頂尖學者和實踐者。其中不少人在技術和理論方面都有所積澱,比如曾經與 OpenAI GPT 架構的共同作者 Karthik,以及 ReAct 和 ToT 框架的作者姚順雨,共同發表了 Agent 技術框架 FireAct。
總的來說,System2 Research 小組主要攻克構建 Agent 所需要的核心技術,時谛智能實際上是我們團隊落地行業應用的第一批應用場景。
光錐智能:以鞋子設計為例,Agent 技術具體是怎樣與時尚行業結合的?Agent 如何影響或重塑時尚行業的各個流程的呢?
System2 Research:我們最開始接觸時尚行業的時候就是思考到底時尚行業的卡點是什麼,發現在企劃,設計,銷售,供應鏈等各個環節都很依賴人的經驗去決策。大家都迫切希望 AI 能夠基于數據去思辨,當下流行的是什麼,消費者需要什麼,應該設計什麼樣的產品,要生產多少件衣服才能滿足市場需求?并且在這個過程中,通過人機的協同,輔助真人設計師,去完成一個可控的好設計,同時在後續選款、測款、配補調的過程中給出有數據參考的決策。
在這個過程很多人面臨的另一個問題是如何讓 AI 記住我們,記住我們和它之間的溝通内容,以避免每次都要從頭開始。在 System2 Research 之前這個問題目前還沒有好的解決辦法。
我們很高興能與時谛一起基于他們原有的一套時尚行業的全鏈路解決方案(企劃 -3D 設計協同 - 生產系統)FIM,加上我們 system2 agent 的 planning 和 memory 能力,充分運用他們的行業數據積累,将其變得更智能化。
在時谛智能的 FIM 平台上,設計師可以和 Agent 一起基于線上的多維度數據分析當下符合企業調性的產品方向,可以讨論如何設計新的爆款,也可以讓它快速檢索所需要的設計素材。這個過程是既有對話式,也有操作式,設計師随時都可以向已經積累了大量時尚行業認知的 Agent 發起對話,可以尋求設計靈感、修改建議。
我們和時谛的合作,行業感覺最大的亮點就是可控、精準,可能只是簡單的四個字,但是卻是極大的突破。
光錐智能:除了時尚行業,你和你們團隊還比較看好哪些領網域?為什麼這些方向與 Agent 結合會比較有潛力?
System2 Research:時尚、教育、遊戲還有大量泛娛樂的領網域,我們都在接觸。
泛娛樂行業内容生產中,本身就有很多可以替代的部分,在實時互動過程中,可以通過 Agent 加入更多新的玩法,例如,在看一部劇的時候,暫停下來就能近距離地和劇中的人物直接繼續對話,或者遇到不喜歡的情節時,直接再造一個平行世界,繼續往下看等等。
其次,娛樂性的行業的容錯率也相對較高。大模型的幻覺是硬币的兩面,不精确也意味着有創造力。我認為,娛樂的本質就是對一些特異事件的壓縮和重現,比如說我們看一個古裝言情,它抽象的其實是人類社會活動中宮廷角鬥、商業争奪這一部分核心社會關系。不管是哪一種娛樂形式,大家之所以會覺得它很有魅力,就是是因為它抽象了我們生活中身邊的一部分,并且能在這部分體驗中獲得現實生活中滿足不了的東西。
我們最近推出的產品 midreal.ai 就是上述技術和思考的結晶。midreal.ai 目前運行在 Discord 中,為用戶提供了一種全新的互動圖文故事體驗。用戶只要輸入一句自己幻想的世界觀,就能和 AI 展開 10 分鍾的圖文互動。目前我們的 Discord 中已經有超過一萬名熱情的内測用戶,每天進行數千次故事互動。我們在 2 月份就會引入包括動圖在内的更多媒介,并且擴展遊戲玩法,加入對戰,讓用戶和朋友們一起沉浸在幻想世界中,去滿足現實世界無法實現的想象。
光錐智能:當大家還在談 Agent 概念的時候,System2 Research 已經開始了行業應用落地,你們如何規劃未來的商業化進程?
System2 Research:目前看,我們 Agent 的技術相當于已經在時谛智能的軟體平台上跑通了,已經有客戶在使用内測產品。另外一個在遊戲領網域,我們的角色是 Agent 的供應商,幫助一些遊戲廠商做智能 NPC。再向前一步,可能會考慮尋找企業跟我們一起做多智能的開放世界,大概是中期會推出的一個項目。
光錐智能:比爾蓋茨認為軟體的時代已經過去,最終 Agent 會替代 App,成為新的應用形式,你們怎麼看待這個觀點?從萌芽到替代大概的周期要多久?
System2 Research:我覺得要看 Agent 能做哪些事情,打開一個軟體買菜,這就是一個 action;打個電話,這也是一個 action,所以從技術和整個社會最高效的運行來講,的确是 Agent 能代替所有的東西。如果,再能實現作為個人助理管理所有 Agent 的目标,那人類可能離解放也就不遠了。
(圖:騰訊論文中對 AppAgent 的構想,讓 AI 自己去玩手機)
接下來幾年,Agent 會怎麼樣逐漸改變商業世界還是值得期待的一件事情。我們最近也在思考,往小的方向思考,作為一個創業團隊,我們可能會優先考慮落地遊戲、教育、時尚幾個場景,思考需要用 Agent 去替代哪些環節,如何實現降本增效,如何產生全新的互動模式等等。
往大了想的話,可能就是 Agent 在經濟生產行為中的比重,看它能不能占到現在應用市場的 10%,然後是到後端、工廠、制造業、醫療行業中,看它能從 GDP 中切出來多少。
光錐智能:開發者大會結束之後,有一種論調是 OpenAI 殺死了很多創業公司。你們覺得創業公司的邊界在哪裡呢?如何保證自己目前所做的項目不被 OpenAI 或者是其他大廠所颠覆,保持生命力,穿越下一個經濟周期?
System2 Research:我們的能力基本屬于和大模型能力垂直的一個能力。翻譯過來就是,大模型的底座越好,我們 Agent 的能力也就越強。随着我們自己技術、算法的進步,以及落地場景的逐漸成熟,競争壁壘也就越來越強。
除非今天 OpenAI 專門開辟出 Agent 這個方向,All in Agent,那可能會對我們這些創業公司造成降維打擊。但這還存在一個核心的問題,Agent 要變強大,還需要專業的行業數據,今天所有人都在擔心 OpenAI 拿他們的私有數據來訓練,不太可能放心把這些數據貢獻出來給 OpenAI,以後對數據的管理只能是越來越規範,而這對 Agent 創業公司來說就是機會所在。