今天小編分享的科技經驗:對話超參數:Agent誕生于遊戲,最終會走進生活,歡迎閱讀。
作者 | 凌晨
編輯 | 鄭玄
復雜性科學的奠基人布萊恩 · 阿瑟總結:「新技術誕生于已有的技術組合。」
超參數科技成立于 2019 年初。時間上,是如今被稱為上一代 AI ——即「模式識别」,浪潮頂峰的尾巴。泡沫尾随其後。那時候,OpenAI 和 DeepMind 還專注于用強化學習 RL(Reinforce Learning ) 教 AI 玩遊戲。優化 LLM 輸出的核心方法 RLHF 也誕生于彼時。
當下,在 Scaling Law 邊際效應遞減的時候,技術界又将目光投回了強化學習 RL。于是,Scaling Law+ RLHF 成為目前最受關注的技術組合之一。
超參數創始人劉永升是騰訊圍棋 AI「絕藝」、王者榮耀 AI「絕悟」項目負責人。他也是在用 RL 教 AI 下棋、玩遊戲中,對 AI 產生了信心。「像訓練一個小朋友一樣,看到 AI 從什麼都不會,到慢慢學會各種本領 …… 最終看到 AI 做出人類做不出來地動作,衝擊感太強了」。
也是最初對于 AI 的信心,讓他和團隊從騰訊出來,成立了超參數。這之後,外界對 AI 信心,從頂峰降至谷底,又迎來了 2.0 的高潮。
在大模型出來之後,聊起遊戲 AI 時,不時會聽到新生代的創業者,将超參數定義為「上一代」。而市面上,的确很少聽見這家公司的聲音。
最近,極客公園和劉永升做了一次交流,請他講了講從 RL,再到 LLM+RL 一路走來做的事情,正在推進的 AI- Native 遊戲項目,還有他對遊戲 AI 的看法。
超參數 科技創始人 & CEO 劉永升
01
遊戲 Agent:
從比人強、到拟人、再到有溫度
極客公園:LLM 出現以來,人們開始讨論 AI 對遊戲領網域帶來變革,你觀察到這個領網域裡出現了怎樣的變化?
劉永升:我觀察到兩個方向。
一個是能不能通過 LLM 和 AIGC,用更低的成本產生更多差異化的内容,目前能看到生產各種素材的嘗試。另外一條是沿着 GameAgent 的路線,能不能讓遊戲裡面的 Bot、NPC 變得更有生命感。
以前,我們通過強化學習的方式,能讓遊戲裡的 Bot 變得很厲害。但是這僅僅是遊戲體驗的一個方面,玩家還是希望更有差異化、以及人性化的體驗。
很多人認為遊戲中加上了 AI 能力就是 AI 遊戲,我們認為這是一種「摻水」,或者說是對 AI 遊戲标準、對自己的作品的一種「寬容」。有些界定,最好是能比較清晰的。以 AI 遊戲來說,AI 從遊戲的底層架構開始就應該發揮作用,而不是加點 AI 的邊角料就說自己是 AI 遊戲。
極客公園:怎麼理解「拟人化」的體驗?
劉永升:我們以前做強化學習,讓遊戲裡的 Bot 能力變得很強,甚至比真人還要厲害。但是對于玩家來說,希望在遊戲裡遇到的 Bot 不要完全碾壓自己,TA 能夠對我好,有溫度。比如我在遊戲裡面遇到的隊友、角色也能夠跟進我的要求。
我們之前通過 SL(Supervise Learning ) 和 RL(Reinforce Learning)結合起來,能夠解決在操作上「拟人」的問題。
比如物理上的一些限制,人在遊戲操作裡不能夠瞬間 180 度轉身,決策一次需要 0.1~0.2 秒,這些限制對于 AI 來說不存在。
通過建模,我們可以把人在遊戲世界裡操作時的限制、或者模式寫進去。這是我們以前解決比較多的一個點。
極客公園:在 LLM 出現之後,技術可以對遊戲體驗的提升帶來哪些影響?
劉永升:玩家也會希望 Agent 在遊戲世界的行為更像人,跟人的互動更加豐富,(這意味着)Agent 不僅能夠響應玩家的命令,還能夠主動地向玩家提出一些請求。
這種效果在 LLM 技術出來之前,用之前的一套技術棧滿足互動性的需求,是比較難的。
我們的目标一直是提高 Agent 的自主性和互動性。在 2021 年之前,我們一直在提高自主性,讓 AI 在復雜場景裡做決策。在 2021 年我們發布了「獵戶座 α」,相當于突破了 3D 環境裡的 GameAgent,讓 AI 可以玩射擊類的遊戲,這也是全球範圍内我們最先做出這個成果。
極客公園:似乎是 LLM 出來之後,像斯坦福小鎮這樣的研究出現之後,人們開始對 Agent 在遊戲裡的具體形态有了更多想象。
劉永升:現在,Agent 除了實現自主決策是不夠的,還需要具有的「互動性」,也就是它們之間彼此互動產生足夠多的内容。于是我們做了「活的長安城」這樣一個城市 Demo,裡面有很多不同背景、不同職業的人,他們之間有各種復雜的關系,形成自運轉的一個小型社會。對應這個 Demo 同時發布的叫做「遊戲 NPC 生态技術」。
在 2019、2020 年的時候,我們讨論過 Agent 這個概念。但是那個時候,Agent 會翻譯成代理,近一兩年才翻譯成「智能體」。
如果在當時的環境下,翻譯成代理跟别人去介紹,對方完全會一臉懵逼。所以當時我們就退而求其次,叫做 GameBot。
極客公園:對于未來 Agent 的發展,會怎樣設想?
劉永升:未來我們的生活中會出現越來越多 Agent,比如越來越多的機器狗、無人機。某種意義上,機器人屬于 Agent 的一種,未來的硬體、具身智能也會越來越發達。
具體到遊戲領網域,Agent 也會走出來,因為你在遊戲世界和 Agent 有大量的互動,它會加深對你的了解,你對他就會產生很強的羁絆,這種羁絆是可以延續到生活中的。
那麼當遊戲的周邊實體出現,比如遊戲裡的一些角色,就能夠變成你生活中的高級玩具,他能夠和你一起創建 Both Reality,在遊戲世界與你探索,在生活中與你進行各種互動。所以我們認為未來是 10 億人和 100 億 AI 共同生活的世界。
02
遊戲研發是一個非常復雜的系統工程
極客公園:「活的長安城」這個虛拟城市 Demo 對應的「遊戲 NPC 生态技術」,這個技術棧要怎麼理解?
劉永升:在 Agent 的技術拆分上,我們和大多數團隊的處理方式都一樣,抽成不同的模塊,Control、Plan、Memory、Reflection 等。這是每一個個體,也就是一個 Agent 的底層架構。
此外,這個生态需要更好地運轉,也就是 Agent 和 Agent 之間更好地互動,需要有更上層的設計。可以将它理解為一個「事件的觸發器」,進行 top-down 的控制。如果沒有這種 top-down 的控制,只靠底層的湧現,生產的内容很快就會讓人覺得索然無味了。
實際上最難的是在頂層要做多大的控制,即事件觸發。某個事件觸發之後,會改變遊戲世界的很多狀态或數值,進而影響到最底層的 Agent。
很像人和國家的關系、國家之間的關系博弈,(一個頂層事件)會改變很多東西,再進一步傳遞到個體,個體也會受到影響。在沒有大模型之前,或者是大模型沒有這麼強的時候,「事件觸發」做起來是挺難的。
極客公園:需要寫很多規則?
劉永升:要依靠策劃,并且做大量的修改。但是我們發現像 GPT-4 出來之後,上層的事件觸發和 LLM 結合起來,是比較有效的。首先,大的事件不會特别高頻,不會時時刻刻變化。第二,發生變化之後,傳遞到底層「人們」的行為發生變化,也會有一個過程。
極客公園:底層的 Agent,和上層觸發器之間的如何聯動很關鍵。
劉永升:我認為最牛逼的就是這樣一套全新的體系。底下的互動,也會影響上層事件觸發的邏輯。如果只是 Bottom-up,相當于只給了一個起點,具體會發生什麼,完全是不可控的。如果我給的是很多關鍵節點 a、b、c、d、e。這些節點是确定的,但是每個節點之間怎麼走,是交給 AI 自己決定的,但是整體主線是 make sense 的。
極客公園:目前這套技術框架,有沒有應用到具體的遊戲開發中?
劉永升:我們最近在和一個 Steam 遊戲團隊合作,把這樣的技術架構落到一個商業化遊戲裡面去。
關于太空商人和經營類的遊戲。大致設定是在太空裡有很多星球,有很多 Agent,而 A 國和 B 國之間的關系會影響到商人之間的經營。比如兩國關系緊張了,可能 B 國就突然不跟 A 國做生意了,或者提價等等。
極客公園:這套新的技術框架,應用到遊戲開發的過程中,最大的挑戰在哪裡?
劉永升:對現有遊戲研發管線造成了很大衝擊。
現在的遊戲研發比較追求确定性。而遊戲研發本身是一個非常復雜的系統工程,有很多不同工種、不同專業的人參與進來,也有非常嚴密的項目管理。
AI 最大的特點是不确定性,怎麼讓對确定性要求非常高的一套管理軟體,去兼容不确定性,是很難的。
比如合作中經常會發生 AI 和策劃同學都崩潰了的情況,怎麼把雙方都梳理好,這裡面臨巨大的挑戰。
這也可以解釋,為什麼所謂的 AI-Native 的商業化遊戲還沒有出來,因為你不是有個想法就行,具體到團隊付諸實施的層面,經常會被整瘋了。要不做遊戲的瘋了,要不做 AI 的瘋了。(笑)
極客公園:那就超參數自己探索的經驗來說,有什麼心得?
劉永升:團隊很重要。選人的時候,對團隊的要求變高了,真正有信仰的人,瘋了一段時間之後,又能冷靜下來,具體去探讨怎麼把這個問題解決。對于整個項目而言,耐心程度要更高一些。
這裡面,除了 AI 的不确定性,最終的整體遊戲體驗也有不确定性。那麼整個過程中就不像傳統遊戲的 Milestone,很夠很清晰地建立對下一個版本的預期。
比較難建立預期的時候,團隊怎樣保持住凝聚,就需要内心強大。
03
堅韌是機緣巧合
你身上就具備的某種東西
極客公園:外界常常将超參數視為遊戲 AI 公司,但是似乎這和超參數對自己的理解有所不同?
劉永升:我們也很無奈,可能我們身上的「遊戲」标籤比較重,我們只是把遊戲作為一個 AI 技術迅速落地的場景而已。
此前,遊戲是一個适合強化學習、無監督學習迭代的場景。那麼現在 LLM+RL 的技術棧,依舊是合适在 GameAgent 的場景中去迭代。
極客公園:畢竟從商業化角度而言,超參數約等于是中國最大的第三方 AI NPC 供應商。
劉永升:作為技術公司,我們不像 DeepMind 有大公司養活,所以我們需要考慮商業化,遊戲領網域的商業化我們做的的确不錯。
我們也在其它的領網域嘗試應用,比如将 Agent 技術應用在低空交通領網域,包括自動駕駛。還有一個非常重要的方向叫做 Agent based simulation,比如我們在和一個大學合作,對古代的城市進行模拟,對經濟系統中人的行為進行模拟。
很多復雜系統不能歸納推理,利用 AI 技術将一些場景模拟出來,再返回生活的場景,能夠解決一些問題。
極客公園:怎麼看今年夏天谷歌推出的 AI 遊戲引擎?
劉永升:如果他們想做一種新的遊戲引擎,去取代現有的引擎,我覺得會很難。現在的遊戲項目已經是一個超級復雜的工程,有非常復雜的管線的管理。有内容、運營、商業化的,很多不同的要素。如果你想讓 AI 進行端到端的嘗試,非常不利于人與人協同開發。即使現在生成的視頻,最後要用起來,還是需要人做後期的處理。
如果作為視頻生成的加強版,除了呈現還增加了互動,我覺得是一個比較好的科研項目。能夠讓 AI 更好地理解物理世界。因為生成内容于對一致性的要求更高,如果真的能夠解決一致性,勢必對物理世界的理解會更深。
極客公園:那怎麼看前不久一家初創公司實現的實時可互動世界模型 Oasis?
劉永升:現在挺多人會嘗試用自然語言聊天的方式來實現一個遊戲,我自己也會跟進一些這樣的項目。我自己最大的感受是,不見得寫代碼就會比語言更復雜。
極客公園:但是降低了門檻。
劉永升:所以我傾向于認為,未來通過語言互動生產的内容,很難做一些非常復雜的系統,因為復雜的東西,你要用語言描述出來其實是很難的,效率也很低。
極客公園:這樣的視角,或許與超參數這些年作為一個成熟技術的供應商有關?除了技術突破之外,也很注重工程的穩定性,效率等因素。
劉永升:碰到這個話題,我挺想多說一點。很多時候,大家一講到技術,就會更多講算法,比如在強化學習的時候,大家會對 PPO、DQN 等很感興趣。
但是在這次大模型出來之後,大家開始注意工程。比如讓 10 萬塊 A100 或者 H200 并行,面臨大量的工程挑戰。
從我的視角去看,這僅僅是 offline 的工程,還有另外一塊非常重要的點是 Online,就是模型怎樣去 delivery 服務。
特别是像我們需要在全球去提供服務,在南美、東南亞很多地方,IDC 不具備部署新型 GPU 的條件,這種時候要提供實時的服務,本身就是一個巨大的難題。我們過去一直在解決這些問題,比如如何讓壓縮過的小模型在 10 年前的 CPU 上都能夠跑起來,做大量的壓縮和預測,在網絡質量差的情況下也做到低延時。
看到大家現在重視工程,比較欣喜。我也相信接下來,過去兩年積累起來的大模型的能力,真的去大規模服務的話,高并發、低延時的場景,會遇到很多 Online 的巨大挑戰。
極客公園:創業者這麼多年,肯定經歷了很多的挑戰,其中也有起起伏伏,有什麼體會特别想分享的嗎?
劉永升:我對自己比較震驚的一點,就是我覺得自己肯定不會犯的錯誤,我還是老老實實犯了兩次。從理智角度來講,你覺得自己絕對不會犯這個錯誤,但還是犯了——就是不夠聚焦。
大家都知道,創業應該聚焦,用有限的資源去做最重要的事情。道理都是知道的,但是我為什麼還會犯錯誤,我自己想這裡面的原因是什麼。很大一個原因是,之前在大廠各方面資源支持比較充足,也趕上了趨勢,加上團隊很給力,在很長一段時間裡呈現出「沒有做不到,只有想不到」的狀态。慣性或者說潛意識裡就會過于樂觀。
到今年 4 月份之後,我們深刻認識到要有敬畏之心。經歷過教訓,會告訴自己一定要控制好自己的手腳,不要分兵,是一件很難很難,但是非常非常重要的事情。
極客公園:聽員工說,你經常給大家寫内部信。最近的内部信,有寫到什麼?
劉永升:上次我寫的内部信,我最喜歡的是标題,「堅韌如歌,随風起舞」。像堅韌,也是很難通過後天去習得的,是機緣巧合你身上就會具備的某種東西。
「最後,我想與大家分享一篇最近讀到的英文文章的标題:Whispers of Resilience: Dancing with the Winds of Change,挺難完美翻譯出英文的味道。最打動我的是 Whispers of Resilience 這個短語,它以一種獨特的方式描述了身處困境時的堅韌,如輕聲低語,既輕盈又自信,是一種内在的、持久的力量。它讓我聯想到古希臘吟遊詩人荷馬,荷馬的堅韌與「Whispers of Resilience」中的力量如出一轍。他在失明、孤獨的境遇中,依然創作出傳世的史詩《伊利亞特》和《奧德賽》。他沒有被命運打倒,而是以音樂和詩歌為武器,描繪戰争與漂泊,傳遞希望與勇氣。荷馬的詩句,猶如微風中的低語,在逆境中保持優雅與從容。他用藝術為世界帶來光明,用内心的堅定與樂觀,告訴後世:即便面對風暴,也能與命運共舞。」