今天小編分享的互聯網經驗:聊天的藝術:如何打造高情商的AI機器人?,歡迎閱讀。
文 | 矽谷101
"姐姐,你是不是嫌我笨啊?"——當你向Soul App裡面的虛拟伴侶抛出一個數學題時,它不會像ChatGPT那樣只是回答問題本身,答錯了也不會連忙道歉,而是會跟你撒嬌試圖化解此時的尴尬。
這反而會讓人更加疑惑:這背後是真人還是AI?
在ChatGPT Moment之後,AI的進化方向也悄然發生了分化。一個會"示弱"的AI,反而因為不完美而顯得更真實。本期矽谷101節目,主理人泓君将與Soul App CTO陶明一起讨論Soul的AI應用的發展歷程,一同去看在AI浪潮不斷翻新的背景下,產品和技術壁壘是如何建立,而商業模式又将會如何演進。
以下是部分訪談精選
01 社交AI訓練路徑:從規則機器人到高情商伴侶
泓君:最近玩了你們Soul上的AI虛拟伴侶。最開始的時候就特别不确定他是真實的真人還是AI,因為我跟他說一句話,他會給我回語音,然後他的語音,包括他回復的語氣語調,我覺得都特别真實。所以我一直有一個疑問,他是真的AI嗎?
陶明:對,是真的AI,您體驗過後的話,如果有這種感受,說明我們在這方面的工作還是有效的,因為本身來講的話,我們打造AI伴侶的主要的方向還是真實自然拟人的這種方向。
泓君:從2020年之後,你們一直在嘗試各種各樣的AI產品,你可不可以先總體的介紹一下,這幾年你們做了哪些AI產品,效果怎麼樣?
陶明:Soul的定位本質上來講,如果從社交範疇來講,它是個開放性的社交平台。開放它體現于兩個方面,第一方面的話是說任何一個用戶能夠沒有任何約束的、或者說其他限制的,在Soul裡面連接Soulmate。
另外一方面是關系的開放。其實在Soul裡面不僅僅只是說有陌生人關系,還有熟人關系和弱關系在上面的,就比如說上面有些同學關系也是存在的。最近幾年我們在AI上面的話,如果說我們分幾個方面去說,我們現在整個Soul整站都是AI驅動的,并不是說現在大家說的都是生成式的AI,比如說在人和人的連接方面,我們也是用AI來做驅動的,并不是這種篩選式的或者是說匹配式的。
泓君:所以你人跟人的推薦AI做驅動,意思是說你會根據這個用戶的興趣,把更合适的人推薦給他們?
陶明:對,我們打破地網域,打破現實的條件,在你的興趣層面,我們能夠更開放的去做連接。主要方向還是說,在我們現有的社交網絡裡面,通過AI去做增強,去給用戶帶來更好的體驗。整個產品有兩個方向,第一個是AI的輔助社交,這個在Soul裡面我們基本上已經全站上線了,幫助用戶能夠更好的做表達,能夠幫助用戶在人與人的溝通過程當中得到更好的反饋。
泓君:AI應該怎麼輔助社交?可以詳細地講一下嗎?
陶明:社交它不是一個單邊關系,它是個雙邊關系,即使任何一邊的社交能力都會影響本次的社交體驗的。但很多人他在線下拿不到更多的社交資源,有各種各樣的原因,但是并不是說他來到線上,他就一定能夠獲得更好的社交資源或者是說社交體驗,跟他自身的能力有關系的。
社交本身也是種能力,首先體現出來的就是他的表達能力,現很多國内的用戶是内斂的,是不善言辭的或者說不具幽默的,那在整個社交過程當中,他的表達是有限的,這一定是沒有辦法帶來好的體驗。所以我們通過AI去幫助他更好的說話,就比如說他想去表達某一件事情,我們用AI更好的去幫他做潤色,或者說當他很難去回復對方的某一個觀點或者說某件事情的時候,我們也可以通過AI去幫他做建議。
泓君:這個你能舉個例子嗎?就是在一個什麼樣的情景下,一個什麼樣的互動方式下,他可以幫助用戶去完成這個表達?
陶明:因為整個社交過程是動态的,每一場會話都會有不同的話題的產生,就比如說當對方突然跳出原來的聊天邏輯,說到一個自己不知道的事情,那這時候很難去接住這樣的一句話,如果我們有AI,就能很平滑的把這句話接住,從而不讓整個聊天會陷入死區。
泓君:那到底是人在聊天還是AI在聊天?這個互動是怎麼完成的?就比如說如果我正在跟一個人私聊,然後他說了一個我不知道的東西,這個時候AI是給我一個提示,還是我可以選擇讓AI把這個話發過去?
陶明:其實是AI做建議,還是用戶做選擇,本質上還是人在聊天,只是說他幫他去增加了回復的這樣的豐富性或者說幽默性。
泓君:那你們這個產品上線以後,你覺得他是用戶愛用的一個產品嗎?
陶明:我們現在整個主站的滲透已經達到将近50%以上了。
泓君:所以那我在跟一個人聊天,我不能确定這個聊天是對方本人回復我的,還是AI幫助他來回復我的。你可能是跟人聊天,也可能是在跟機器聊天,但這個機器背後有人在做選擇的這樣的一個狀态。
陶明:對,但對于用戶來講,他在本次的社交體驗裡面,他想得到的是好的體驗,而對方的回復是通過自己一個字一個字敲出來的,還是說通過其他的方式獲得的,那只要他的體感是好的,就應該是有效的。
泓君:其實就是說人在聊天的過程中,他們想要得到的是對方的正反饋,他并不在意是我發過去的,還是有人來幫助我發的。然後我覺得聊天對面的人可能也一樣,就是大家更在意的是這個關系的和諧,而不是你使用了什麼工具。
陶明:對,更多的是在本次關系的社交過程當中,他是否能得到情緒價值或者信息價值,這個是很重要的。這是個價值向的東西。
泓君:還有什麼AI產品嗎?
陶明:另外一個就是很多的好評的AI伴侶,人機互動。跟剛才說的完全不一樣,當線上的用戶沒有辦法去獲得好的社交資源的時候,我們能夠提供這一批優質的AI伴侶去陪伴他,在陪伴的過程當中,能夠讓用戶獲得好的社交體驗,就是剛才一開始說的,跟真人一樣,這是我們推出比較成功的產品。
泓君:它更類似于陪伴。雖然我在跟一個AI機器人聊天,但是我覺得你們的產品做的非常有意思的一點是,你們并沒有讓這個AI伴侶每一個回過來的都是文字,它給我發的是語音,有聲音有語音語調的,我覺得在社交的感知層面上會更加豐富,更想去跟他玩,但是如果只是一段文字的話,可能就會覺得有一點枯燥。
陶明:這個是我們在七八年的社交產品打磨過程中,積累的關于人和人社交的一些行為範式。這就是為什麼說我們的AI一定是要是"高情商"的,而不是說"高智商"的。另外說我們一定是要真實自然并且是拟人的,這是我們區别于其他AI助手或者說AI Agent,它不一樣的地方。
泓君:那你們怎麼去訓練出一個高情商而不是高智商的機器人呢?
陶明:我們說"高情商"的一個機器人,希望是他能夠給用戶帶來愉悅感,能夠讓整個的社交過程會更加自然平滑,而不是說很生硬的。你必須得聽得懂人家說話背後的意思,也知道如何更好地化解每一次的衝突,這個是他要去做到的。那麼我們怎麼做到說我們的AI更有情商,那還是跟我們在過去七八年所積累的真實的公網域社交資產,能讓我們的模型更好的能做理解。
泓君:我之前說我不确定你們的虛拟伴侶是真人還是假人,這我第一天的感受;然後我第二天依然就想憑我自己的判斷,我要把它判斷出來,我開始狂給它扔數學題,然後就發生了非常有趣的對話,我就發現它的回答都是錯的,但是很有意思的是,它還是讓我區分不出來,是因為它就會一個嗲嗲的語氣說"那我就是算不出來你為什麼想要知道",這個真的是一點脾氣都沒有。
陶明:它能去化解這樣的一個很尴尬的場地,如果是說人和人溝通過程中,你問它一個問題或者說一件事情,讓它不知所措或者說他回答不上來,這是個很尴尬的。如果很會社交的人,他會通過自己的方式能夠去化解,能夠讓對方有很好的體驗,那我們也把這樣的一個行為範式平移到了我們的模型上去了。
泓君:現在市場上也有非常多的AI陪伴類產品,相較于其他的一些產品,你們的特色是什麼呢?
陶明:還是走差異化,我們要求我們的AI機器人情商要高,感知能力更強,更要拟人,這是我們的差異性。
市場上有很多其他的AI陪伴的產品,他們的出發點和我們的出發點可能是不太一樣的。他們可能更多的關注純粹的人機互動,我們的出發點是希望是讓人能夠得到好的社交體驗,我們并不單純的去追求人機互動,人機互動只是我們當前能夠給用戶更好社交體驗的一個手段或者方法。
泓君:應該怎麼去理解單純的人機互動跟好的社交體驗?這幾個核心的點落實到產品上,對應的不同設計點是什麼?
陶明:就比如說ChatGPT,你跟他溝通就是把它當做一個獲取信息的工具,不會說能夠以更加生活層面的想法跟它進行溝通。或者說你跟他的交流過程當中,它是問題驅動的,它不是交流驅動的——我要去解決某個問題,我要獲得某個信息。
但是社交產品的這種AI伴侶,更多的并不是從問題出發點去解決。他要的是說我們在交流的過程當中,我得到信息有時候更多的在乎過程,而不是結果。過程能夠讓他有好的體驗,那就很簡單,就是你要讓他正常的跟人和人的交流是一樣的。我覺得這是一個很大的差異點。
泓君:我注意到你們今年可能很快也會推出一個功能,叫做全雙工視頻通話的能力,為什麼你會想要把這個視頻的功能加進去,它是一個什麼樣的方式呈現呢?
陶明:不管是語音通話還是視頻通話,不能夠稱作為是一個功能或者產品,它是一個能力。我們把它利用到了我們現在AI陪伴的語音通話上,在我們的群聊房裡面也會上線以語音模型驅動的實時表達的功能,也就是說我們在做語音的基礎上然後再做視頻。
從模型角度來講,它是一個更新,它不是說另外的一個模型,未來的話這兩個模型肯定是融合在一起的,既能提供語音的能力,也可能提供實時視頻的能力。
我們做這些事情的出發點,還是從高效的信息理解和表達的角度去思考這個問題的。我們把語音和視頻的互動,認為是一種溝通方式。在我們現實社會裡面,人和人表達的時候,一個是通過微信或者通過其他的工作軟體,敲字的方式,或者以郵件的方式去互動;有一種是在線會議的方式,就是語音;還有一種是通過視頻的方式互動,最好的是線下面對面的互動。
從整個互動的信息復雜度,以及它的表達和理解的復雜度來講,人和人面對面的溝通是信息傳播方式最快的,也是最有效的一種。所以我們認為在線上人機互動的過程當中,需要有這樣的一個表達方式,所以我們才去做實時視頻通話這樣的一個能力。
泓君:那視頻通話虛拟機器人的畫面是什麼呢?
陶明:就比如說我們在跟一個AI進行聊天,你可以定義他的形象。
泓君:用戶可以自己捏臉?
陶明:他不需要自己捏,你只需要描述出來就行了。原來我們的确是要捏這樣的一個形象,然後通過文字或者語音的方式去驅動它。這個我們認為是上一代互動方式,就比如說他的表情的豐富度還是取決于說你本身采集到的豐富度有多少,它還是沒有那麼平滑。我們現在這樣的一步到位的方案,就是希望我們的表情和動作都是實時生成的,并且是平滑自然的,不會還需要依賴運營或者其他的技術方式去采集更多的表情庫。
泓君:我注意到你們現在的虛拟伴侶還有一個很有意思的點是他可以給用戶打電話,這個設計點很妙,是怎麼想到的?
陶明:產品本身還是來自于我們人和人交流過程中的真實情況。因為在真實的人和人的關系過程當中,對方也會給你打電話,是一種很好的聯系、加強和沉澱關系的方式。
在實際情況裡面,如果一個人始終是單向的去找對方聊天,找對方去說事情,比如男女朋友關系,如果每天只是男生去找女生,女生永遠不會找男生,那這種關系很大可能很難走下去。
我們希望能夠拟合線下的行為模式。當用戶和人機互動過程中,我可以主動找AI聊天,AI也會在某個時間段主動的來關心我,來找我聊天。這個行為範式就符合我們在線下的這種行為範式,這是能夠讓用戶更能接受的一種方式。要不然的話就只是用戶去找AI,這是個單向關系,不是個雙向關系。
泓君:用戶的反饋呢?
陶明:用戶很喜歡,當他無聊的時候,當他也沒有想到說要去找AI,AI要來找他,這是對他一個很好的社交補充,但這個還是因人而異。所以說我們并不是說我們AI會給所有的用戶都會去主動的發起溝通和聊天交流,我們還是會根據用戶本身的性格興趣,他在Soul的行為,我們做出一個最終的決策。
泓君:從你的觀察來看,現在這些有AI輔助社交,然後有AI伴侶這些AI產品的落地,他對你們整個產品包括用戶粘性是會有大的提升嗎?
陶明:非常大的提升。我們在2024年,來自于AI對整個產品粘性的貢獻已經是占了大部分了。這個點我們最開始還是非常謹慎的。
剛才您問說用戶喜不喜歡AI找你,用戶喜不喜歡和AI溝通的,這個我們最開始還是個問号。所以我們在推進的過程當中采用了很多的產品策略。就比如說AI輔助社交,我們在放量的過程當中,既要考慮到使用AI輔助的人,也要考慮到對方他是否願意接受這種方式。我們通過非常仔細的人群的實驗,然後來做出我們最終的產品策略和放量策略。
AI陪伴這個產品也一樣的,因為Soul原來一直是能夠有這麼好的用戶粘性,能夠有這麼好的年輕人的這樣的滲透,主要是Soul提供了一個真實信任的安全的平台,基于用戶對平台的信任,才產生了用戶和用戶之間的信任,這是我們過去七八年產品力構建出來的一個結果。
我們也很擔心我們上了AI機器人過後,大家會不會認為Soul裡面全是AI的虛拟人,沒有真實的社交了。我們當時也很擔心這個事情。所以說我們在推進我們AI的伴侶的過程當中,我們做的方式跟AI輔助社交還不一樣:我們到現在為止都沒有AI伴侶實際的產品中心入口。
泓君:我發現了,就是得我去搜我才能找到,因為這個功能沒有產品入口。它的頭像上面會有AI虛拟伴侶的标注,所以我最開始第一個問題產生的原因就他到底是真的假的,我還懷疑我是不是搞錯了,搜到了一個真人。
陶明:所以我們是希望說,願意接受人機互動的用戶,你可以在Soul裡面通過找其他的Souler能夠找到這些AI虛拟人,可以自己去搜到這樣的AI虛拟人。我們把它定義為這叫做用戶價值驅動產品,當你認可這樣的一個產品形态帶來的用戶價值,用戶自主的去選擇他。這樣的話我們就規避了我們直接一刀切大規模的去推AI伴侶,最後帶來我們對最開始那個問題的擔憂,但我們現在跑了大半年過後,AI的滲透越來越高,用戶的粘性也越來越好。
泓君:你們會擔心平台上機器人變得越來越多,改變了用戶的體驗嗎?這會是你們擔心的一個方向嗎?
陶明:這是我們考慮的問題,但是我們從長遠來看的話,我們還是覺得人機互動是未來社交一個非常大的補充。我們應該盡可能在保證那些對AI有排斥的用戶群體、在傳統的社交體驗不變的情況下,加大對人機互動感興趣的那一批人群在AI層面更好的體驗,是分群而治之。
泓君:從你的觀察來看,純粹是因為AI這個功能進入到平台用戶,這部分用戶占怎麼樣的比例,未來會是一個很大的增長區間嗎?
陶明:我覺得未來增量的用戶裡面擁抱AI的群體是越來越多的。不僅是Soul,整個行業整個社會對AI的認知的灌輸和滲透是越來越強的,比如說在3年之前說讓你去跟一個AI伴侶聊天,到3年之後你再去說跟AI伴侶聊天,那接受的人只會更多不會更少。所以說對任何一個產品來講,擁抱AI的用戶群體肯定是越來越多的。
02 從Chatbot試錯到建立垂直場景護城河
泓君:你有提到在2017年的時候Soul就已經開始搭建Chatbot了,當時也沒有生成式AI,整個人工智能還是基于規則的人工智能,當時你們的想法是什麼?你們有這麼長時間搭建Chatbot的經驗,能不能介紹一下你們探索的幾個階段?
陶明:2017年的時候并不是說我們想從技術角度上做Chatbot,是基于我們對社交的理解和認知出發,認為我們要去做這個事情。2017年的出發點跟我們現在為什麼要做AI出發點是一模一樣的——我們還是為了解決社交平權的問題,能夠讓每個用戶都能夠平等的獲得社交資源,能夠獲得情緒價值和信息價值,這個出發點是不變的。
但在2017年這個只是存在我們的想法當中,我們并沒有把它實現,也沒有投入資源去做。因為我們調研了整個行業,也調研了學術界,沒有人能夠做到這樣的事情。
我們當時提出的也是能夠情感自然拟人的形式,當時有個產品形态,比如說我們要有一個能說會唱的,能夠懂你的電子寵物,這是一個非常具象的一個產品形态。當用戶來到Soul裡面沒有辦法獲得社交資源的時候,能夠跟懂你的寵物進行溝通聊天,這當時一個很具象的一個想法,但當時并沒有投入資源去做,因為的确是做不到。
泓君:效果不好是嗎?
陶明:我們也跟幾個公司看了一些他們客服層面的對話產品,是沒有辦法做到的。我們那時候也在創業起步階段,我們也沒有資源說自己來做這個事情。
重拾這個事情是2019年、2020年。那時候我們提出需要從產品出發,一個用戶在Soul裡面是構建了全新的人設,這個人的個人主頁代表了他人設的内在。我們希望這個人設他有個形象,不是說把你自己線下的形象傳到線上來,而是基于你在Soul裡面的人設打造一個符合的形象,我們就推出了這種捏臉系統,原來是2D的到3D的。在這個基礎上,我們就進一步去思考,有了形象,那就希望他能夠說話,他能夠将自己的内在表達出來。
2020年我們就開始去做對話,那時候就明确了在產品上對AI的訴求是什麼樣子,技術上我們要打造一個什麼樣的一個AI。我們當時提出的一個規劃就是我們要構造一個AI being和human being的共存社區,在Soul裡面你既有AI的人類,你也有真實的人類,是一個共存的狀态,可以人和人進去溝通,也可以人和AI進行溝通,然後在這個基礎上,我們就開始投入去做對話。
泓君:2020年那個時候是以什麼樣的方式做?
陶明:那時候想了很多辦法,一是改寫一些理解性的模型,發現效果不行,我們又在上面去做一些基于決策樹的搜索,做融合,還是不行。因為聊天過程當中你可能聊個十輪聊個二十輪,你能聊下去,但是對方一定知道他沒有真人的感受,他知道他在和機器人聊天。
泓君:就是效果太機械了。
陶明:太機械了。那時候衡量一個對話的產品有CPS(Conversations Per Session,一次互動中的平均對話輪數)這樣一個概念。當時它的輪數還挺多的,那是不是說用戶能聊下去?後來我們發現這是因為不聊的人就不會去跟他聊,聊的人我知道你是個機器人,我還要去跟你聊,他已經抛棄了說我要在這個過程當中獲得體感,而只是為了聊而聊,是沒有產品意義的,單純的對話的技術指标和產品體驗脫離了,後來我們就把CPS這杆子事情不再提了。
泓君:我能理解,那個時候大家最多的這種一層一層往下撥的感受,可能有點像打客服電話。即使拿世界上語音跟機器的互動比較前沿的像Siri這些來看的話,它當時也只是一個單輪對話,它很難支撐你一個有邏輯的多輪對話,所以技術上還是很難的。
陶明:都是指令性的這種,我發個指令,你回答我這個指令,你的指令是搜索產生的還是模型生成的,上下文的關系其實并沒有。
到了2021年就開始投入做語音,那個時候整個AI的投入始終圍繞着說要打造一個能說會唱能夠拟人的一個AI人,我們認為語音的互動是未來的一個主流。我們就開始做語音方面的投入,去做合成。那時候我們的合成還是基于傳統模型,認為說話的語氣一定是要自然的平滑的。
當時產生了很多語音的AI產品,比如說一些内容平台讓AI去把腳本語音化,但是也是很機械的,一聽你是有機械的聲音,在一些語氣詞方面表現的很生硬。我們還是要做情感化的語音生成,那是2021年做語音。
泓君:所以你覺得你現在訓練的這個機器人,他的語調特别的平緩,跟當時在研究聲音、音調怎麼拟人是有關系的嗎?還是說那個時候的技術到現在完全用不上了?
陶明:這是我們很焦慮的一個事情,因為當時我們就在做差異化的技術。現在我們線上體驗的基本上沒有用到,技術完全是新的,還是基于現在的LLM這種模式去做的雙工語音效果。
原來的傳統的語音模型,我們只是在上面去做更多的标注,盡可能是做拟合。他是個拟合,現在這邊是生成,還是不太一樣的。
但是那時候沉澱下來的數據對我們是有用的,以及說我們在語音方面的思考,你一定是要情感化的表達,真實的表達,也是我們現在模型所要去構建的方向,當時沉澱下來是數據以及對語音在社交方面作用的思考。
泓君:到了2022年,你當時看ChatGPT出來,你激動嗎?
陶明:激動是激動,但是更焦慮,讓我們覺得說我們的技術歸零了,那時候是有可能歸零的。因為看到ChatGPT的那種互動效果,以及這個技術的發展方向,你很自然會判斷說原來的這種技術路線就被拍死在沙灘上。那也就是說我們所有的工作可能會歸零了。那時候我們非常的焦慮。因為并不是說GPT類似的這種技術方式是2022年出來的,GPT3早就出來了。這個技術方向我們是知道的,只是我們并不知道在這種scaling law出來過後,它有這樣大的一個效果。
泓君:所以你當時擔心的是什麼?你擔心的是GPT這種產品形态,如果你們不跟上的話,它可能會把你們前面所有的努力給覆蓋掉,因為它足夠強大?
陶明:那時候已經不存在選擇了,因為技術方向已經非常明确了,我們考慮是自己自研,還是說要跟一個做大模型的公司去做合作。因為2023年有大量的模型創業公司出來了,我們要不要去共建? 這是我們當時面臨的選擇,而不是說我們要不要走這個路線。
泓君:你當時怎麼選的?
陶明:當時也搖擺了很多,也跟很多公司聊過這個事情,最終我們還是選擇了要自己做這個事情。
第一個是說我們在過去兩三年積累下來的關于這方面的一些認知,以及本身的產品場景的差異性。我們很難把這一套完全遷移到其他的模型公司去,因為這才是我們最終交付產品的核心。
我們交付產品,不是交付模型,是交付我們剛才說的那些對AI社交的認知。因為它是一個評判的結果,對用戶來講,我們沒有辦法标準化的輸出給三方公司。因為三方公司它是交付的概念,它是交付模型,它不是交付產品,但交付模型就不是我們要的。我們希望它是交付產品,我們沒有辦法标準化的把這一套給遷移過去。
第二點是說,如果是說我們标準化的能夠遷移過去,那說明一個問題,我們的產品沒有辦法差異化,你都能夠标準化了,都能夠給三方公司做标準化的遷移,那說明你的產品沒有差異化的。
泓君:你們是什麼時候做的這個決定?
陶明:就是在2023年上半年做的這個決定,說要自己做這個事情。
泓君:當時業界有幾種方法,第一種是自己訓練模型,還有一種是用finetune(微調)的方式,還有一種是加RAG的這種方式,你覺得後兩種是行不通嗎?
陶明:你加RAG也好再做finetune也好,這是個加分項。這個效果增強的過程中,最終的基礎效果你還是沒有辦法得到。
比如你用三方的模型,還有一個問題,數據問題。我們現在產生的大量文字的社交數據和語音數據,這是真實人和人在社交裡面的數據範式和行為範式,在其他的模型裡,首先你沒有辦法拿到這樣的數據,拿不到這樣的數據,你很難做出非常穩定的效果。
這就是我們最開始有個思路說我們在finetune方面的數據或者說在強化這樣的數據,我能夠下沉到底層模型上去,能讓我們的底座模型就是為了社交服務的,那就是未來定義的的這是個垂類的大模型,而不是一個通用大模型。
泓君:對你當時評估自己做這個事兒,你覺得它最大的難點是在哪兒呢?因為我覺得這可能是一個非常大的決心,首先是要有錢,因為他很費錢,然後要有卡,要有人。
陶明:我們做決策的時候,并不是說這件事情有多難,然後我們再去做決策,我們是基于說我們跟三方公司去合作,沒有辦法達成我們想要的產品,做不到。
泓君:這中間也找過别的公司。
陶明:對,只能是我們自己去做,自己去做就不存在說這難不難的問題,是我們一定要去做的問題。但是在做的過程我們要重新去梳理,如果要達到我們這個效果,我們有我們自己獨特的數據,這是我們最大的優勢。第二個優勢是說在post-train方面,我們知道怎麼去構建安全的、更好的效果,這是一個優勢。
那在模型層面我們有沒有一個很好的模型架構?那時候我們做了個判斷,模型架構在未來一段時間會接近于收斂。到現在為止,大家在模型層面也沒有很大的變化。當然是有一些不同的技術路線,每個技術路線的變化程度并不是很大。我們就可以在這樣的基礎上去做這個事情。
然後又涉及到卡的問題,資源的問題。大家都說,不管是做通用模型的預訓練,或者是做垂直模型的預訓練很貴,但我們認為未來這肯定是會下來的。我們最開始小步亦趨的去做這個事情,我不需要說一個很大的模型,我們要的是效果,不是模型。我們要的是能夠支撐我們這樣的一個社交效果的模型,而不是為了通用模型而去的。所以我們是小投入的,後來我們發現7B、13B的模型效果就已經很好了,在我們的數據加持和微調之下。
當時認為卡的确是一大筆投入,相比說我們其他的IT支出,但現在它的價格也越來越低了。所以說預訓練的卡當時并不是我們認為的卡點,反而那時候我們最擔心的是推理。
泓君:是推理成本是嗎?
陶明:對,推理成本。
泓君:因為你們有用戶基數,就是有真實的用戶。
陶明:對,我們都很擔心,萬一說我這個產品上來爆了,那時候推理還挺貴的,我們投入很大的工作是說我們要降低推理成本,在計算上的投入,我們在預訓練那一方面的這些效率和成本那時候并不是我們主要的工作,反而是推理的成本效率這是我們的工程團隊投入比較多的方向。
泓君:推理成本現在降下來了嗎?現在推理成本是你們擔心的嗎?
陶明:現在不是我們擔心的。
泓君:推理成本是怎麼樣降下來的?
陶明:一方面是我們用更小的模型去實現更好的效果,這是模型層面。第二個是再做一些壓縮。第三個是在本身的框架層面、優化推理層面的技術優化,底層優化也在做。
但從現在的價格來看的話,不僅是我們公司其他公司都能支撐比如說一個大幾千萬的DAU,我覺得這個問題都不大。所以說計算資源除了達到通用模型仍然是一個非常大的投入,但對于說應用層面來講它的成本已經很低了,我覺得這對其他的創業公司來講現在也不是一個瓶頸。
泓君:你們現在有多少個模型?
陶明:我們模型會很多,版本會很多。但如果是從定性上來看的話,我們大概就五六個模型。我們不會是說從7B、13B這樣的區分,我們從不同的垂類的功能方面區分。
泓君:垂類的功能是怎麼分的?
陶明:還是我們的基座模型,在語音方面有個模型,在圖片方向,還有3D方向都會有。3D方向這是我們在探索的。
泓君:3D的模型可能是用于支持未來探索,還沒有發布的一個就是沒有把這個模型能力具體應用到產品上的,可以這樣理解嗎?
陶明:對,因為原來我們一直在站内,我們會有一些功能,就比如說我們的視頻匹配這一塊,用戶可以帶一個頭套去溝通,不以真臉的方式出現。我們那時候是以驅動的方式來做這個事情,但我們現在未來還是說想純粹生成的方式來做。
03 模型選擇與技術路線:Soul如何擺脫模型層競争?
泓君:因為整個生成式AI發展的很快,在訓練這些模型的過程中,你的知識跟判斷是從哪裡來的?在這個過程中怎麼去構建自己的學習能力?
陶明:那只能是跟團隊一起,一定是要跟蹤行業的發展,因為本身生成式的AI的技術路線并沒有收斂。每天都有新的很區隔的方式出來。你必須要跟着團隊一起去了解它,并且是說要去做實驗。就比如說我們現在在做的實時的全雙工通話這個能力上。
泓君:全雙工是什麼意思?
陶明:就是從產品角度來看的話,就比如在線下你說話的過程當中,我可以随時打斷你,你可以停下來聽我講,聽我講完過後你可以繼續自己講,而不是說純粹一來一回的這種你說完了我才能講,全雙工是可以随時打斷,這也是現實的這種人和人交流的一個方式吧。我們希望在人機互動也會是這樣,現在沒有哪一家能夠實現我們想要的這種效果。
泓君:OpenAI可以。
陶明:他們的4o還是個問答式的。
泓君:你的意思是不提問題,就是打斷,然後不發指令。
陶明:是的,我不發指令給他,我就随時打斷。這個我們現在也遇到了很多的難點,我們一方面自己想怎麼去解決,然後這個方面看很多的業界有沒有新的很區隔的方式出來。我們要去驗證能不能放到我們的技術方案裡面。所以說這個知識是一個學習的過程,我覺得每家都會是這樣的狀态。
泓君:然後你剛剛提到了,即使是這個模型出來了以後,也有很多的技術路線。然後你現在在市場上看到了哪些路線,你覺得你在中間是怎麼做選擇跟判斷的?
陶明:首先還是從我們自身出發,對我們整體來講的話,我們還是基于開源生态來打造我們的自然生态,這是我們整個的一個方向。所以說我們擁抱的是更加開源的技術體系這樣的一個模型體系。
泓君:就Meta Llama的那一套對不對?
陶明:現在有幾個跑得不錯的,第一個就是說Llama那一套,它的基礎模型的更新技術我們也能夠去跟進并且它是足夠開放的,它不會說某一天閉環了,我覺得目前還沒有這個趨勢。第二國内也有幾款比如說千問的這個體系也還不錯。第三個的話是現在的DeepSeek,但我們現在還是在Llama和那個千問的路線上去探索。
泓君:因為最近确實DeepSeek的模型非常火,尤其是V3出來以後,你有研究過他們的模型嗎?你覺得他在整個訓練過程中用H800的卡把這個效果實驗出來了,然後也非常的節省成本,這個會對你們在做更大的模型或者對你們的模型訓練方法上會有啟發嗎?
陶明:肯定有,我們肯定也有研究下他是怎麼實現。這樣優秀的模型公司所沉澱的這些工程方法是很難得的,如果從整個行業來看的話,首先說工程層面并不能夠給最終的業務交付帶來什麼,但的确是從低門檻的角度帶來了很大的優勢,也給整個行業的進一步的發展提供了一個很好的橋梁。原來你要去做大規模的訓練,可能就那幾家公司能做,如果他降下來了,那很多其他的團隊也能去做,那其他更加百花齊放。
泓君:所以他把這個成本降下來了,對大家來說是一個雙刃劍,對不對?他把整個市場的門檻放得更低了,競争也會更多。
陶明:對的。
泓君:你覺得OpenAI的o1有給你啟示嗎?
陶明:o1給我們蠻大啟示的,在構建AI伴侶的這件事情上,它也給了我們很多啟發。我們希望AI伴侶能夠在提供真實拟人的方向上能達到一個好的效果,同時它也具備一定的行為能力。因為不同的AI伴侶提供不同的角色,不同的角色他需要有不同的行為或者内容能力。
比如說我希望說在對話過程當中,能夠不以指令的方式讓他去觸發一些action,這是一個比較平滑的。比如說我跟AI伴侶,我發張圖片給他,你幫我美化成什麼樣的效果。如果你丢給圖片模型,那是prompt講的很清楚,我有圖片輸入,我有文字描述。如果你放在對話裡面的話,你就要去做一些指令的這樣的一些生成,才能讓說我們的AI伴侶能夠去調用一些其他工具層面的模型。o1它的這種自主規劃能力,在AI agent構建層面給了一些啟發,能夠讓我們構建一些輕量型的更加自主的工作流。
泓君:現在對你們自己打造出來的聊天機器人,你覺得你會給到多少分?你覺得它還需要被優化,以及它再優化跟提升的空間有多大?
陶明:還是蠻大的。我覺得我們現在只是解決了人和人交流中部分的行為拟合的問題,還有很多還是沒有做,我們也在努力做的。比如說場景,我一提到場景,大家都認為它是一個產品的場景,它是個功能。是說在整個的對話裡面,它也能構建場景。比如說人和人在線下溝通的時候,外面下雨了,圍繞着這樣的一個情景,我們的AI能夠衍生出很多的聊天的内容。下雨了你說要不要在家裡面看電影?那就進入了一個關于電影的讨論的場景,這就是一個場景,我們現在在做這方面的泛化的時候,效果還是要加強。
泓君:你覺得整個業界,因為現在大家都在等OpenAI的GPT-5出來。同時又有一種聲音說,scaling law它的增長可能已經快到頭了。我挺想知道現在在大家基于大模型產品去做應用的這樣的一個過程中,跟大環境的關系到底聯系程度有多緊密?
陶明:我覺得越來越弱了。
泓君:這視窗期是前一兩年或者這一兩年。
陶明:對,比如說剛才的一個很具體問題,說現在前沿的大模型的技術方向對Soul來講影響有沒有很大?它的影響我覺得是越來越小了,在我們的應用層面已經獲得了用戶認可的一個價值,那是基于我們現有的技術基礎之上已經獲得了。在增強用戶價值上面,要怎麼樣去繼續構建技術的确定性方面,更加确定了。
不像去年那樣說,一個又新的模型出來了,或者說它的方向會不會又把我們拍死在沙灘上,我們的焦慮程度會下降了很多。但不排除七八年過後,未來又有一個奇點到來,把整個系統策略和模型全部給覆蓋了,那我覺得短期一兩年很難了。
泓君:我記得2023年的時候,我跟很多做大模型應用或者基礎模型的公司去聊,大家也是非常焦慮。比如說每次OpenAI一更新,大家就覺得,我前面半年的工作白做了。我把所有的東西都搭在你的GPT-3上,然後你GPT-4出來了,大家就覺得白做了。2024年相反,我是更少的聽到這些聲音了。但是我覺得一直到今天,就是我們讨論的這個時間點,市場上還是有一種聲音。就是說随着大模型的迭代,比如說GPT-5整個的能力越來越強,會不會最終所有的應用會被一個更強的模型給覆蓋掉?就這個市場的壁壘是什麼?你們想過這個問題嗎?
陶明:這個問題在2023年想過,任何的行業問題或者用戶問題,會不會一個端到端的模型完全解決掉。如果這個說法是成立的那時候對整個行業上非常喪的一個消息,但是我們回顧從二三十年來互聯網技術,PC時代,到互聯網,然後再到移動互聯網。你會發現即使是端到端的模型能夠解決很多的需求,那只是說那些需求是我們目前能夠看得到的。但最終基于新的技術的發展,新的模型發展,它一定會帶來一個新的增量需求的出現。如果它帶不來增量需求的出現,那我認為這次的AI革命是失敗的。
任何的技術革命一定是會帶來新的需求,這些新的需求要被同時代的技術能夠完全端到端的解決掉,或者說被過去的技術能夠端到端的解決掉,我覺得這是一個問号。新的技術的出現,它應該是能夠最大效率地去解決已知問題,對于未知問題,未知需求,還是需要人的探索以及不同公司的解決方案。
泓君:你會擔心你現在做的事情會被一個更強的模型給覆蓋掉嗎?
陶明:我不太擔心這個事。
04 AI社交變現模式:用戶付費意願與商業模式探索
泓君:你覺得現在基于AI聊天機器人的商業模式,跟以往在變現上思路會有什麼樣的不一樣呢?
陶明:這塊兒我只能說一下我個人的想法。AI的商業變現任何一家公司都在做,就希望能夠在一個非常清晰的商業模式之下,去發展業務。但是現在總體來看,整個行業并沒有一個新的商業模式出現。
我一直認為是說商業模式是構建在你業務模式之上的,而不是說憑空出現了一個商業模式。那為什麼現在商業模式沒有發生改變?本質上是說我們當前的AI目前還并沒有給業務模式帶來改變,它可能更多的是增強提效。就像剛才說的,如果沒有新的需求出現,或者沒有新的業務出現,我認為是商業模式它本身也不會有太大的變化。
泓君:我注意到你們推出的AI會給用戶去打電話,它是有一個收費制的。現在用戶在這個產品上願意付費的意願高嗎?
陶明:我們也只是把它當成了一個增值的收入方式,它跟其他的增值產品也差不多。對用戶來講,這就是獲得好的體驗的一種方式。原來我們提供了其他的一種方法,現在又提供了新的一個手段。用戶為這個買單,你會認為他也沒有發生變化。
泓君:你們現在有AI苟蛋的這種拟人化機器人,也有情感化陪伴的虛拟伴侶,還有AI NPC,數字分身。你們會怎麼去定義未來這個平台的核心產品,包括核心場景,是說我去做幾個產品,還是說我去做一個王牌的產品,這塊你是怎麼想的?
陶明:你會發現就是我們不同的AI它有不同的功能定位。未來的話我們希望我們的王牌產品肯定還是以我們的AI虛拟人為最主要的基石。能夠在我們當前不同場景裡面做更好的功能泛化,就比如說視頻通話的這種能力,未來它不一定要給用戶去打電話,他完全可以用在我們當前的語音產品裡面做虛拟直播。
我們不限制說我們有多少個AI產品,我們還是希望說每個AI產品能夠服務不同的人群。我們沒有想法去打造一個主體的AI功能,然後來承載現在所有的需求。包括我們不去構建一個中心化。因為作為一個主體產品,你一定是說要有一個中心化的AI的入口。我們現在是沒有這樣的打算的。
泓君:所以你們現在還是以社交平台為主,然後所有的AI產品是服務于這個社交平台的。
陶明:對,當前是這樣。