今天小編分享的科技經驗:全網刷屏的Manus合夥人,一年前在做什麼?,歡迎閱讀。
作者 |James
今天,AI 智能體應用 Manus 爆火刷屏,其聯合創始人張濤對外發聲描述產品狀态,他也是親自在群裡發邀請碼的那個人,以及在辦公室裡倒數計時,迎接產品發布上線的人,其個人經歷引發關注。
張濤此前在字節跳動負責國際化產品的戰略規劃與落地,2023 年,他加入王慧文創辦的人工智能公司光年之外,擔任產品負責人,主導 AI 產品的研發與商業化探索。
2024 年 7 月,張濤與首席科學家季逸超(Peak)、連續創業者肖弘(Red)共同創立 Manus AI,并擔任合夥人。他目前主要負責產品戰略、市場溝通及用戶體驗優化。
張濤的即刻頁面
娛樂資本論在一年前的 2024 年 3 月曾經采訪過張濤。當時他在光年之外開發兒童陪伴類 AI 產品 Dodoboo。那時 AI 陪伴賽道非常火熱,我們就他的產品,作為產品經理的方法論,以及 AI 陪伴的一些趨勢做了讨論。
從現在回頭看,裡面大多數預見性的内容,如今已成功應驗,而另一些内容仍有待将來的發展不斷驗證。作為一個十多年經驗的產品經理老兵,他對產品的理解貫穿了前移動互聯網時代,到如今的 AI 時代,體現出邏輯上的一致性。
完整的采訪回放請參考下列視頻号:
以下是張濤在采訪中的部分主要内容摘錄:
" 這一代孩子天生就是 AI 時代的孩子 "
我叫張濤,通常在各個社區裡用 hidecloud 這個 ID。我過去主要做 toC 產品設計和運營,最近五年一直在做 SaaS 產品,前四年做神策數據,最近一年在做飛書的國際化。去年(2023)年中開始做 AI 方面的工作,已經做了 8 個月。在 AI 領網域是 "AI 一日人間一年 ",所以我有很多感悟。
現在(2024.4)正在做的產品 Dodoboo 1 月底上線,是面向小朋友的繪畫增強 App,最初是 GPT 幫我們取的名字。產品比較簡單,網站首頁的視頻就展示了它所有功能。你在右邊繪畫,左邊會實時生成相應的畫作。這個過程不需要輸入提示詞,很适合兒童使用。
娛樂資本論 " 視智未來 " 和張濤連線
我們目前使用的都是開源模型。在影像标注方面,有很多不同的模型可供選擇。我們最初使用了社區中廣泛使用的模型,但後來發現那個模型比較舊,不太适合復雜影像的理解,尤其是針對兒童影像。我們嘗試了幾種不同的影像标注模型,最終選擇了現在這個,并用兒童塗鴉數據集進行了微調。
生成的影像的布局和走勢都是不可更改的。如果只依賴提示詞,我們無法達到現在這樣的效果。我們确實做了圖到圖的生成。為了提高性能,目前沒有實施更多的控制流程,因為這會影響生成效率。
我們現在沒有把畫風選擇直接提供給用戶。主要是在後端進行了一些分類,根據用戶的不同輸入,如純線條勾勒或有色塊的作品,進行不同的處理。所以,你會發現最終生成的風格并不完全一致。
去年(2023)下半年以來,新的技術如 LCM(潛在一致性模型)和(2024 年)2 月字節的 SDXL-Lightning 等技術出現後,影像生成的效率已經大大提高。例如,在我們的系統中,如果運行在級别較高的顯卡上,單張影像生成可以控制在 0.8-1 秒之間,加上網絡傳輸,總時間可能在 1.5-2 秒左右。
我們現在的早期用戶,主要是自己身邊的朋友,他們的反饋非常有趣。
我們在演示強調了一個賣點:提升孩子的自信。但這引發了中國式家長的擔憂,他們認為這可能會讓孩子偷懶。一個朋友擔心他的孩子因為能快速生成精美影像,而失去創造力。這是一個非常有趣的反饋。
另一方面,有些孩子非常喜歡使用這個產品,特别是那些内向、乃至患有孤獨症的孩子,他們能非常專注地使用這款產品,可能畫一兩百張圖。同時我們也有國際用戶。
我們發現成年人也在使用它。有些成年用戶的原始畫作已經非常出色,有個用戶給我們做演示時,筆觸和構圖非常專業,不像小孩的塗鴉。最後我甚至有點慚愧,覺得我們生成的影像沒有他的畫好看。
進入美術教育會是一個有趣的方向,但我們最初設計這款產品時,并沒有想那麼多。
Dodoboo 的願景
現在回過頭來看,我有些不同的想法。我們自己小的時候,人們不鼓勵使用計算器,希望我們能心算。但現在看來,這似乎有些滑稽。
我覺得這一代孩子天生就是 AI 時代的孩子。他們可能會從小就習慣使用各種 AI 工具來增強自己的生活、學習和工作能力。
" 產品必須一開始就盈利 "
現在啟動一個 AI 項目,開發流程和初期的增長策略仍然和傳統的 App 相同。當然,AI 領網域面臨一些獨特的問題。例如,AI 產品實現規模化的方式與我們以前的大多數互聯網產品不同。
坦白說,直到日活用戶達到 10 萬之前,我們通常不會遇到太大的技術挑戰。但 AI 產品與之前的互聯網產品不同,它的邊際成本并不會快速降低至接近零。
所以這就給大家留下了一個印象:如果沒有大公司的支持,這種項目基本上是沒有希望的。實際上,即使是依靠大公司也會有問題。
我認為大公司可能會在戰略上選擇補貼,但一個真正成功的產品,必須在商業上也是成功的,這意味着它必須盈利并有一個正向的商業模式,否則長期很難持續下去。
張濤在產品走紅後負責對外發聲。圖 / 即刻 hidecloud
目前在 AI 產品領網域,我認為大家已經達成了共識。AI 產品不能像以前那樣僅僅追求百萬日活,從一開始就要考慮好商業模式和付費方式。
甚至需要從一開始就考慮好,應該使用什麼規模的模型和什麼樣的模型能力,來服務目标客戶群。有些市場可能需要你使用最頂尖的模型,而有些市場即便如此也可能無法滿足需求。
這可能也包括一些工程上的挑戰,比如首先需要對任務進行分類。先判斷需求,然後将其路由到适合的模型,或者是訓練過的特定小模型來處理特定的問題。
目前在行業早期的研發模式未必是未來的模式。但目前我們在做内部測試的 demo 時,可能會使用最頂尖的模型,這有助于我們驗證想法,确保項目是可行的。如果我們能用最頂尖的模型解決問題,那接下來就會考慮如何進行裁剪和蒸餾,以及如何使用成本更低的方法來解決問題。
這就像是回到了古典互聯網,那時候我們還處于必須嚴格控制帶寬和數據量的階段。現在我們在這個領網域中會用到一些技巧。我通過閱讀論文發現了一些工程優化的方法,這也是一種比較傳統的互聯網工程思路。我認為工程學貫穿了我們人類幾千年的歷史。事實上,很多工程思維方法在計算機出現之前就已經存在了。
" 演示一出現,大家就立刻知道它的價值 "
我們產品目前的最大競争力,可能是對市場和用戶需求的把握。
前一陣子我參加一個分享會,我發現很多 AI 創業者,尤其是有研究背景的,他們對用戶的理解還很淺,沒有對用戶需求的真實感知。他們談論產品時,很少提及用戶的需求和場景,不是說他們的工具去給用戶解決什麼問題。
去年大多數人想到 AI 都是降本增效,但我提出不做效率工具。我做工具出身,但在 AI 領網域,我不想只做工具。如果工具和内容結合,我會更感興趣。
但純工具,比如寫年報或年終總結,一個人一年能寫幾次呢?我們說到 AI 助理,但一個公司可能有 12 萬人,有幾個人真的需要助理呢?我覺得這種需求很難被深入挖掘。
大多數人實際上并不需要那麼高的工作效率。這背後的原因是,整個社會的生產方式和勞動形态還沒有發生根本性的改變。所以,如果你只解決生產效率問題,那就可能是大面上有問題的。
我之前跟他們聊天時沒有提到的一點是,這波浪潮不是 AI,而是 AIGC ——自動生成内容。現在的問題是很多人關注的是生成動作,因為以前沒有這樣的技術。看到一個智能體生成内容很震撼,但這種震撼可能一兩年後就變得平常。
我認為更重要的是内容層面的問題。你生產了這麼多内容,這些内容如何被消費,對人產生什麼樣的影響?——這才是產品的機會,而不僅僅是生成本身。
我們去年 10 月做了一個演示(demo),在小圈子裡測試後,大家的第一反應是希望能在 iPad 上使用,給孩子們畫畫。
那時候很多 AI 產品都是為了展示模型能力而制作,有時候很難明确用途。但是我們的 demo 一出現,大家就立刻知道它的價值。作為一個產品,這是一個很好的起點。
好多年前,有個產品叫 " 你畫我猜 "(Draw Something)。當時我更多的是出于興趣在玩。除了對傳播鏈條有一些想法外,我并沒有深入思考過它。
不過,在開發現在的 Dodoboo 過程中,我們确實回想了 Draw Something,甚至考慮過是否要以社交或娛樂為主。但由于產品需要快速上線,沒有深入考慮其他互動娛樂方面的想法。
Dodoboo 的用戶作品
我們考慮的下一步是建立一個小型社區,核心是畫廊,不是社交。社交產品很容易變得復雜,涉及審查等問題。現在的產品設計,就是把用戶能做的事情限定在一定範圍内。完成一幅畫後,用戶可以點一個按鈕發布到廣場,甚至不需要注冊 / 登錄。
實際上,我們發現產品最有趣的部分并不僅僅是成品圖畫。產品右上角有一個撤銷按鈕,其實你可以一直返回上一步,也可以前進看下一步。
每次畫完圖後,回到最開始,逐步查看整個生成過程,你會有一種感覺,就是那個精美的圖是你自己創作出來的。看着一個東西從無到有、變得精美的過程,是非常享受的。
下一個版本我們會将繪圖過程生成為視頻。我覺得視頻本身具備傳播屬性,這可能是一個小嘗試。這一點确實讓人想起 Draw Something 在社交網絡上分享畫圖和猜圖的過程。
我當然希望產品未來會火,但如何長期維持,這是一個新問題。AI 行業還在早期階段,很難為未來的問題做準備。
" 人類的情感太容易被操縱了 "
在圍繞陪伴的過程中,我們做了一些產品,有些對外小規模發布,也有完全對内的小 demo。在這個過程中,我看到了許多細節和瞬間,這讓我非常有信心。
從中長期來看,我非常看好 AI 在陪伴方向的發展。人類的情感太容易被操縱,我們并不像我們自己想的那麼理性。情感容易受外來因素影響,無論這個因素來自真人還是算法。即使知道這是虛構的,人們仍容易產生共情。
說一下我們做的一個實驗。GPT-4 的視覺模型能讀懂影像内容。我結合這個技術,編寫了一些假想的 " 朋友 " 和 " 敵人 "。然後他們基于我的照片内容進行評論,贊美我,也有批評我。
這個實驗對我影響很大。我雖然是整個規則的 " 上帝 ",編寫了所有的角色,運行了程式,但當他們開始根據我的照片内容評論時,我的内心還是受到了觸動。人類的情感太容易被操縱了。
我們自己的朋友圈還是相對較多,某種程度上擁有社交優勢。發朋友圈或微博,總會有人點贊、評論或轉發。對于大多數人來說,無論是在線還是離線社交,他們的社交圈相對較小,得到的反饋也比較少。我認為對大多數普通用戶來說,無論内容是真人還是 AI 發布的,給予反饋都有其積極價值,并不全是欺騙。
Character.AI 的用戶群體基本上都是非常年輕的,大概 12-16 歲。這些人基本上沒有多少追随者,發的内容也很少有人理會。但他們非常頻繁地發帖,其中大部分内容都與 C.AI 有關,這非常可怕。
AI 作圖 by 娛樂資本論
我們觀察到 AI 陪伴產品的一個典型特征是,大多數人開始是被知名動漫或遊戲人物吸引。但從體驗和用戶訪談來看,如果你持續和一個已知的著名角色聊天,很容易聊崩,因為你對這個角色太了解了。一旦出戲,他就不再像那個角色了。所以我們會發現,通常情況下,用戶長期持續交流的角色,是他們自己創造的,或平台上的一些原創角色。
在許多競品的用戶社區裡,我常看到用戶因為產品的 bug 而大發雷霆。大多數使用者還是年輕人,他們對產品的缺陷非常敏感。有時候他們在群裡的辱罵言辭,讓我這個中年人聽起來都覺得難以忍受。他們不是在罵虛拟角色,而是在群裡罵官方和平台,怪他們破壞了自己的角色。
這就出現另一個問題。當你用 AI 重溫已故親人的音容笑貌,你對 ta 很了解,那麼你們會不會聊崩呢?雖然這感覺像是一個難以解決的問題,但實際上并非無解。
比如,我們可以采取一些措施,規定一些方向。例如明确指出某些東西是假的。我們可以引導他們進行鼓勵性的對話,比如永遠鼓勵東亞的孩子們,這樣他們在成長過程中,會感受到父母的愛和鼓勵。
我相信這會深深觸動東亞的孩子。我們在成長的過程中真的太缺少表揚和鼓勵了。如果有個 AI 爸媽天天表揚你,說 " 孩子,我愛你!" 那該有多好。我現在就有這種感覺,活人在情緒供給方面,很難競争過 AI。
還有一種 AI 陪伴可能是在育兒方面。我一開始覺得生成故事書是個非常好的用例,但它并沒有真正流行起來。我在想可能的原因是,再好的故事書也需要家長來讀給孩子聽,這可能是最大的障礙。
AI 語音互動主要是等待時間太長。沒有模型能像人一樣,在規定時間内回答小朋友的問題。這個可能還需要半年到一年的時間才能在行業内解決。現在已經有了一些方向,但可能還需要一些時間。核心思想是繞過語音到文字——文字到語音的轉換,直接将聲音作為輸入給語言模型,然後模型直接輸出語音。
國内上一代語音助手大部分是基于規則做的。大廠可能都有成千上萬條規則來解決各種邊緣場景,突然讓他們放棄這些規則能力,全面轉向大模型,他們一時半會兒也不敢轉。轉了之後整個體驗會大幅降級。你把哪些場景切給語言模型也是個問題。
長期來看,成年人、青少年、兒童和老年人的 AI 陪伴都有機會。但初期可能是兒童和老年階段優先出現一些應用。因為他們對語言模型的缺點容忍度較高。
" 一些小細節,讓人感到被連接 "
制作一個代理幫助預訂機票,在最後一步,你無法完全依賴大模型。相比之下,制作陪伴類產品對準确性的要求不高。但陪伴類產品仍需要評估產品的有效性。
我們需要确定有效性的最高标準,例如我在制作 Dodoboo 時,最初的動機是同事或朋友看到它後,想給他們的孩子使用。這種直接的動機是有效性的一個重要标準。
圖 /X Hidecloud
我認為有效性在于與產品建立情感上的聯系。比如在進行小實驗時,我們發現一些細微的情感連接。這些連接通常不是巨大的情感衝擊,而是一些小細節,讓人感到被連接。
其中一個重要因素是主動性。傳統的 AI 聊天機器人通常是應激性反應,等待用戶的提示才會回應。但我們發現,一旦 AI 具有主動性,比如自己判斷何時發起對話,或者有時拒絕回答某些問題,這就能建立更真實的情感連接。
例如,如果 AI 總是順從用戶,永遠滿足每一個請求,即使它不想回答也必須說話,這會降低用戶對它的認知。只有當 AI 真正能說 " 不 " 時,它作為一種意識,才真正存在于用戶的精神世界中。
如何在拒絕、表現個性情感的同時,又不 1:1 模仿真人的缺點?我認為這個平衡可以通過數據反饋來控制,最終可能是一個匹配過程。不同的人喜歡不同的 AI 角色,比如傲嬌或甜美類型。所以最終是關于找到适合的匹配。我們已經做了很多年的推薦系統了,這不是什麼難題。
另一個非常有意思的話題是 AI 檢測。我最近讀了一些關于 AI 影像和音頻檢測的論文,有些非常有意思的内容。
一篇啟發性的文章把影像抽成細節豐富,和細節不豐富的區網域。比如主體部分是細節豐富的,而背景則是細節不豐富的。他們先分離這兩個區網域,然後計算這些區網域内像素點之間的關系和密度分布。
在真實世界中,無論是細節豐富還是不豐富的區網域,分布都比較均勻。但是 AI 生成的影像,在細節不豐富的地方,整體頻率較低;而在細節豐富的地方,會投入更多精力。這就導致整體頻率分布不均,從而可以區分出哪些是 AI 生成的。
大自然中萬物平等,但 AI 會選擇性地處理,導致信息元素的分布不同。既然已經意識到了一些問題的存在和解法,說實話,可能不到半年,AI 生成影像的質量就可以超出普通人的辨識範圍。
" 開源能趕上 ChatGPT 嗎?"
我認為 " 用開源技術能趕上 ChatGPT 嗎?" 這些争論不太重要,因為我們做產品的考慮的是手頭上的資源和能力有哪些限制,它能做什麼,與哪些用戶需求相匹配。這才是我們要做的事。
就語言模型而言,很難具體說開源技術大概相當于閉源領跑者的什麼水平。對于多模态方面,某種程度上開源領網域可能更先進一些。
大語言模型就像登月工程,開源領網域如果沒有足夠數據集和訓練能力,很難快速趕上。但多模态方面,除非是非常大的訓練量,否則很容易跟上。有時候開源的一些工作,比閉源的商業模型效果更好。
Sora 也屬于那種大力出奇迹的例子。我最近閱讀了很多論文,它的結構已經被基本分析清楚,沒有太多秘密。它的發展就是大算力出奇迹。
現在重新造輪子的現象嚴重,科研領網域就是這樣。做範式創新的人很少,大多數人在基礎上做性能優化。有些工作比較重復。範式創新之後,也有人在這基礎上微調,認為是創新,但我看來可能不夠突破。
但開源領網域好的一點是,真正的範式創新得到認可,并沿這個路線發展。這裡面我沒有看到嚴重的邏輯衝突。
話題互動:
你希望 AI 幫你做哪些工作?