今天小編分享的科技經驗:Anthropic CPO深度訪談:從DeepSeek能學到什麼?,歡迎閱讀。
近日,Instagram聯合創始人兼Anthropic首席產品官Mike Krieger在一次對話中表達了對人工智能世界的價值創造的看法,以及DeepSeek帶來的啟發。
他認為,模型随着時間的推移會越來越不同,而不是變得更加相似。對于 DeepSeek,他表示有些人對 DeepSeek 中的尖端研究團隊感到驚訝,但如果留心觀察,這并不令人意外。
以下為對話要點:
展望前方未來的人工智能驅動的十年,最有價值的地方存在于那些擁有差異化市場進入策略(GTM)、獨特行業知識或只由你掌握的特殊數據的領網域。理想情況下,這兩者或三者皆具。
人工智能與產品設計的關鍵在于——你必須在展示未來和預測模型目前所能達到的邊界之間找到微妙的平衡。
不要等待模型變得完美,要在這個領網域探索,因當前模型的不盡如人意感到沮喪,并積極地嘗試下一個模型,以便你能最終實現你心中的構想,只要模型能夠具備更強的能力。
成為一家公司的合作夥伴,實際上是要提供 AI 合作而不僅僅是 AI 模型。
要提高模型性能,圍繞于如何結合原本的人類數據并生成合成環境的叙事是必須的,之後能借助合成環境的路徑探索。
我們希望将該流程盡量透明化,讓使用者不會有困惑,不讓模型無法理解清晰問題,或在未匹配情景下執意進行解釋。這一差距随着代際變化在縮小,但我們仍需将其進一步縮小。
模型會随着時間變化,產品也會随之改變。如果沒有良好的評估框架,甚至未做到回歸測試,發布產品後過幾個月便會面臨負面反饋。
我不确定人工智能產品的"公式"是什麼,但我認為它應該包含類似的元素,例如模型個性、產品框架的規範性以及難以量化的產品氛圍,我不知道。
低估中國在人工智能前沿領網域進行訓練(尤其是獲得算力之後)和持續創新的能力絕對是錯誤的。 一些中國產品已經形成了差異化優勢,并在中國國内市場發展壯大,然後走向海外市場。TikTok 就是一個很好的例子。
DeepSeek 的另一個成功之處在于產品。他們很快就推出了一款功能完善的 iOS 應用。這促使我們思考,需要更快地将想法推向市場,不必過度追求完美,而是要勇于嘗試,從實踐中學習。
一方面,模型和模型基礎設施需要更好地從代碼庫和代碼審查中學習,以便它們能夠產生符合公司風格的代碼;另一方面,我們如何從主要是代碼編寫者轉變為主要是模型的委托者和代碼審查者。我認為這就是三年後的工作,提出正确的想法,進行正确的用戶互動設計,弄清楚如何正确地委托工作,然後弄清楚如何大規模地審查代碼。
如果有什麼不足的話,我認為我們在兩方面都稍微投入不足。一是加快第一方產品的迭代速度,這目前是我的主要關注點;二是在API方面,我們如何構建超出"輸入輸出Token"的抽象。每次我們這樣做時,我們都會收到很多反饋。
未來AI的價值在于差異化
主持人:
我想從一個更具挑戰性的問題開始:作為一名風險投資者,我需要确定未來的價值在哪裡。看看今天的世界,我有些迷惑。因此,我的問題是,當我們展望前方未來的人工智能驅動的十年,價值将源自何處?
Mike Krieger:
我沒有完美的答案,因為這就像透視水晶球。我的感覺是,最有價值的地方存在于那些擁有差異化市場進入策略(GTM)、獨特行業知識或只由你掌握的特殊數據的領網域。理想情況下,這兩者或三者皆具。
因此,在金融、法律和醫療等領網域的公司,例如有的醫療行業,接觸後我發現其復雜性是極高的,前期工作并不吸引眼球,實際上也不是你能在加速器或短時間内完成的。但正是這些基礎工作将創造出持久的價值。而讓你在長期内保持競争力的關鍵在于能銷售到這些領網域,并對其有獨特理解,随着時間的推移不斷優化。
當你提到基礎工作時,你提到的差異化市場進入策略(GTM)和數據池,這一代人工智能浪潮是對現有的垂直軟體即服務(SaaS)公司有利,還是對新創建的底部公司更有優勢?
這是個很好的問題。我認為這兩者都有可能。在最高層面上,人工智能與產品設計的關鍵在于——你必須在展示未來和預測模型目前所能達到的邊界之間找到微妙的平衡,因為你希望設計出三個月後能用的產品,而這依賴于快速的技術變化。
但不要過度承諾卻未能實現,因為那将破壞信任。如果你是個初創公司,你或許能稍微過度承諾一些,因為人們願意嘗試你新產品。
但如果你是家已有的垂直化SaaS公司,若你說我們新增了人工智能,結果用戶試用後覺得效果并不理想,或者他們覺得"我以為它能完成這些事情",而最終只做好了其中兩件。對于這兩類群體來說,他們面臨着不同的挑戰:前者有成熟的產品和用戶行為,他們希望能預測未來的趨勢,而又不得不考慮不讓現有客戶感到疏離。我們可以深入探讨這個問題,我認為有一些有效的模式可以做到這一點。
而對于初創公司來說,或許他們尚未擁有數據,而是需要一些初始的瞭望客戶,或許和潛在客戶還未建立關系,或者他們對于人工智能(AI)在某個特定行業或領網域的影響依然存在假設,因此他們的差異化并不在于已有的關系,而是對未來的描繪,以及在能夠承擔風險的公司内找到快速提供價值的方法。
關于初創公司建立在未來模型基礎上的問題,這是一個相當具有挑戰性的時刻,因為初創產品的質量極大地受制于當前模型的質量,模型變化可能會對初創公司的產品表現產生重大影響,無論是在編程軟體還是法律平台等領網域。我們應該建立在今天已有的基礎上,還是要着眼于未來所預計的模型?
這是個很好的問題。我聽過不少人說,我的初創企業直到采用Claude 3.5 Sonnet後才算真正的初創公司,但我聽過企業家說,這家公司直到某個模型突破之後才算是一家公司,準确率從95%提升到99%,對這個行業而言,這樣幾乎已經足夠了。或者從70%提高到90%。
但如何判斷這樣的轉變呢?有時,企業家們在某個特定領網域(無論是協助編寫代碼、法律分析,或是醫療保健等)與壁壘作鬥争,真正拼湊出來的東西,或許被形容為"拼湊成品",實際上是難以在價格上具備競争力的,因為它依賴一個無法由底層基本模型支持的高級模型。
然而,這些工作依然值得,因為當模型真正到來時,你并不是從零開始。因此,往往那些從模型生成轉變中受益的公司,并不是在那一天才開始的,而是那些已經在努力抗争的公司。
舉個例子,Cursor 有人向我展示了一份從創始人開始在Hacker News 每日提交的列表,經過反復嘗試,終于成功,但這并非是他們的第一個產品或第一次迭代,他們在嘗試與不斷努力,究竟多久我不清楚,但顯然并不是簡單通過模型的突然興起取得的成功,而是這些公司在構建過程中積累了必要的知識與經驗。
所以更簡潔地說,不要等待模型變得完美,要在這個領網域探索,因當前模型的不盡如人意感到沮喪,并積極地嘗試下一個模型,以便你能最終實現你心中的構想,只要模型能夠具備更強的能力。
從DeepSeek中吸取相應的經驗與教訓
模型層中若沒有差異化的數據遊戲,是否依然存在價值?這是差異化市場進入策略的博弈,你怎麼看?
我認為這是幾個不同的方面,特别是基礎模型層的成功,我認為在市場中長期投資的三個關鍵要素是:第一是人才,我知道這很難量化,例如,人才意味着什麼,人才密度又意味着什麼,但是人才會帶來更多人才,對吧?你會成為一個吸引人才的地方,尤其是當團隊圍繞共同目标或故事時,我在 Anthropic 清晰地感受到這一點。
我非常喜歡我們的研究團隊,感受到幾乎每個月都會有重磅的新成員從其他實驗室或者學術界加入,并且這需要被培養和維持,因為人們是自由的,可以選擇自己想做的事。所以,這一點至關重要,因為要保持在前沿,需要的不僅是不斷重復既有的工作,而是找到正确的突破口,以上是其中之一。
第二,模型随着時間的推移會愈加不同,當然,有很多相似的基準在被關注,但 Claude 具有一些特定的特征,并且 GPT 也有其特性。它們各自有優缺點,從模型的個性與表現來看就有所不同。
對于我們來說,與編程領網域有關的就是我們一直追求的重要方向,這并不是巧合,同時也不僅是因為看到這個領網域有發展趨勢,更因許多公司依賴于我們的基礎模型來提供編碼服務、或正在進行智能規劃,這激勵了我們在強化學習方面的下一步構想。第一點是人才,第二是更深入的關注點與模型特征,最終打磨出更具體的對策。
第三方面,我之前在 DeepSeek 發布後曾經歷過很多人向我提問。
DeepSeek 對你們意味着什麼?
在技術層面,我們自然能從其產品中吸取相應的經驗與教訓,但從市場進入及市場定位的角度來看,我們與公司間建立的不是單純交易式的關系。
我們的目标不僅僅是他們向你發出 API,而只是為輸入Token和輸出Token的交換。而是:我希望和您成為長期的人工智能合作夥伴,攜手幫助您與應用 AI 團隊共同設計產品。我想與您一起構思,我想的思考不僅僅是 API 還有未來的工作。
因此,成為一家公司的合作夥伴,這聽起來像公關策略,但實際上是要提供 AI 合作而不僅僅是 AI 模型。如果你只停留在原有基礎上,可能導致新的挫折,或者拿不住最優秀的人才,相信只需在每一項基準上進一步改進模型就可迎刃而解,同時将 API 視作智能交換的工具,而不去思考如何更深層建立 AI 合作關系。
如果做不到這三點,将會面臨挑戰。我想繼續深入探讨編程方面,但我必須先了解,你認為最大的阻礙是什麼,因為我從不同人的觀點中聽到的看法完全不同,計算、數據還是算法?
如何将訓練環境變得更高效、貼近現實挑戰,而不是簡單處理一次性情景?我知道 Alex 也在考慮這個問題。這只是我所提到的更廣泛問題的一個非常具體的表現。甚至在軟體工程領網域,軟體工程師的工作并不僅僅是生產代碼,而是理解需要造出的東西,梳理時間表,與產品管理團隊密切配合,深入理解需求,洞悉其為用戶構建的用戶用例。
然後可以對其進行測試和迭代,然後在另一端獲得用戶反饋,如果他們正在構建某種面向公眾的產品,這是一項極端復雜的任務,而目前并沒有有效的評估标準。我們常常把軟體工程的基本任務稱為SWE基準。我們開始在評估方面有所改進。不過,這仍然非常復雜,這在最好的情況下是這樣的。它不斷演變,就像人類的最終考試一樣,非常像,需要多步推理。
這是一個很難捕捉的復雜環境,對我來說,弄清楚如何更好地将其分解為組成部分——這可能是故事的一部分,但同時也要從整體上考慮——這是至少在一個領網域中取得進展的最大障礙。這個領網域的問題是,模型如何從在某些極端領網域表現出色,轉變為更具一般性的、有用的合作夥伴。
在深入探讨數據方面的那些專業產品之前,我希望聽聽您的看法:展望未來,模型中将更依賴合成數據,還是人類數據仍将是推動模型演變的主要數據來源?你如何看待這一點?
我認為,要提高模型性能,圍繞于如何結合原本的人類數據并生成合成環境的叙事是必須的,之後能借助合成環境的路徑探索。Claude 最近在玩 Pokémon,這給我們工程團隊帶來了一些樂趣與啟示,大家在做什麼,他們正觀看着 Claude玩Pokémon的 直播,我認為,遊戲特别有趣,想象一下你在玩同樣的遊戲時,約束條件不同,實際上如果定義不清晰,成功度的定位會變得更為復雜。
雖然我從未玩過 Pokémon,但通過學習直播也能獲得些許見解。重要的是要找到能将黃金路徑轉化為合成環境,同時探索多樣的解決路徑,在穩定中尋找模型的改進。因此,我深信必須結合二者。
我認為最佳模型來源于對優秀人類代碼的結合,同時在此基礎上,能夠探索更多的路徑。另外,需要強調的是,在如何衡量、評估與引入品質數據這一領網域仍缺乏适當意識,我将使用一個較寬泛的詞,即"氛圍",即使用模型的感受如何。我們無法真正知曉,直到我們坐下來真正體驗一下。
當然,這在一定程度上是一種良好特性,因為它展現了類似人類的情感取向,但這也代表我們的回歸測試顯得尤為重要。盡管我們經歷多次更新,但人們往往會說"哦,Claude 看起來更友好,但更簡潔",或者說"Claude 更樂意回答我的問題,但希望提升其在創意寫作領網域的表現",這其實是難以評測的。與數據體系問題直接相連。所以我認為,能夠讓數據涵蓋這些柔性技能至關重要,同時進行有效評估。
讓我疑惑的是,我們能夠良好選擇模型。我認為,展望未來三至五年時,你不會在意選擇哪個模型,就像是選擇用哪種 Google。我是否完全錯誤,或者說我對于此事理解錯了?
不是的,我十分喜歡一個觀點,我的背景是人機互動。你可能聽過leaky abstractions(洩露抽象)的說法。我們軟體開發人員試圖完美封裝所有復雜性于某個完美的外殼之中,而用戶不應需為此煩惱。現實是,如今大多數 AI 產品其實是存在較為"漏鬥化"的抽象選擇問題:
比如去選擇某個模型,人們似乎要問:我為什麼要選擇Opus、Haiku 和 Sonnet,很多人并不清楚彼此間的區别。或者,若你去 OpenAI 的模型選擇器,每個模型都是出于某種合理原因而存在,但其世界觀的趨勢就像是:我為什麼會選擇這一個而非另一個呢?這同樣是我們面對的挑戰。
而通過有意識了解這些模型的構建方式,如何構建上下文,每次對話都具備完全的上下文回放,這樣它可執行下一個推斷,便是構建直白對話所具備的肯定條件。這就導致了每次對話都可能各有不同。
比如我和同事對話,雖說涉及不同郵件線程,背後卻仍然是同一位同事。如果你提及你們一起工作過的項目或提到某支他們喜愛的球隊,他們并不會迷茫——好,可能要檢索我記憶解釋清楚,而是有一種共享基礎的理解。
這也是我們不應該強加給用戶的模型理解而產生的隔閡,顯然這并非理想。再者,關于提示的問題,各種模型都經歷了相應變化,我們已付出努力轉化簡易人類請求為具備較高模型兼容性的請求。我們希望将該流程盡量透明化,讓使用者不會有困惑,不讓模型無法理解清晰問題,或在未匹配情景下執意進行解釋。這一差距随着代際變化在縮小,但我們仍需将其進一步縮小。
你認為關于模型質量與產品用戶體驗應如何看待其優先級關系?
這二者不可再分割。作為用戶體驗設計師,我剛在產品評審會議前思考,在Instagram 產品設計會議上,我們曾考慮過:像素實驗、合成數據或真實數據,
我們将我的動态格式化為現今拟定的用戶體驗效果,但實際上并未包含決定性因素,你會把它發布到世界上,也許人們會以某種方式使用它。
但設計師、產品經理甚至工程師今天都需要認真思考我真正做的事情,實則在圍繞一個非線性随機系統,設計架構與產品的原則。
這也意味着模型質量、提示與評估需環環相扣,進而對最終產品的質量產生直接影響。例如,你可以提示 Claude 問詢後續問題,或決定不對其提問,這可能觸及產品的不同面板。
同理,你還可以選擇提示 Claude 對問題加以深究與缜密思考,前期對于產品功能設計有着重要價值。而另一個部分,我們早先提及的,作為初創創始人或是傳統 B2B SaaS 產品提供者,需将模型及用戶需求三者結合。
同時在產品設計時要同時考慮評估,以判斷你所構建的是否在模型的承載範圍内,至少是要具備一定商業眼光,因為模型會随着時間變化,產品也會随之改變。如果沒有良好的評估框架,甚至未做到回歸測試,發布產品後過幾個月便會面臨負面反饋。
戶或會說"哦,產品以前好得多,但現在不再滿足那個要求了",但是你不清楚其衝突產生來源何處,模型還是產品設計?還是引入了不同的功能嗎?系統提示變得更長了。毫無疑問,產品開發是最復雜的工作。
AI產品"公式",或包含模型個性、產品框架的規範性以及"氛圍"
在倫敦,我采訪過 Sam,他來自 OpenAI,他提到初創公司最享受的樂趣之一是,他們能迅速推出新功能,而不必完美無缺。随着公司越大,每次發布都承受着更多的壓力。產品領導者如何看待"發布不必完美",但要及時将產品交與用戶?
這個問題我也思考了很多,尤其是在考慮產品特性與用戶需求各有差異。
在 API 產品中,用戶所重視的是可預測性與穩定性,更多集中于未來選項,因此可以被視為完全自願的選擇。至今我仍記得我們便計劃在初始版本限時推出提示緩存,以幫助節省許多開支,最初通過 Beta 的形式進行發布,意味着用戶需主動選擇加入。我們 API 很大部分内容也是如此。
而如果是面向消費者的產品,用戶在其中的加入選擇顯得異常乏味,且更願意在產品中迭代與實驗,但不想破壞他們的使用體驗。
當務之急在于,面對企業客戶的需求日益增強,我們能否支持以較強的決心推動創新,實施有效協定?據我所知,AI 在企業的應用仍處于早期階段,因此你依然可以做得更多。許多公司一年只復審兩次或三次,通常圍繞某些大型活動進行。
可我們與之尚有一段距離,目前仍在快速推陳出新,但如實仍在尋找平衡點,是每月發布還是頻繁次數,相應管理復雜度也成了挑戰。
每日都有新品面世,這讓世界可能變得麻木不仁?你怎樣看待這一點?這将如何影響你產品發布與傳播的信息?
我認為這比Instagram復雜得多。當然,產品變化實質性的背後也是有可預測性的,大致能提前識别推向最重要轉機的領網域,即:不要在 WWDC 發布新的功能,避免在九月重要的 iOS 發布會期間抛出新功能。
我必須贊揚我們的產品營銷團隊,它确實涉及到那種快速反應和敏捷的能力.
用戶不會輕易更換模型,他們會認同自己選擇的模型,例如 Claude 或 ChatGPT,就像一種身份認同。你同意嗎?
我認為你的觀點很對,尤其是在消費者層面。我最近讀了Ben Thompson的文章,他經常探讨用戶對 Claude 和 ChatGPT 的不同偏好。我認為這種現象确實存在,用戶會選擇自己喜歡的產品個性、界面設計和整體氛圍。
這讓我想起了 Instagram 和 Snapchat 多年來相互競争的局面。甚至更早之前,一些新產品試圖在 Instagram 的基礎上進行微創新,例如只面向高端攝影師,或者像 BeReal 那樣每天只允許發布一張照片。我曾經構想過一個并非嚴謹的公式:社交網絡由產品格式、目标閱聽人和產品氛圍構成。以 Instagram 為例,其格式包括快拍、信息流以及後來的視頻。其閱聽人最初是一些時尚攝影師,後來擴展到所有對視覺叙事和視覺媒體感興趣的用戶。
即便 Instagram 與 Snapchat,甚至 Facebook 的產品功能越來越相似,它們的產品氛圍依然截然不同。
我不确定人工智能產品的"公式"是什麼,但我認為它應該包含類似的元素,例如模型個性、產品框架的規範性以及難以量化的產品氛圍,我不知道。
市面上有眾多不同的模型和提供商,開源也是一條可行的路徑,而知識蒸餾則備受争議。如果知識蒸餾最終能夠推動行業發展,它是否真的有錯?
即使在各個實驗室内部,能夠将高端模型的知識遷移到低延遲、更經濟的模型上也至關重要。 我認為更有趣的問題是,我們是否希望任何國家都能從其他國家的模型中進行知識蒸餾?我個人認為不應該。
即使人工智能的能力不斷提升,從國家安全的角度來看,我們需要謹慎對待這個問題。此外,為了實現可持續的長期發展,我們需要讓技術進步的速度保持合理,并允許實驗室将他們的訓練、創新成果商業化。找到合适的長期發展模式至關重要。開源模型,例如 LLaMA,已經能夠通過自主研究、數據收集和模型訓練來實現這一點。因此,我認為知識蒸餾并非解鎖這些成果的必要條件,反而可能引發其他問題,例如服務條款方面的争議。
Llama是否意味着模型本身沒有價值,所有價值都蘊藏在數據中?如果 Facebook 願意免費開源 LLaMA,是因為他們知道沒有人能夠復制他們的數據嗎?
這是一個值得思考的問題。LLaMA 的質量是否源于他們可以使用 Instagram 和 Facebook 的數據進行訓練,盡管他們并未明确表示?Gemini 是否受益于 YouTube 數據的訓練?這一點在我看來更明顯。
當 Gemini 展示優秀的視頻理解 demo 時,我會想,他們或許擁有世界上最大的視頻庫,并能夠利用這些數據進行訓練。但在 Facebook 方面,我從未聽人說過 LLaMA 擅長生成适合社交媒體的内容。它看起來更像一個優秀的通用模型。 這又回到了我們之前的讨論:價值在于團隊的優秀程度、是否擁有必要的數據,以及模型在實際應用場景中的實用性。這才是最重要的。
我真希望一開始就從這一點講起,因為抛開評估不談,評估雖然對爬山算法和内部研究很有用,但卻無法說明模型在實際部署中是否會表現出色,或者它的應用場景是什麼,又或者它是否只在特定條件下表現出色。作為實驗室之外的創業者,能否将模型作為產品的核心競争力至關重要。
因此,我認為實驗室的價值在于團隊、模型在現實世界中準确執行任務的能力,以及盡可能降低非确定性,保證模型的可靠性。
低估中國在AI前沿領網域進行訓練和持續創新的能力絕對是錯誤的
我想問一個問題,我們是否低估了中國的 AI 能力?
我認為人們對中國存在一些前沿研究團隊的事實感到驚訝。如果你一直關注這個領網域,這部分其實并不應該令人意外。我們看到了一個類似"平行世界"的創業生态的出現,如果你取下Facebook和Instagram,會發現中國的產品往往質量很高,展現了很強的創造力,并且是大規模構建的。人們喜歡談論的超級應用和微信,它們解決了與Facebook面臨的技術挑戰相同規模的問題。
所以,低估或繼續低估中國在人工智能前沿領網域進行訓練(尤其是獲得算力之後)和持續創新的能力絕對是錯誤的。 一些中國產品已經形成了差異化優勢,并在中國國内市場發展壯大,然後走向海外市場。TikTok 就是一個很好的例子。
在我們讨論具體產品之前,最後一個問題:DeepSeek 是否讓你重新思考或改變了一些事情?
在架構方面,我不會代表研究團隊發言,但 DeepSeek 的一些做法讓他們覺得很有趣,值得借鑑,或者重新評估一些之前考慮過的想法。
我們的計劃是在推出推理模型時展示思維鏈。DeepSeek 和 Grok 都有一些用戶界面方面的細節值得關注。關于你提到的知識蒸餾問題,這或許可以解釋為什麼越來越多的實驗室選擇不公開或隐藏思維鏈。
從產品角度來看,有兩點值得一提。DeepSeek 在短時間内就獲得了極高的知名度,甚至在很多圈子裡比 Claude 更有名。
DeepSeek 的成功突破,引發了我對 Claude 的反思。 他們什麼突破,可能是Claude沒有做到的?
DeepSeek 以更低的成本實現了類似的功能,這成為了一個熱門話題,無論其真實性如何。我也和我們的營銷團隊讨論過,我們還沒有很好地對外講述 Claude 的故事,例如,Claude 3 使用的團隊規模遠小于其他實驗室,卻依然能夠訓練出最先進的模型。我們在算力使用方面也一直非常高效。DeepSeek 的故事之所以引人注目,或許是因為它恰逢其時。
DeepSeek 的另一個成功之處在于產品。他們很快就推出了一款功能完善的 iOS 應用。這促使我們思考,需要更快地将想法推向市場,不必過度追求完美,而是要勇于嘗試,從實踐中學習。新穎的用戶體驗本身就很有價值。DeepSeek 是第一個讓大多數用戶體驗到實時思維鏈產品的公司。我希望我們早點推出類似的功能。
你觀察到新興市場的用戶留存率較高,而西方市場則不然。你如何看待 DeepSeek 的持續競争力?
它們已經達到了一種知名度,這種知名度本身就有一定的能力,能夠持續保持用戶的留存。我認為在這些以AI為主導的實驗室產品中,即使是六個月後,我們也會問一些問題,比如是否有一些輕微的主動性。但我不認為這是長期的差異化或有趣的點。它應該是"哇,我現在可以做某件獨特的事情,因為我使用了DeepSeek,或者其他任何產品,它為我節省了數小時的工作,讓我變得更聰明,讓我成為我生活中重要人物的更好的夥伴。"
它必須超越表面的實用性。不要誤會,有些人确實找到了更深層次的價值,這些人就是你們的早期用戶。但對很多人來說,他們只是嘗試一下,用它生成一首詩,或者給他們的兒子寫一封信,這些都能在當下提供一些價值,但僅此而已。
但我仍然認為我們處于"AI成為大多數人工作中不可或缺的一部分"的第一天,我認為答案是"不",對大多數人來說不是。所以,我認為DeepSeek和其他所有產品的持久性将來自誰能實現這一點,并在長期内可持續地做到這一點,擁有正确的產品設計、正确的集成和正确的部署,以真正取得成功。
模型的通用性非常重要
誰能構建這些產品,這是我作為投資者的一個重要問題,即模型供應商何時會轉變為應用供應商?我很想聽聽你對從模型供應商向應用供應商轉變的看法。什麼足夠吸引人,讓你願意投入資源成為應用供應商,而不僅僅是模型供應商?
我主要考慮兩個标準。因為Anthropic的團隊規模很大,你知道的,我認為我們的產品團隊可能只有其中的十分之一。按照Instagram第二年的标準,這已經相當大了,但與大型SaaS公司相比,這又非常小。我們處于這些不同的中間地帶,我們支持很多不同的產品,比如我們現在有雲代碼、API、Claude、Claude for Work等。
所以,我認為通用性非常重要,即使我們選擇一個特定的用戶群體或垂直領網域,我們也會構建通用型的產品,可能會在用戶層面有一些定制化,但我不認為我們會構建很多針對特定工作流程或用例的定制化體驗。
我認為,有很多有價值的工作流程和知識,這意味着你可以随着時間的推移保持差異化的產品。
如果你經常使用像Elven這樣的控制台和工作台,你會發現它們構建的許多功能顯然是為那些需要翻譯數小時内容,或者用可靠的聲音處理大量内容的人設計的。Descript在這方面有非常好的產品設計,他們顯然在工作流程上投入了大量時間。我曾經用它做過一次個人播客,當時我就覺得,這顯然是由那些每天都在這個工作流程中工作并理解它的人設計的。
我認為在消費者甚至專業消費者上,從基本的人工智能產品角度看,它已經足夠好了。
看看你今天擅長的事情,你在代碼方面做得非常好。正如我們之前所說,是否有一個路線圖來開發你自己的IDE(集成開發環境)或者代碼代理?你是如何從產品聚焦的角度思考這個問題的?
我認為我們需要謹慎地選擇我們的方向。即使在構建過程中,我們開發了Claude Code,這是一款我們剛剛發布的命令行代理編碼工具,最初是内部使用,因為我們只是想加速我們自己的團隊。
在使用了兩個月後,我們覺得這很不錯,雖然它并不是解決所有編碼問題的萬能鑰匙,也不會取代IDE,但在足夠多的情況下對我們很有用,我們希望看到人們在現實世界中使用它。
然後,你知道的,發布產品從來都不是免費的,你需要給它起個名字,找到合适的包裝方式,這涉及到市場推廣的問題。所以,我們很謹慎地去做這件事。
我認為,以目前模型的水平來看,你仍然需要親自上手鍵盤操作,仍然需要那種交流:"嘿,我做了這個,這是對的嗎?""好的,我們朝着這個方向前進。""是的,這很好,我們提交一個功能請求。""不,我們走錯了路,讓我們像解開堆棧一樣,從比喻意義上說,也許是一個實際的用例,然後繼續前進。"
這就是為什麼我認為在IDE和完全的認知開發(即完全的任務委托)之間,有一個中間的角色。我們的產品工程師非常喜歡Claude Code,因為很多產品工程工作都是這樣的:"我們需要更新後端,我們需要創建前端,我們需要将這些内容提交翻譯……哦,這還是不行,讓我來處理。"這是一種可以跨多種不同任務代理工作的端到端工作流程。
上周我做了兩個Pull Request(代碼合并請求),自從加入Anthropic以來,我還沒有編寫過代碼,這讓我感到有些沮喪。所以我終于可以使用Claude Code了。我之前從未打開過我們的代碼庫,所以我甚至不知道它的結構,但Claude Code非常擅長找到包含正确片段的檔案,然後繼續進行編輯。
當然,并不是每個人的情況都和我一樣,但在這些用例中,它是非常有價值的。所以,當我思考編程領網域以及我們可以在哪裡發揮作用并增加價值時,它真的在于代理方面,而不是IDE方面。
有其他公司在思考如何打造一個出色的IDE,這涉及到低延遲的自動補全,涉及到如何與VS Code插件生态系統等復雜性進行整合。
那裡有很多有價值的工作,與我們所做的事情不同。我認為我們可以在與這些模型的對話中,在代理循環中真正發揮作用,但要認識到它們還沒有達到可以在許多用例中自由運行幾個小時的程度。你需要更多的人類幹預。
兩方面投入不足:第一方產品的迭代速度和在API方面構建超出"輸入輸出Token"的抽象
正如你所說,自從加入Anthropic以來,你第一次編寫代碼,以及我們看到的開發人員行為的變化,你認為三到五年後軟體開發人員的角色會是什麼?
我認為它已經開始看起來不同了。我一直是GitHub Copilot的早期支持者,我的評價可能還在首頁上,我不知道它是否還在那裡。因為我看到了它的潛力,我試圖用它來編寫Swift代碼,我會畫出我試圖構建的螢幕的ASCII藝術,然後去喝咖啡,因為當時它相當慢。
回來後,它已經有了一個80%的版本。顯然,現在它會是一個95%到99%的版本。我認為,變得重要的技能是跨學科的,不僅是知道如何實現,更重要的是知道要構建什麼。我喜歡我們的工程師,他們的許多甚至可能是大多數好的產品想法都來自他們自己原型設計。我認為這就是許多開發人員角色最終的樣子。
第二點是,代碼審查發生了變化,當突然間你主要在評估AI生成的代碼時。我甚至經歷過這種情況,我提交了一個Pull Request,一些反饋意見是:"Claude Code在這裡有時會這樣做,但我們實際上并不在這種情況中使用默認參數。"我心想:"哦,該死,如果我親自編寫代碼,我可能會更好地注意到這些模式。"
所以,需要發生兩件事:一方面,模型和模型基礎設施需要更好地從代碼庫和代碼審查中學習,以便它們能夠產生符合公司風格的代碼;另一方面,我們如何從主要是代碼編寫者轉變為主要是模型的委托者和代碼審查者。我認為這就是三年後的工作,提出正确的想法,進行正确的用戶互動設計,弄清楚如何正确地委托工作,然後弄清楚如何大規模地審查代碼。
這可能是某種組合,比如一些靜态分析工具的回歸,或者由AI驅動的分析工具來檢查實際產生的内容,比如是否存在安全漏洞、是否存在其他缺陷或錯誤。計算機的作用也在這裡,你可以看到我對這個領網域非常興奮,比如自動化的UI測試。
理想的情況是,一年後,甚至三年後,你把任務委托給它,當你回來時,它會說:"我考慮了這三種方法,我測試了它們,另一個代理在浏覽器中嘗試了它們,這種方法效果最好。我通過另一個代理進行了漏洞測試,一切看起來都不錯。我們只需要幫你解決這個問題,讓我們審查這段關鍵代碼,以确保它真的是你想要的。"這感覺像是你突然被賦予了更多管理者的角色,而不是僅僅作為過程中的合作夥伴。
你說三年聽起來很荒謬,一年會更現實。我同意。當我們看到產品的發布速度時,我們是否會達到一個平台期或漸近線,因為現在速度感覺非常快。正如我們之前所說,我們是否會達到一個平台期,還是會繼續這種指數級的進步?這是一個我經常思考的問題。
今年年初,我開始審視我們的產品開發流程,看看我們在哪些地方使用了雲服務,哪些地方沒有。Claude可以在将初始想法轉化為產品需求文檔(PRD)方面發揮作用,顯然在編碼方面也很有用。Claude還可以整合關于產品的大量對話,找出那些棘手的分歧問題。
推動共識,真正弄清楚要構建什麼——這仍然是最難的部分。實際上,這仍然是唯一可以通過聚集在一起、讨論優缺點或在Figma中探索并返回來最好解決的問題。就像任何動态系統一樣,如果你優化了一個部分,其他部分就會突然成為瓶頸或關鍵路徑。我認為,對齊、決定要構建什麼、解決真實用戶問題以及弄清楚連貫的產品戰略仍然是非常困難的,我認為模型至少還需要一年才能解決這些問題。
這就是為什麼我對至少在STS(可能是某種技術或產品名稱)探索這個領網域充滿信心,因為我記得在Instagram和Artifact的時期,對齊是一個下午的咖啡對話,而不是駕馭一家有客戶承諾的大公司的航向。這仍然是一個非常人性化的難題,我認為模型至少還需要三年才能解決。
當你考慮為消費者構建產品與構建公司API部門(這非常重要)之間的平衡時,你是如何看待這兩者之間的平衡和權衡的?
從我們從每個產品中獲得的東西來看,我認為我們通過第一方產品學到了更多。以Claude Code為例,它在内部部署後的一個星期内,我們就發現它所使用的一種工具并沒有被模型充分利用,而這種改進直接被應用到了3.7 Sonet中。這就是内部使用第一方工具直接導致下一代產品改進的一個例子。
還有其他一些地方,我們發現與第三方產品合作要困難得多。他們可能會告訴你哪裡出了問題,但這種合作相對比較間接。盡管我們與你提到的一些編程初創公司合作得非常緊密,但仍然沒有直接參與的感覺。所以,我們在這些合作中學到了很多東西。然後還有品牌忠誠度的問題。
我認為,從消費者的角度來看,圍繞一個產品建立品牌比僅僅圍繞一個API更容易。我們為許多編程產品提供支持,這在下拉選擇器中通常是默認選項,但并不是每個人都知道這一點。它并不是人們下載或安裝的東西,也不是他們會向他人推薦的東西。
但同時,我們也通過這種方式獲得了巨大的分發渠道。我們不可能發明每一家公司,而且通過這種方式,我們可以像我過去投資時一樣,看到更多機會,有更多的"進球機會",而不是把所有精力都放在一件事情上。所以,從資源分配的角度來看,我認為我們在這方面做得相對平衡。
如果有什麼不足的話,我認為我們在兩方面都稍微投入不足。一是加快第一方產品的迭代速度,這目前是我的主要關注點;二是在API方面,我們如何構建超出"輸入輸出Token"的抽象。每次我們這樣做時,我們都會收到很多反饋。
無論是幫助模型像代理一樣規劃和工作,還是讓模型構建更多關于公司内部運作的知識庫,或者完善工具的使用,或者理解大量上下文并擁有超越對話的記憶——我認為這些都是值得我們在API上解決的問題,因為我們可以将訓練中學到的東西直接映射到API上,并圍繞它構建好的產品。這就是我對這兩者的看法。但在Instagram上,這很容易,因為它是95%的產品和5%的API——這就是我們真正需要做的。
你能做些什麼,以及你會做些什麼,來加快第一方消費者產品的開發速度?
我認為有兩件事。一是認識到我們實際上是在運行一家大公司的劇本,而我們的產品仍然處于初創階段。即使公司發展良好,API業務發展順利,人們正在使用雲 AI 并更新雲 AI Pro,但我們仍然處于早期階段,這仍然是一個生死攸關的時刻。
我們需要以這種方式運作,這意味着更快地召集合适的人,打破組織界限。我們不能讓組織變得僵化,比如"這是這個團隊的事,而不是那個團隊的事",或者"這個季度做不到,因為這不是這個團隊的任務"。我知道組織的發展是有其自然規律的,但我們現在不能承受這種僵化。所以,我們更多地是召集合适的人,清除其他幹擾,甚至清理我的日程,以便我花更多的時間在產品評審和設計評審上,而不是在行政事務上。
AI是未來人類互動的一個補充,但不足以替代真實人際互動
西方公司,包括你和OpenAI,是否因為資金過多而受到限制?
我認為,我們產品的采用速度已經超出了它們真正的市場契合度,因為它們仍然是獲取模型的最佳方式,但我不認為這種優勢能夠長期保持,所以我不認為這是一個可以依賴的優勢。其次,我認為我們沒有很好地滿足用戶的需求,因為我們還沒有開發出正确的產品。這就是我每天早上感到壓力或受到激勵的原因,這取決于哪一天。我覺得我們在這一方面還有大量的工作要做。
快速問答環節:
OpenAI在哪些方面做得比你們好?
他們在模型尚未完全準備好時更快地推出v1版本。
他們在哪些方面做得不如你們?
可能是產品的個性和功能的連貫性。
你最尊重哪家替代模型提供商?
OpenAI。我認為他們在第一方產品開發和API之間取得了平衡,人們在大規模使用API的同時,也能很好地使用他們的產品。我們有一個Instagram的原則,就是先做簡單的事情,我認為他們通常也是先做簡單的事情。
如果讓你從頭開始重建Anthropic的產品和堆棧,你會做些什麼不同?
我喜歡這個問題。我認為我們去年構建的一些真正有價值的東西,現在感覺有些信息架構上的成本。聽起來這可能有點技術性,但基本上,人們不應該需要考慮項目、工件、聊天以及它們之間的關系。我認為,把所有東西都推倒重來,真正重要的是你是否能夠進入正确的對話,是否能夠始終知道在產品中下一步該去哪裡,以及Anthropic和Claude本身是否能夠成為一種引導你進行下一步工作的工具。這是一個與"我知道如何創建一個項目"完全不同的範式。
如果你擅長這個,這是一個很棒的產品,但中間有很多步驟。所以,這就是產品方面的問題。在堆棧方面,Claude AI和可能的ChatGPT.com最初只是為了展示模型的能力而構建的,并沒有真正為構建一個更復雜、多產品的生态系統奠定基礎。
目前,我們正在積極努力推倒一些東西,重建核心用戶體驗,讓它感覺更好。現在它并不完美,它感覺有點像一個随着時間演變的產品,它曾經有其存在的意義,但現在被要求做更多的事情。因此,增量的添加變得更加困難,速度也變慢了。
在過去12個月裡,你改變了對什麼的看法?
第一方產品的重要性。我看到API的增長後,覺得我們應該在這方面投入更多的時間。如果你不在這方面進行同等甚至更多的投資,你會錯過很多機會,也不會有足夠的持久競争力。在這一點上,我們遲到的代價有多大?我認為代價很大。以DeepSeek為例,理想的情況是,我們應該更好地捕捉到"不止有一種領先的API或AI產品可供使用"的故事。我認為我們在這一點上受到了傷害。
在AI領網域,有一個尚未被廣泛讨論但你認為至關重要的技術或產品挑戰是什麼?
随着模型能力的增強,它們将成為頭條新聞,這基本上涉及到判斷力和隐私。随着模型能力的增強,它們也會變得更加知識淵博。你會與它們進行從非常私密到公司敏感信息的對話,它們還會接觸到你公司的所有事務。
每個人都喜歡談論代理之間的互動,但很少有人思考或讨論這兩者的交叉點:你是否信任你的Mike代理或Harry代理在世界上活動,而不被破解或洩露它所知道的私人或敏感信息?我認為,就像我的5歲女兒一樣,看着她與一個剛認識的人交談是很有趣的,因為她還沒有學會區分我們家庭的秘密和私事,以及可以與新朋友或收銀台旁的人談論的事情。
這種判斷力是人們随着時間逐漸獲得的,我認為模型在這方面被嚴重低估,可能在模型能力研究方面也研究不足,因為模型本質上是想提供幫助,而這并不總是你想要的。除了安全性的考慮之外,我認為還有隐私和數據安全的考慮。
你是否擔心你的5歲女兒會更習慣與模型和代理交流,而不是與人類交流?
我和Alex Wang就這個問題進行了很多讨論,因為他堅信未來大多數朋友将是AI朋友。我認為他并沒有錯。我認為在某些方面,這種情況已經開始發生。人們有很多在線遊戲體驗,其中一些是NPC(非玩家角色),你可能會在那裡感到更舒适,即使你沒有突破這一點。我确實擔心……她非常外向,所以我不太擔心她的情況。
但從更廣泛的意義上說,人們可以從這些體驗中學到很多東西。比如,我是一個比較笨拙的青少年,我可能可以從一些AI互動中受益,通過這些練習來提升自己。但同時,這并不是真正的互動,它并沒有完全閉環真實互動的後果。就像閱讀關于你和高中女友第一次激烈争吵的文章,然後真正經歷它。
當你處于那一刻時,你會意識到這是完全不同的。與模型進行情感角色扮演相比,與真人進行同樣的互動,當然也有很大的不同。所以,我認為這是未來人類互動的一個有用的補充,但絕對不足以替代真實的人際互動。
歐洲在未來十年的AI驅動世界中會變得更重要還是更不重要?
我希望歐洲表現出色,因為我很喜歡歐洲。我看到一個有點自相矛盾的論點:如果真實世界的體驗和人際互動變得更加被重視,歐洲可能會變得更加有價值,就像世界的感官體驗之都。這聽起來有點奇怪,好像這就是你們所依賴的全部,這感覺有點局限。
但我認為,從歐洲的角度來看,真正有趣的是,歐洲人往往非常堅持某些生活方式或社會價值觀,然後他們至少會嘗試将其納入最佳實踐甚至法律中。所以,即使我們在考慮產品設計、數據隐私,或者向德國用戶或公司銷售產品時,也會被問到一系列不同的問題,這些問題往往是很有幫助的。
也許歐洲的樂觀情況是,這些問題實際上對每個人都很重要,他們将處于提出這些問題的前沿。我認為從實驗室的角度來看,這是一個更難回答的問題。也許有一些因素的組合,比如獲得計算能力,或者他們進一步向價值鏈上遊移動。如果在這些模型之上構建應用變得更加容易,你可以從0到1快速成長,并且比這些擁有數億用戶的實驗室更靈活,那麼創新可能會在那裡發生,但這可能需要一個不同的監管和創業生态系統環境,才能真正實現這種情況。
達裡奧說,這将是能夠活到150歲的時代。我稍微篡改和總結了他的原話,但确實,這可能是能夠活到150歲的那一代人。我對此非常樂觀。我的母親患有多種疾病,我相信AI會找到治愈像多發性硬化症這樣的疾病的療法。你是否同意他的樂觀态度?你如何看待AI延長人類壽命和壽命延長的問題?
我認為潛力是巨大的。從今天的情況來看,AI已經在幫助藥物發現和臨床試驗的閉環中發揮作用。例如,諾和諾德公司過去需要15周來完成臨床試驗報告,現在通過使用雲技術,僅需20分鍾就能完成。這是一次質的飛躍。
當然,這之前有多年的研究作為基礎,我不是說我們将多年的流程縮短到了幾周或幾分鍾,但這就是我們可以加速的流程的一個例子。
現在,像ARC這樣的科學和研究所,他們正在研究細胞的基礎模型。有了這些模型,你可以突然在真實的細胞模型上進行實驗,這應該會極大地加速藥物發現和實驗的進程,因為我們正在切斷一個循環。
我認為AI在許多領網域都被低估了,尤其是在其潛力方面。我認為我們這一代最聰明的人中,有一些曾經專注于投放更精準的廣告,也許在某個階段這是正确的。但如今,許多人正在研究如何構建在許多領網域都非常有用、有價值和智能的模型。