今天小编分享的科技经验:Anthropic CPO深度访谈:从DeepSeek能学到什么?,欢迎阅读。
近日,Instagram联合创始人兼Anthropic首席产品官Mike Krieger在一次对话中表达了对人工智能世界的价值创造的看法,以及DeepSeek带来的启发。
他认为,模型随着时间的推移会越来越不同,而不是变得更加相似。对于 DeepSeek,他表示有些人对 DeepSeek 中的尖端研究团队感到惊讶,但如果留心观察,这并不令人意外。
以下为对话要点:
展望前方未来的人工智能驱动的十年,最有价值的地方存在于那些拥有差异化市场进入策略(GTM)、独特行业知识或只由你掌握的特殊数据的领網域。理想情况下,这两者或三者皆具。
人工智能与产品设计的关键在于——你必须在展示未来和预测模型目前所能达到的边界之间找到微妙的平衡。
不要等待模型变得完美,要在这个领網域探索,因当前模型的不尽如人意感到沮丧,并积极地尝试下一个模型,以便你能最终实现你心中的构想,只要模型能够具备更强的能力。
成为一家公司的合作伙伴,实际上是要提供 AI 合作而不仅仅是 AI 模型。
要提高模型性能,围绕于如何结合原本的人类数据并生成合成环境的叙事是必须的,之后能借助合成环境的路径探索。
我们希望将该流程尽量透明化,让使用者不会有困惑,不让模型无法理解清晰问题,或在未匹配情景下执意进行解释。这一差距随着代际变化在缩小,但我们仍需将其进一步缩小。
模型会随着时间变化,产品也会随之改变。如果没有良好的评估框架,甚至未做到回归测试,发布产品后过几个月便会面临负面反馈。
我不确定人工智能产品的"公式"是什么,但我认为它应该包含类似的元素,例如模型个性、产品框架的规范性以及难以量化的产品氛围,我不知道。
低估中国在人工智能前沿领網域进行训练(尤其是获得算力之后)和持续创新的能力绝对是错误的。 一些中国产品已经形成了差异化优势,并在中国国内市场发展壮大,然后走向海外市场。TikTok 就是一个很好的例子。
DeepSeek 的另一个成功之处在于产品。他们很快就推出了一款功能完善的 iOS 应用。这促使我们思考,需要更快地将想法推向市场,不必过度追求完美,而是要勇于尝试,从实践中学习。
一方面,模型和模型基础设施需要更好地从代码库和代码审查中学习,以便它们能够产生符合公司风格的代码;另一方面,我们如何从主要是代码编写者转变为主要是模型的委托者和代码审查者。我认为这就是三年后的工作,提出正确的想法,进行正确的用户互動设计,弄清楚如何正确地委托工作,然后弄清楚如何大规模地审查代码。
如果有什么不足的话,我认为我们在两方面都稍微投入不足。一是加快第一方产品的迭代速度,这目前是我的主要关注点;二是在API方面,我们如何构建超出"输入输出Token"的抽象。每次我们这样做时,我们都会收到很多反馈。
未来AI的价值在于差异化
主持人:
我想从一个更具挑战性的问题开始:作为一名风险投资者,我需要确定未来的价值在哪里。看看今天的世界,我有些迷惑。因此,我的问题是,当我们展望前方未来的人工智能驱动的十年,价值将源自何处?
Mike Krieger:
我没有完美的答案,因为这就像透视水晶球。我的感觉是,最有价值的地方存在于那些拥有差异化市场进入策略(GTM)、独特行业知识或只由你掌握的特殊数据的领網域。理想情况下,这两者或三者皆具。
因此,在金融、法律和医疗等领網域的公司,例如有的医疗行业,接触后我发现其复杂性是极高的,前期工作并不吸引眼球,实际上也不是你能在加速器或短时间内完成的。但正是这些基础工作将创造出持久的价值。而让你在长期内保持竞争力的关键在于能销售到这些领網域,并对其有独特理解,随着时间的推移不断优化。
当你提到基础工作时,你提到的差异化市场进入策略(GTM)和数据池,这一代人工智能浪潮是对现有的垂直軟體即服务(SaaS)公司有利,还是对新创建的底部公司更有优势?
这是个很好的问题。我认为这两者都有可能。在最高层面上,人工智能与产品设计的关键在于——你必须在展示未来和预测模型目前所能达到的边界之间找到微妙的平衡,因为你希望设计出三个月后能用的产品,而这依赖于快速的技术变化。
但不要过度承诺却未能实现,因为那将破坏信任。如果你是个初创公司,你或许能稍微过度承诺一些,因为人们愿意尝试你新产品。
但如果你是家已有的垂直化SaaS公司,若你说我们新增了人工智能,结果用户试用后觉得效果并不理想,或者他们觉得"我以为它能完成这些事情",而最终只做好了其中两件。对于这两类群体来说,他们面临着不同的挑战:前者有成熟的产品和用户行为,他们希望能预测未来的趋势,而又不得不考虑不让现有客户感到疏离。我们可以深入探讨这个问题,我认为有一些有效的模式可以做到这一点。
而对于初创公司来说,或许他们尚未拥有数据,而是需要一些初始的瞭望客户,或许和潜在客户还未建立关系,或者他们对于人工智能(AI)在某个特定行业或领網域的影响依然存在假设,因此他们的差异化并不在于已有的关系,而是对未来的描绘,以及在能够承担风险的公司内找到快速提供价值的方法。
关于初创公司建立在未来模型基础上的问题,这是一个相当具有挑战性的时刻,因为初创产品的质量极大地受制于当前模型的质量,模型变化可能会对初创公司的产品表现产生重大影响,无论是在编程軟體还是法律平台等领網域。我们应该建立在今天已有的基础上,还是要着眼于未来所预计的模型?
这是个很好的问题。我听过不少人说,我的初创企业直到采用Claude 3.5 Sonnet后才算真正的初创公司,但我听过企业家说,这家公司直到某个模型突破之后才算是一家公司,准确率从95%提升到99%,对这个行业而言,这样几乎已经足够了。或者从70%提高到90%。
但如何判断这样的转变呢?有时,企业家们在某个特定领網域(无论是协助编写代码、法律分析,或是医疗保健等)与壁垒作斗争,真正拼凑出来的东西,或许被形容为"拼凑成品",实际上是难以在价格上具备竞争力的,因为它依赖一个无法由底层基本模型支持的高级模型。
然而,这些工作依然值得,因为当模型真正到来时,你并不是从零开始。因此,往往那些从模型生成转变中受益的公司,并不是在那一天才开始的,而是那些已经在努力抗争的公司。
举个例子,Cursor 有人向我展示了一份从创始人开始在Hacker News 每日提交的列表,经过反复尝试,终于成功,但这并非是他们的第一个产品或第一次迭代,他们在尝试与不断努力,究竟多久我不清楚,但显然并不是简单通过模型的突然兴起取得的成功,而是这些公司在构建过程中积累了必要的知识与经验。
所以更简洁地说,不要等待模型变得完美,要在这个领網域探索,因当前模型的不尽如人意感到沮丧,并积极地尝试下一个模型,以便你能最终实现你心中的构想,只要模型能够具备更强的能力。
从DeepSeek中吸取相应的经验与教训
模型层中若没有差异化的数据游戏,是否依然存在价值?这是差异化市场进入策略的博弈,你怎么看?
我认为这是几个不同的方面,特别是基础模型层的成功,我认为在市场中长期投资的三个关键要素是:第一是人才,我知道这很难量化,例如,人才意味着什么,人才密度又意味着什么,但是人才会带来更多人才,对吧?你会成为一个吸引人才的地方,尤其是当团队围绕共同目标或故事时,我在 Anthropic 清晰地感受到这一点。
我非常喜欢我们的研究团队,感受到几乎每个月都会有重磅的新成员从其他实验室或者学术界加入,并且这需要被培养和维持,因为人们是自由的,可以选择自己想做的事。所以,这一点至关重要,因为要保持在前沿,需要的不仅是不断重复既有的工作,而是找到正确的突破口,以上是其中之一。
第二,模型随着时间的推移会愈加不同,当然,有很多相似的基准在被关注,但 Claude 具有一些特定的特征,并且 GPT 也有其特性。它们各自有优缺点,从模型的个性与表现来看就有所不同。
对于我们来说,与编程领網域有关的就是我们一直追求的重要方向,这并不是巧合,同时也不仅是因为看到这个领網域有发展趋势,更因许多公司依赖于我们的基础模型来提供编码服务、或正在进行智能规划,这激励了我们在强化学习方面的下一步构想。第一点是人才,第二是更深入的关注点与模型特征,最终打磨出更具体的对策。
第三方面,我之前在 DeepSeek 发布后曾经历过很多人向我提问。
DeepSeek 对你们意味着什么?
在技术层面,我们自然能从其产品中吸取相应的经验与教训,但从市场进入及市场定位的角度来看,我们与公司间建立的不是单纯交易式的关系。
我们的目标不仅仅是他们向你发出 API,而只是为输入Token和输出Token的交换。而是:我希望和您成为长期的人工智能合作伙伴,携手帮助您与应用 AI 团队共同设计产品。我想与您一起构思,我想的思考不仅仅是 API 还有未来的工作。
因此,成为一家公司的合作伙伴,这听起来像公关策略,但实际上是要提供 AI 合作而不仅仅是 AI 模型。如果你只停留在原有基础上,可能导致新的挫折,或者拿不住最优秀的人才,相信只需在每一项基准上进一步改进模型就可迎刃而解,同时将 API 视作智能交换的工具,而不去思考如何更深层建立 AI 合作关系。
如果做不到这三点,将会面临挑战。我想继续深入探讨编程方面,但我必须先了解,你认为最大的阻碍是什么,因为我从不同人的观点中听到的看法完全不同,计算、数据还是算法?
如何将训练环境变得更高效、贴近现实挑战,而不是简单处理一次性情景?我知道 Alex 也在考虑这个问题。这只是我所提到的更广泛问题的一个非常具体的表现。甚至在軟體工程领網域,軟體工程师的工作并不仅仅是生产代码,而是理解需要造出的东西,梳理时间表,与产品管理团队密切配合,深入理解需求,洞悉其为用户构建的用户用例。
然后可以对其进行测试和迭代,然后在另一端获得用户反馈,如果他们正在构建某种面向公众的产品,这是一项极端复杂的任务,而目前并没有有效的评估标准。我们常常把軟體工程的基本任务称为SWE基准。我们开始在评估方面有所改进。不过,这仍然非常复杂,这在最好的情况下是这样的。它不断演变,就像人类的最终考试一样,非常像,需要多步推理。
这是一个很难捕捉的复杂环境,对我来说,弄清楚如何更好地将其分解为组成部分——这可能是故事的一部分,但同时也要从整体上考虑——这是至少在一个领網域中取得进展的最大障碍。这个领網域的问题是,模型如何从在某些极端领網域表现出色,转变为更具一般性的、有用的合作伙伴。
在深入探讨数据方面的那些专业产品之前,我希望听听您的看法:展望未来,模型中将更依赖合成数据,还是人类数据仍将是推动模型演变的主要数据来源?你如何看待这一点?
我认为,要提高模型性能,围绕于如何结合原本的人类数据并生成合成环境的叙事是必须的,之后能借助合成环境的路径探索。Claude 最近在玩 Pokémon,这给我们工程团队带来了一些乐趣与启示,大家在做什么,他们正观看着 Claude玩Pokémon的 直播,我认为,游戏特别有趣,想象一下你在玩同样的游戏时,约束条件不同,实际上如果定义不清晰,成功度的定位会变得更为复杂。
虽然我从未玩过 Pokémon,但通过学习直播也能获得些许见解。重要的是要找到能将黄金路径转化为合成环境,同时探索多样的解决路径,在稳定中寻找模型的改进。因此,我深信必须结合二者。
我认为最佳模型来源于对优秀人类代码的结合,同时在此基础上,能够探索更多的路径。另外,需要强调的是,在如何衡量、评估与引入品质数据这一领網域仍缺乏适当意识,我将使用一个较宽泛的词,即"氛围",即使用模型的感受如何。我们无法真正知晓,直到我们坐下来真正体验一下。
当然,这在一定程度上是一种良好特性,因为它展现了类似人类的情感取向,但这也代表我们的回归测试显得尤为重要。尽管我们经历多次更新,但人们往往会说"哦,Claude 看起来更友好,但更简洁",或者说"Claude 更乐意回答我的问题,但希望提升其在创意写作领網域的表现",这其实是难以评测的。与数据体系问题直接相连。所以我认为,能够让数据涵盖这些柔性技能至关重要,同时进行有效评估。
让我疑惑的是,我们能够良好选择模型。我认为,展望未来三至五年时,你不会在意选择哪个模型,就像是选择用哪种 Google。我是否完全错误,或者说我对于此事理解错了?
不是的,我十分喜欢一个观点,我的背景是人机互動。你可能听过leaky abstractions(泄露抽象)的说法。我们軟體开发人员试图完美封装所有复杂性于某个完美的外壳之中,而用户不应需为此烦恼。现实是,如今大多数 AI 产品其实是存在较为"漏斗化"的抽象选择问题:
比如去选择某个模型,人们似乎要问:我为什么要选择Opus、Haiku 和 Sonnet,很多人并不清楚彼此间的区别。或者,若你去 OpenAI 的模型选择器,每个模型都是出于某种合理原因而存在,但其世界观的趋势就像是:我为什么会选择这一个而非另一个呢?这同样是我们面对的挑战。
而通过有意识了解这些模型的构建方式,如何构建上下文,每次对话都具备完全的上下文回放,这样它可执行下一个推断,便是构建直白对话所具备的肯定条件。这就导致了每次对话都可能各有不同。
比如我和同事对话,虽说涉及不同邮件线程,背后却仍然是同一位同事。如果你提及你们一起工作过的项目或提到某支他们喜爱的球队,他们并不会迷茫——好,可能要检索我记忆解释清楚,而是有一种共享基础的理解。
这也是我们不应该强加给用户的模型理解而产生的隔阂,显然这并非理想。再者,关于提示的问题,各种模型都经历了相应变化,我们已付出努力转化简易人类请求为具备较高模型兼容性的请求。我们希望将该流程尽量透明化,让使用者不会有困惑,不让模型无法理解清晰问题,或在未匹配情景下执意进行解释。这一差距随着代际变化在缩小,但我们仍需将其进一步缩小。
你认为关于模型质量与产品用户体验应如何看待其优先级关系?
这二者不可再分割。作为用户体验设计师,我刚在产品评审会议前思考,在Instagram 产品设计会议上,我们曾考虑过:像素实验、合成数据或真实数据,
我们将我的动态格式化为现今拟定的用户体验效果,但实际上并未包含决定性因素,你会把它发布到世界上,也许人们会以某种方式使用它。
但设计师、产品经理甚至工程师今天都需要认真思考我真正做的事情,实则在围绕一个非线性随机系统,设计架构与产品的原则。
这也意味着模型质量、提示与评估需环环相扣,进而对最终产品的质量产生直接影响。例如,你可以提示 Claude 问询后续问题,或决定不对其提问,这可能触及产品的不同面板。
同理,你还可以选择提示 Claude 对问题加以深究与缜密思考,前期对于产品功能设计有着重要价值。而另一个部分,我们早先提及的,作为初创创始人或是传统 B2B SaaS 产品提供者,需将模型及用户需求三者结合。
同时在产品设计时要同时考虑评估,以判断你所构建的是否在模型的承载范围内,至少是要具备一定商业眼光,因为模型会随着时间变化,产品也会随之改变。如果没有良好的评估框架,甚至未做到回归测试,发布产品后过几个月便会面临负面反馈。
户或会说"哦,产品以前好得多,但现在不再满足那个要求了",但是你不清楚其冲突产生来源何处,模型还是产品设计?还是引入了不同的功能吗?系统提示变得更长了。毫无疑问,产品开发是最复杂的工作。
AI产品"公式",或包含模型个性、产品框架的规范性以及"氛围"
在伦敦,我采访过 Sam,他来自 OpenAI,他提到初创公司最享受的乐趣之一是,他们能迅速推出新功能,而不必完美无缺。随着公司越大,每次发布都承受着更多的压力。产品领导者如何看待"发布不必完美",但要及时将产品交与用户?
这个问题我也思考了很多,尤其是在考虑产品特性与用户需求各有差异。
在 API 产品中,用户所重视的是可预测性与稳定性,更多集中于未来选项,因此可以被视为完全自愿的选择。至今我仍记得我们便计划在初始版本限时推出提示缓存,以帮助节省许多开支,最初通过 Beta 的形式进行发布,意味着用户需主动选择加入。我们 API 很大部分内容也是如此。
而如果是面向消费者的产品,用户在其中的加入选择显得异常乏味,且更愿意在产品中迭代与实验,但不想破坏他们的使用体验。
当务之急在于,面对企业客户的需求日益增强,我们能否支持以较强的决心推动创新,实施有效協定?据我所知,AI 在企业的应用仍处于早期阶段,因此你依然可以做得更多。许多公司一年只复审两次或三次,通常围绕某些大型活动进行。
可我们与之尚有一段距离,目前仍在快速推陈出新,但如实仍在寻找平衡点,是每月发布还是频繁次数,相应管理复杂度也成了挑战。
每日都有新品面世,这让世界可能变得麻木不仁?你怎样看待这一点?这将如何影响你产品发布与传播的信息?
我认为这比Instagram复杂得多。当然,产品变化实质性的背后也是有可预测性的,大致能提前识别推向最重要转机的领網域,即:不要在 WWDC 发布新的功能,避免在九月重要的 iOS 发布会期间抛出新功能。
我必须赞扬我们的产品营销团队,它确实涉及到那种快速反应和敏捷的能力.
用户不会轻易更换模型,他们会认同自己选择的模型,例如 Claude 或 ChatGPT,就像一种身份认同。你同意吗?
我认为你的观点很对,尤其是在消费者层面。我最近读了Ben Thompson的文章,他经常探讨用户对 Claude 和 ChatGPT 的不同偏好。我认为这种现象确实存在,用户会选择自己喜欢的产品个性、界面设计和整体氛围。
这让我想起了 Instagram 和 Snapchat 多年来相互竞争的局面。甚至更早之前,一些新产品试图在 Instagram 的基础上进行微创新,例如只面向高端摄影师,或者像 BeReal 那样每天只允许发布一张照片。我曾经构想过一个并非严谨的公式:社交网络由产品格式、目标閱聽人和产品氛围构成。以 Instagram 为例,其格式包括快拍、信息流以及后来的视频。其閱聽人最初是一些时尚摄影师,后来扩展到所有对视觉叙事和视觉媒体感兴趣的用户。
即便 Instagram 与 Snapchat,甚至 Facebook 的产品功能越来越相似,它们的产品氛围依然截然不同。
我不确定人工智能产品的"公式"是什么,但我认为它应该包含类似的元素,例如模型个性、产品框架的规范性以及难以量化的产品氛围,我不知道。
市面上有众多不同的模型和提供商,开源也是一条可行的路径,而知识蒸馏则备受争议。如果知识蒸馏最终能够推动行业发展,它是否真的有错?
即使在各个实验室内部,能够将高端模型的知识迁移到低延迟、更经济的模型上也至关重要。 我认为更有趣的问题是,我们是否希望任何国家都能从其他国家的模型中进行知识蒸馏?我个人认为不应该。
即使人工智能的能力不断提升,从国家安全的角度来看,我们需要谨慎对待这个问题。此外,为了实现可持续的长期发展,我们需要让技术进步的速度保持合理,并允许实验室将他们的训练、创新成果商业化。找到合适的长期发展模式至关重要。开源模型,例如 LLaMA,已经能够通过自主研究、数据收集和模型训练来实现这一点。因此,我认为知识蒸馏并非解锁这些成果的必要条件,反而可能引发其他问题,例如服务条款方面的争议。
Llama是否意味着模型本身没有价值,所有价值都蕴藏在数据中?如果 Facebook 愿意免费开源 LLaMA,是因为他们知道没有人能够复制他们的数据吗?
这是一个值得思考的问题。LLaMA 的质量是否源于他们可以使用 Instagram 和 Facebook 的数据进行训练,尽管他们并未明确表示?Gemini 是否受益于 YouTube 数据的训练?这一点在我看来更明显。
当 Gemini 展示优秀的视频理解 demo 时,我会想,他们或许拥有世界上最大的视频库,并能够利用这些数据进行训练。但在 Facebook 方面,我从未听人说过 LLaMA 擅长生成适合社交媒体的内容。它看起来更像一个优秀的通用模型。 这又回到了我们之前的讨论:价值在于团队的优秀程度、是否拥有必要的数据,以及模型在实际应用场景中的实用性。这才是最重要的。
我真希望一开始就从这一点讲起,因为抛开评估不谈,评估虽然对爬山算法和内部研究很有用,但却无法说明模型在实际部署中是否会表现出色,或者它的应用场景是什么,又或者它是否只在特定条件下表现出色。作为实验室之外的创业者,能否将模型作为产品的核心竞争力至关重要。
因此,我认为实验室的价值在于团队、模型在现实世界中准确执行任务的能力,以及尽可能降低非确定性,保证模型的可靠性。
低估中国在AI前沿领網域进行训练和持续创新的能力绝对是错误的
我想问一个问题,我们是否低估了中国的 AI 能力?
我认为人们对中国存在一些前沿研究团队的事实感到惊讶。如果你一直关注这个领網域,这部分其实并不应该令人意外。我们看到了一个类似"平行世界"的创业生态的出现,如果你取下Facebook和Instagram,会发现中国的产品往往质量很高,展现了很强的创造力,并且是大规模构建的。人们喜欢谈论的超级应用和微信,它们解决了与Facebook面临的技术挑战相同规模的问题。
所以,低估或继续低估中国在人工智能前沿领網域进行训练(尤其是获得算力之后)和持续创新的能力绝对是错误的。 一些中国产品已经形成了差异化优势,并在中国国内市场发展壮大,然后走向海外市场。TikTok 就是一个很好的例子。
在我们讨论具体产品之前,最后一个问题:DeepSeek 是否让你重新思考或改变了一些事情?
在架构方面,我不会代表研究团队发言,但 DeepSeek 的一些做法让他们觉得很有趣,值得借鉴,或者重新评估一些之前考虑过的想法。
我们的计划是在推出推理模型时展示思维链。DeepSeek 和 Grok 都有一些用户界面方面的细节值得关注。关于你提到的知识蒸馏问题,这或许可以解释为什么越来越多的实验室选择不公开或隐藏思维链。
从产品角度来看,有两点值得一提。DeepSeek 在短时间内就获得了极高的知名度,甚至在很多圈子里比 Claude 更有名。
DeepSeek 的成功突破,引发了我对 Claude 的反思。 他们什么突破,可能是Claude没有做到的?
DeepSeek 以更低的成本实现了类似的功能,这成为了一个热门话题,无论其真实性如何。我也和我们的营销团队讨论过,我们还没有很好地对外讲述 Claude 的故事,例如,Claude 3 使用的团队规模远小于其他实验室,却依然能够训练出最先进的模型。我们在算力使用方面也一直非常高效。DeepSeek 的故事之所以引人注目,或许是因为它恰逢其时。
DeepSeek 的另一个成功之处在于产品。他们很快就推出了一款功能完善的 iOS 应用。这促使我们思考,需要更快地将想法推向市场,不必过度追求完美,而是要勇于尝试,从实践中学习。新颖的用户体验本身就很有价值。DeepSeek 是第一个让大多数用户体验到实时思维链产品的公司。我希望我们早点推出类似的功能。
你观察到新兴市场的用户留存率较高,而西方市场则不然。你如何看待 DeepSeek 的持续竞争力?
它们已经达到了一种知名度,这种知名度本身就有一定的能力,能够持续保持用户的留存。我认为在这些以AI为主导的实验室产品中,即使是六个月后,我们也会问一些问题,比如是否有一些轻微的主动性。但我不认为这是长期的差异化或有趣的点。它应该是"哇,我现在可以做某件独特的事情,因为我使用了DeepSeek,或者其他任何产品,它为我节省了数小时的工作,让我变得更聪明,让我成为我生活中重要人物的更好的伙伴。"
它必须超越表面的实用性。不要误会,有些人确实找到了更深层次的价值,这些人就是你们的早期用户。但对很多人来说,他们只是尝试一下,用它生成一首诗,或者给他们的儿子写一封信,这些都能在当下提供一些价值,但仅此而已。
但我仍然认为我们处于"AI成为大多数人工作中不可或缺的一部分"的第一天,我认为答案是"不",对大多数人来说不是。所以,我认为DeepSeek和其他所有产品的持久性将来自谁能实现这一点,并在长期内可持续地做到这一点,拥有正确的产品设计、正确的集成和正确的部署,以真正取得成功。
模型的通用性非常重要
谁能构建这些产品,这是我作为投资者的一个重要问题,即模型供应商何时会转变为应用供应商?我很想听听你对从模型供应商向应用供应商转变的看法。什么足够吸引人,让你愿意投入资源成为应用供应商,而不仅仅是模型供应商?
我主要考虑两个标准。因为Anthropic的团队规模很大,你知道的,我认为我们的产品团队可能只有其中的十分之一。按照Instagram第二年的标准,这已经相当大了,但与大型SaaS公司相比,这又非常小。我们处于这些不同的中间地带,我们支持很多不同的产品,比如我们现在有云代码、API、Claude、Claude for Work等。
所以,我认为通用性非常重要,即使我们选择一个特定的用户群体或垂直领網域,我们也会构建通用型的产品,可能会在用户层面有一些定制化,但我不认为我们会构建很多针对特定工作流程或用例的定制化体验。
我认为,有很多有价值的工作流程和知识,这意味着你可以随着时间的推移保持差异化的产品。
如果你经常使用像Elven这样的控制台和工作台,你会发现它们构建的许多功能显然是为那些需要翻译数小时内容,或者用可靠的声音处理大量内容的人设计的。Descript在这方面有非常好的产品设计,他们显然在工作流程上投入了大量时间。我曾经用它做过一次个人播客,当时我就觉得,这显然是由那些每天都在这个工作流程中工作并理解它的人设计的。
我认为在消费者甚至专业消费者上,从基本的人工智能产品角度看,它已经足够好了。
看看你今天擅长的事情,你在代码方面做得非常好。正如我们之前所说,是否有一个路线图来开发你自己的IDE(集成开发环境)或者代码代理?你是如何从产品聚焦的角度思考这个问题的?
我认为我们需要谨慎地选择我们的方向。即使在构建过程中,我们开发了Claude Code,这是一款我们刚刚发布的命令行代理编码工具,最初是内部使用,因为我们只是想加速我们自己的团队。
在使用了两个月后,我们觉得这很不错,虽然它并不是解决所有编码问题的万能钥匙,也不会取代IDE,但在足够多的情况下对我们很有用,我们希望看到人们在现实世界中使用它。
然后,你知道的,发布产品从来都不是免费的,你需要给它起个名字,找到合适的包装方式,这涉及到市场推广的问题。所以,我们很谨慎地去做这件事。
我认为,以目前模型的水平来看,你仍然需要亲自上手键盘操作,仍然需要那种交流:"嘿,我做了这个,这是对的吗?""好的,我们朝着这个方向前进。""是的,这很好,我们提交一个功能请求。""不,我们走错了路,让我们像解开堆栈一样,从比喻意义上说,也许是一个实际的用例,然后继续前进。"
这就是为什么我认为在IDE和完全的认知开发(即完全的任务委托)之间,有一个中间的角色。我们的产品工程师非常喜欢Claude Code,因为很多产品工程工作都是这样的:"我们需要更新后端,我们需要创建前端,我们需要将这些内容提交翻译……哦,这还是不行,让我来处理。"这是一种可以跨多种不同任务代理工作的端到端工作流程。
上周我做了两个Pull Request(代码合并请求),自从加入Anthropic以来,我还没有编写过代码,这让我感到有些沮丧。所以我终于可以使用Claude Code了。我之前从未打开过我们的代码库,所以我甚至不知道它的结构,但Claude Code非常擅长找到包含正确片段的檔案,然后继续进行编辑。
当然,并不是每个人的情况都和我一样,但在这些用例中,它是非常有价值的。所以,当我思考编程领網域以及我们可以在哪里发挥作用并增加价值时,它真的在于代理方面,而不是IDE方面。
有其他公司在思考如何打造一个出色的IDE,这涉及到低延迟的自动补全,涉及到如何与VS Code插件生态系统等复杂性进行整合。
那里有很多有价值的工作,与我们所做的事情不同。我认为我们可以在与这些模型的对话中,在代理循环中真正发挥作用,但要认识到它们还没有达到可以在许多用例中自由运行几个小时的程度。你需要更多的人类干预。
两方面投入不足:第一方产品的迭代速度和在API方面构建超出"输入输出Token"的抽象
正如你所说,自从加入Anthropic以来,你第一次编写代码,以及我们看到的开发人员行为的变化,你认为三到五年后軟體开发人员的角色会是什么?
我认为它已经开始看起来不同了。我一直是GitHub Copilot的早期支持者,我的评价可能还在首页上,我不知道它是否还在那里。因为我看到了它的潜力,我试图用它来编写Swift代码,我会画出我试图构建的螢幕的ASCII艺术,然后去喝咖啡,因为当时它相当慢。
回来后,它已经有了一个80%的版本。显然,现在它会是一个95%到99%的版本。我认为,变得重要的技能是跨学科的,不仅是知道如何实现,更重要的是知道要构建什么。我喜欢我们的工程师,他们的许多甚至可能是大多数好的产品想法都来自他们自己原型设计。我认为这就是许多开发人员角色最终的样子。
第二点是,代码审查发生了变化,当突然间你主要在评估AI生成的代码时。我甚至经历过这种情况,我提交了一个Pull Request,一些反馈意见是:"Claude Code在这里有时会这样做,但我们实际上并不在这种情况中使用默认参数。"我心想:"哦,该死,如果我亲自编写代码,我可能会更好地注意到这些模式。"
所以,需要发生两件事:一方面,模型和模型基础设施需要更好地从代码库和代码审查中学习,以便它们能够产生符合公司风格的代码;另一方面,我们如何从主要是代码编写者转变为主要是模型的委托者和代码审查者。我认为这就是三年后的工作,提出正确的想法,进行正确的用户互動设计,弄清楚如何正确地委托工作,然后弄清楚如何大规模地审查代码。
这可能是某种组合,比如一些静态分析工具的回归,或者由AI驱动的分析工具来检查实际产生的内容,比如是否存在安全漏洞、是否存在其他缺陷或错误。计算机的作用也在这里,你可以看到我对这个领網域非常兴奋,比如自动化的UI测试。
理想的情况是,一年后,甚至三年后,你把任务委托给它,当你回来时,它会说:"我考虑了这三种方法,我测试了它们,另一个代理在浏览器中尝试了它们,这种方法效果最好。我通过另一个代理进行了漏洞测试,一切看起来都不错。我们只需要帮你解决这个问题,让我们审查这段关键代码,以确保它真的是你想要的。"这感觉像是你突然被赋予了更多管理者的角色,而不是仅仅作为过程中的合作伙伴。
你说三年听起来很荒谬,一年会更现实。我同意。当我们看到产品的发布速度时,我们是否会达到一个平台期或渐近线,因为现在速度感觉非常快。正如我们之前所说,我们是否会达到一个平台期,还是会继续这种指数级的进步?这是一个我经常思考的问题。
今年年初,我开始审视我们的产品开发流程,看看我们在哪些地方使用了云服务,哪些地方没有。Claude可以在将初始想法转化为产品需求文档(PRD)方面发挥作用,显然在编码方面也很有用。Claude还可以整合关于产品的大量对话,找出那些棘手的分歧问题。
推动共识,真正弄清楚要构建什么——这仍然是最难的部分。实际上,这仍然是唯一可以通过聚集在一起、讨论优缺点或在Figma中探索并返回来最好解决的问题。就像任何动态系统一样,如果你优化了一个部分,其他部分就会突然成为瓶颈或关键路径。我认为,对齐、决定要构建什么、解决真实用户问题以及弄清楚连贯的产品战略仍然是非常困难的,我认为模型至少还需要一年才能解决这些问题。
这就是为什么我对至少在STS(可能是某种技术或产品名称)探索这个领網域充满信心,因为我记得在Instagram和Artifact的时期,对齐是一个下午的咖啡对话,而不是驾驭一家有客户承诺的大公司的航向。这仍然是一个非常人性化的难题,我认为模型至少还需要三年才能解决。
当你考虑为消费者构建产品与构建公司API部门(这非常重要)之间的平衡时,你是如何看待这两者之间的平衡和权衡的?
从我们从每个产品中获得的东西来看,我认为我们通过第一方产品学到了更多。以Claude Code为例,它在内部部署后的一个星期内,我们就发现它所使用的一种工具并没有被模型充分利用,而这种改进直接被应用到了3.7 Sonet中。这就是内部使用第一方工具直接导致下一代产品改进的一个例子。
还有其他一些地方,我们发现与第三方产品合作要困难得多。他们可能会告诉你哪里出了问题,但这种合作相对比较间接。尽管我们与你提到的一些编程初创公司合作得非常紧密,但仍然没有直接参与的感觉。所以,我们在这些合作中学到了很多东西。然后还有品牌忠诚度的问题。
我认为,从消费者的角度来看,围绕一个产品建立品牌比仅仅围绕一个API更容易。我们为许多编程产品提供支持,这在下拉选择器中通常是默认选项,但并不是每个人都知道这一点。它并不是人们下载或安装的东西,也不是他们会向他人推荐的东西。
但同时,我们也通过这种方式获得了巨大的分发渠道。我们不可能发明每一家公司,而且通过这种方式,我们可以像我过去投资时一样,看到更多机会,有更多的"进球机会",而不是把所有精力都放在一件事情上。所以,从资源分配的角度来看,我认为我们在这方面做得相对平衡。
如果有什么不足的话,我认为我们在两方面都稍微投入不足。一是加快第一方产品的迭代速度,这目前是我的主要关注点;二是在API方面,我们如何构建超出"输入输出Token"的抽象。每次我们这样做时,我们都会收到很多反馈。
无论是帮助模型像代理一样规划和工作,还是让模型构建更多关于公司内部运作的知识库,或者完善工具的使用,或者理解大量上下文并拥有超越对话的记忆——我认为这些都是值得我们在API上解决的问题,因为我们可以将训练中学到的东西直接映射到API上,并围绕它构建好的产品。这就是我对这两者的看法。但在Instagram上,这很容易,因为它是95%的产品和5%的API——这就是我们真正需要做的。
你能做些什么,以及你会做些什么,来加快第一方消费者产品的开发速度?
我认为有两件事。一是认识到我们实际上是在运行一家大公司的剧本,而我们的产品仍然处于初创阶段。即使公司发展良好,API业务发展顺利,人们正在使用云 AI 并更新云 AI Pro,但我们仍然处于早期阶段,这仍然是一个生死攸关的时刻。
我们需要以这种方式运作,这意味着更快地召集合适的人,打破组织界限。我们不能让组织变得僵化,比如"这是这个团队的事,而不是那个团队的事",或者"这个季度做不到,因为这不是这个团队的任务"。我知道组织的发展是有其自然规律的,但我们现在不能承受这种僵化。所以,我们更多地是召集合适的人,清除其他干扰,甚至清理我的日程,以便我花更多的时间在产品评审和设计评审上,而不是在行政事务上。
AI是未来人类互动的一个补充,但不足以替代真实人际互动
西方公司,包括你和OpenAI,是否因为资金过多而受到限制?
我认为,我们产品的采用速度已经超出了它们真正的市场契合度,因为它们仍然是获取模型的最佳方式,但我不认为这种优势能够长期保持,所以我不认为这是一个可以依赖的优势。其次,我认为我们没有很好地满足用户的需求,因为我们还没有开发出正确的产品。这就是我每天早上感到压力或受到激励的原因,这取决于哪一天。我觉得我们在这一方面还有大量的工作要做。
快速问答环节:
OpenAI在哪些方面做得比你们好?
他们在模型尚未完全准备好时更快地推出v1版本。
他们在哪些方面做得不如你们?
可能是产品的个性和功能的连贯性。
你最尊重哪家替代模型提供商?
OpenAI。我认为他们在第一方产品开发和API之间取得了平衡,人们在大规模使用API的同时,也能很好地使用他们的产品。我们有一个Instagram的原则,就是先做简单的事情,我认为他们通常也是先做简单的事情。
如果让你从头开始重建Anthropic的产品和堆栈,你会做些什么不同?
我喜欢这个问题。我认为我们去年构建的一些真正有价值的东西,现在感觉有些信息架构上的成本。听起来这可能有点技术性,但基本上,人们不应该需要考虑项目、工件、聊天以及它们之间的关系。我认为,把所有东西都推倒重来,真正重要的是你是否能够进入正确的对话,是否能够始终知道在产品中下一步该去哪里,以及Anthropic和Claude本身是否能够成为一种引导你进行下一步工作的工具。这是一个与"我知道如何创建一个项目"完全不同的范式。
如果你擅长这个,这是一个很棒的产品,但中间有很多步骤。所以,这就是产品方面的问题。在堆栈方面,Claude AI和可能的ChatGPT.com最初只是为了展示模型的能力而构建的,并没有真正为构建一个更复杂、多产品的生态系统奠定基础。
目前,我们正在积极努力推倒一些东西,重建核心用户体验,让它感觉更好。现在它并不完美,它感觉有点像一个随着时间演变的产品,它曾经有其存在的意义,但现在被要求做更多的事情。因此,增量的添加变得更加困难,速度也变慢了。
在过去12个月里,你改变了对什么的看法?
第一方产品的重要性。我看到API的增长后,觉得我们应该在这方面投入更多的时间。如果你不在这方面进行同等甚至更多的投资,你会错过很多机会,也不会有足够的持久竞争力。在这一点上,我们迟到的代价有多大?我认为代价很大。以DeepSeek为例,理想的情况是,我们应该更好地捕捉到"不止有一种领先的API或AI产品可供使用"的故事。我认为我们在这一点上受到了伤害。
在AI领網域,有一个尚未被广泛讨论但你认为至关重要的技术或产品挑战是什么?
随着模型能力的增强,它们将成为头条新闻,这基本上涉及到判断力和隐私。随着模型能力的增强,它们也会变得更加知识渊博。你会与它们进行从非常私密到公司敏感信息的对话,它们还会接触到你公司的所有事务。
每个人都喜欢谈论代理之间的互动,但很少有人思考或讨论这两者的交叉点:你是否信任你的Mike代理或Harry代理在世界上活动,而不被破解或泄露它所知道的私人或敏感信息?我认为,就像我的5岁女儿一样,看着她与一个刚认识的人交谈是很有趣的,因为她还没有学会区分我们家庭的秘密和私事,以及可以与新朋友或收银台旁的人谈论的事情。
这种判断力是人们随着时间逐渐获得的,我认为模型在这方面被严重低估,可能在模型能力研究方面也研究不足,因为模型本质上是想提供帮助,而这并不总是你想要的。除了安全性的考虑之外,我认为还有隐私和数据安全的考虑。
你是否担心你的5岁女儿会更习惯与模型和代理交流,而不是与人类交流?
我和Alex Wang就这个问题进行了很多讨论,因为他坚信未来大多数朋友将是AI朋友。我认为他并没有错。我认为在某些方面,这种情况已经开始发生。人们有很多在线游戏体验,其中一些是NPC(非玩家角色),你可能会在那里感到更舒适,即使你没有突破这一点。我确实担心……她非常外向,所以我不太担心她的情况。
但从更广泛的意义上说,人们可以从这些体验中学到很多东西。比如,我是一个比较笨拙的青少年,我可能可以从一些AI互动中受益,通过这些练习来提升自己。但同时,这并不是真正的互动,它并没有完全闭环真实互动的后果。就像阅读关于你和高中女友第一次激烈争吵的文章,然后真正经历它。
当你处于那一刻时,你会意识到这是完全不同的。与模型进行情感角色扮演相比,与真人进行同样的互动,当然也有很大的不同。所以,我认为这是未来人类互动的一个有用的补充,但绝对不足以替代真实的人际互动。
欧洲在未来十年的AI驱动世界中会变得更重要还是更不重要?
我希望欧洲表现出色,因为我很喜欢欧洲。我看到一个有点自相矛盾的论点:如果真实世界的体验和人际互动变得更加被重视,欧洲可能会变得更加有价值,就像世界的感官体验之都。这听起来有点奇怪,好像这就是你们所依赖的全部,这感觉有点局限。
但我认为,从欧洲的角度来看,真正有趣的是,欧洲人往往非常坚持某些生活方式或社会价值观,然后他们至少会尝试将其纳入最佳实践甚至法律中。所以,即使我们在考虑产品设计、数据隐私,或者向德国用户或公司销售产品时,也会被问到一系列不同的问题,这些问题往往是很有帮助的。
也许欧洲的乐观情况是,这些问题实际上对每个人都很重要,他们将处于提出这些问题的前沿。我认为从实验室的角度来看,这是一个更难回答的问题。也许有一些因素的组合,比如获得计算能力,或者他们进一步向价值链上游移动。如果在这些模型之上构建应用变得更加容易,你可以从0到1快速成长,并且比这些拥有数亿用户的实验室更灵活,那么创新可能会在那里发生,但这可能需要一个不同的监管和创业生态系统环境,才能真正实现这种情况。
达里奥说,这将是能够活到150岁的时代。我稍微篡改和总结了他的原话,但确实,这可能是能够活到150岁的那一代人。我对此非常乐观。我的母亲患有多种疾病,我相信AI会找到治愈像多发性硬化症这样的疾病的疗法。你是否同意他的乐观态度?你如何看待AI延长人类寿命和寿命延长的问题?
我认为潜力是巨大的。从今天的情况来看,AI已经在帮助药物发现和临床试验的闭环中发挥作用。例如,诺和诺德公司过去需要15周来完成临床试验报告,现在通过使用云技术,仅需20分钟就能完成。这是一次质的飞跃。
当然,这之前有多年的研究作为基础,我不是说我们将多年的流程缩短到了几周或几分钟,但这就是我们可以加速的流程的一个例子。
现在,像ARC这样的科学和研究所,他们正在研究细胞的基础模型。有了这些模型,你可以突然在真实的细胞模型上进行实验,这应该会极大地加速药物发现和实验的进程,因为我们正在切断一个循环。
我认为AI在许多领網域都被低估了,尤其是在其潜力方面。我认为我们这一代最聪明的人中,有一些曾经专注于投放更精准的广告,也许在某个阶段这是正确的。但如今,许多人正在研究如何构建在许多领網域都非常有用、有价值和智能的模型。