今天小编分享的教育经验:AI工具,让8小时分析工作缩至5分钟:红杉资本采访OpenAI 的DeepResearch团队(附视频),欢迎阅读。
以下文章来源于 AI 深度研究员 ,作者 AI 工作坊
作者 | AI 工作坊
来源 | AI 深度研究员 管理智慧
咨询合作 | 13699120588
文章仅代表作者本人观点
OpenAI 刚刚宣布,DeepResearch 正在向所有 ChatGPTPlus、Team、Edu 和 Enterprise 用户推出。就在这一重大消息发布前,红杉资本合伙人 SonyaHuang 和 LaurenReeder 昨天主持了一场备受关注的采访,深入对话了 OpenAI 的 DeepResearch 产品负责人 IsaFulford 和 JoshTobin。这款三周前首次亮相的智能体产品已迅速在科技界获得认可,吸引了从知名人士 cisin 到众多行业专家在内的广泛用户群。
" 它能在 5 到 30 分钟内完成人类需要数小时才能完成的任务 "
作为 OpenAI 继 "Operator" 之后推出的第二个智能体产品,DeepResearch 通过端到端强化学习训练,能够像经验丰富的研究员一样思考、搜索并生成报告。JoshTobin 在采访中透露:"DeepResearch 是第二个智能体,你知道,我们未来会发布更多。" 当被问及 2025 年的技术突破点,Josh 和 Isa 不约而同地回答:" 智能体。"
" 这不仅仅是让你节省 5% 的时间,而是将原本需要 8 小时的任务缩减至 5 分钟 "
更为重要的是,DeepResearch 可能标志着知识工作的轉捩點。虽然 Isa 强调 " 我不认为这是劳动替代之类的事情 ",但这种效率质变必将重塑工作本质。一项原本需要数天的研究,现在只需几分钟,不仅节省时间,更扩展可能性边界。如 Isa 所言:" 如果你有无限的时间,你会做什么?现在也许你可以做很多很多份工作。"
DeepResearch 特点
DeepResearch 不只是一个普通的搜索工具,而是 OpenAI 精心打造的专业研究助手。根据 IsaFulford 在红杉资本采访中的描述,这款产品的核心价值在于其整合信息的能力:" 它能够进行更深入的研究,并以比常规 ChatGPT 响应更详细和更具体的来源回答你的问题。" 这种能力直接解决了当今信息爆炸时代的一个核心痛点:如何从海量数据中提取有价值的、相关的信息。
1、核心功能
从功能角度看,DeepResearch 具备多项关键能力。首先,它可以搜索众多在线网站,不局限于单一信息源;其次,它能创建结构化、全面的报告,而非仅提供简单答案;第三,它支持影像嵌入和图表创建功能,丰富了输出形式。正如 JoshTobin 在采访中所强调的,DeepResearch" 非常擅长在互联网上找到非常晦涩、奇怪的事实 ",这一能力使其在专业研究领網域尤为有价值。
此外,该产品还具备强大的综合分析能力。Josh 在采访中指出:" 它通常会使用带有大量引文等的表格 ",这种方式不仅提高了信息的可读性,也增强了结论的可信度。Isa 进一步补充,模型 " 能够嵌入影像 " 并 " 创建图表 ",这些功能未来将进一步集成到 ChatGPT 中。
2、技术架构
从技术角度看,DeepResearch 代表了 OpenAI 在智能体开发方面的最新突破。IsaFulford 在采访中详细解释了其技术基础:" 驱动 DeepResearch 的模型是我们最先进的推理模型 o3 的微调版本,我们专门在收集的困难浏览任务以及其他推理任务上训练了它。它还可以访问浏览工具和 Python 工具。"
这种架构设计反映了 OpenAI 对端到端强化学习方法的重视。JoshTobin 解释道:" 直观地,你可以这样想:你提出一个请求,最好是一个详细的请求,关于你想要什么,模型会认真思考,搜索信息,提取信息,阅读信息,理解它与请求的关系,然后决定接下来搜索什么,以接近你想要的最终答案。"
与传统的智能体构建方法不同,DeepResearch 采用了端到端训练方法,而非预定义操作图。Josh 在谈到此前在创业公司的经验时指出:" 大多数人在互联网上描述构建智能体的方式,基本上是,你构建一个操作图,其中一些节点是语言模型 ... 但在现实世界中很快就会失败,因为很难预测模型可能面临的所有场景。" 相比之下,DeepResearch" 是直接端到端训练来解决用户使用它来解决的任务类型 ",这使其能够更灵活地应对复杂、多变的研究场景。
Isa 进一步补充了这种方法的优势:" 因为我们有能力进行端到端训练,在做研究的过程中有很多事情是你事先无法预测的,所以我不认为可以编写某种语言模型程式或脚本,能够像模型通过训练学到的那样灵活,它实际上是对实时网络信息的反应,并根据看到的内容改变策略等。"
3、与 OpenAI 其他产品关系
DeepResearch 是 OpenAI 不断扩展的产品矩阵中的重要一环。JoshTobin 在采访中解释了它与其他产品,尤其是 Operator 的关系:" 今天,这些是相当独立的,但你可以想象我们正在朝哪个方向发展,对吧?最终的智能体,人们在未来某个时候能够访问的智能体,应该能够做的不只是网络搜索或使用计算机或你希望像人类助理做的那样做任何其他类型的行动,而是应该能够以更自然的方式融合所有这些东西。"
在功能定位上,DeepResearch 与 O 系列模型也有明确的区分。Josh 解释道:"DeepResearch 真正擅长的是,如果你有一个关于你想要什么的详细描述,并且为了得到最佳答案需要阅读大量互联网内容。" 相比之下," 使用 O 系列模型,如果我要求与编码有关的事情,通常不需要模型从预训练中知道的知识之外的知识,所以你通常会使用 01Pro 或 o1 进行编码,或者 o3minihigh。" 用户互動流程与澄清机制设计
DeepResearch 的用户互動设计体现了 OpenAI 对用户体验的深入思考。最具特色的是其澄清流程,Isa 解释道:" 如果你使用过 DeepResearch,模型会在开始研究之前问你问题,通常 ChatGPT 可能会在响应的末尾问你一个问题,但它通常不会在前面有这样的行为,这是故意的。"
这一设计源于一个重要认识:" 如果你想要研究模型的最佳响应,提示必须非常具体和详细,而且我认为用户在第一个提示中提供所有信息并不是自然的行为。" 因此,团队添加了这个额外步骤," 以确保用户提供我们需要的所有细节 ",特别是考虑到用户可能需要等待 5 到 30 分钟才能获得响应。有趣的是,这一设计已经催生了新的用户行为模式。Isa 提到:" 我在 Twitter 上看到很多人说他们有这个流程,或者他们会与 o1 或 o1Pro 交谈,以帮助使他们的提示更详细,然后一旦他们对提示感到满意,他们就会将其发送给 DeepResearch,这很有趣,所以人们正在找到自己的工作流来使用这个。"
产品开发历程
DeepResearch 的诞生源于 OpenAI 团队对新推理模式的探索和应用。JoshTobin 在接受红杉资本采访时回忆道:" 我想大概一年前,我们在内部看到了一种新的推理范式取得了很大的成功,即训练模型在响应前进行思考。我们当时主要关注数学和科学领網域,但我认为这种新的推理模型范式解锁的另一件事是,能够执行更长期的任务,这些任务涉及类似智能体的能力。"
1、产品的演变
这一洞察为 DeepResearch 的开发奠定了概念基础。团队认识到,许多真实世界的任务 " 需要大量的在线研究或大量外部背景知识,这涉及到很多推理和区分来源的能力,而且你必须非常有创造力才能完成这些任务 "。随着模型能力的提升,OpenAI 终于找到了解决这类复杂任务的技术路径:" 我想我们终于有了模型或训练模型的方法,使我们能够应对这些任务。所以,我们决定尝试开始训练模型来执行浏览任务,使用与训练推理模型相同的方法,但在更真实世界的任务上。" 从初始概念到成熟产品,DeepResearch 的发展过程体现了 OpenAI 对产品迭代和用户需求的高度重视。虽然采访中没有详细披露具体的开发时间线,但可以看出团队经历了从技术原型到功能完善的产品演进过程,并对特定场景(如医学研究、市场分析)进行了专门优化。
2、产品开发团队
DeepResearch 的开发汇集了 OpenAI 内部多位杰出人才的智慧。根据采访内容,产品最初由 IsaFulford 和其他同事共同构思。Isa 回忆道:" 一开始是我和 OpenAI 的其他同事,正在做一个类似的项目,未来某个时候会发布,我们对此非常兴奋。"
在早期开发阶段,ThomasDimson 发挥了关键作用,Isa 这样评价他:" 他是那种非常出色的工程师,会深入钻研任何事情,完成大量工作,所以非常有趣。" 这反映了项目在技术实现上的专业性和严谨性。JoshTobin 则是在项目后期阶段加入的重要力量。他在采访中说道:" 我是最近才加入的,大约六个月前,我从我的初创公司重新加入 OpenAI。我在早期曾在 OpenAI 工作过,重新加入后,我在项目中四处看看,对我们的一些 Human-MachineTeamwork 工作非常感兴趣,包括这个项目,于是就参与进来了。"Josh 带来了在初创企业积累的智能体开发经验,为项目提供了新的视角。
此外,采访中还提到了 EdwardSun,Josh 称他为 " 项目中的另一个人 ",并强调他在数据集优化方面的卓越能力:" 他会优化任何数据集,所以这是成功的秘诀,找到你的 Edward。"
这些核心团队成员的背景与专长各不相同,但共同的目标是构建一个能够有效处理复杂研究任务的智能体产品。他们的努力最终促成了 DeepResearch 的成功发布和广泛应用。
3、技术突破点
开发 DeepResearch 的过程中,团队面临并克服了多项技术挑战。其中最核心的挑战之一是如何训练模型执行灵活、开放式的研究任务,而非固定流程的操作。
JoshTobin 分享了他在此前创业过程中的关键发现:" 大多数人在互联网上描述构建智能体的方式,基本上是,你构建一个操作图,其中一些节点是语言模型,所以语言模型可以决定下一步做什么,但发生的步骤序列的总体逻辑是由人类定义的。我们发现这是一种快速构建原型的有力方式,但在现实世界中很快就会失败,因为很难预测模型可能面临的所有场景,并思考你可能想要采取的所有不同路径的分支。" 这一洞察促使团队转向端到端训练方法,让模型直接学习如何执行复杂的研究任务,而不是预定义操作流程。Josh 解释道:" 我认为这个模型真正强大的地方在于,它是直接端到端训练来解决用户使用它来解决的任务类型,所以你不必在后端設定图或做出这些节点决策,所有这些都由模型本身驱动。"
IsaFulford 进一步阐述了端到端训练的独特优势:" 因为我们有能力进行端到端训练,在做研究的过程中有很多事情是你事先无法预测的,所以我不认为可以编写某种语言模型程式或脚本,能够像模型通过训练学到的那样灵活,它实际上是对实时网络信息的反应,并根据看到的内容改变策略等。所以我们实际上看到它进行了相当有创意的搜索,你可以阅读思维链摘要,我相信你有时会看到它在想出下一步要查找什么时非常聪明。"
另一个重要挑战是确保模型生成内容的可靠性。正如 JoshTobin 所强调的:" 这显然是这个模型和产品的核心部分,我们希望用户能够信任输出,所以其中一部分是我们有引文,用户可以看到模型从哪里引用信息,我们在训练期间实际上会努力确保这一点是正确的,但模型仍然有可能犯错误或幻觉,或者信任一个可能不是最值得信赖的信息来源,所以这绝对是我们希望继续改进模型的活跃领網域。"
4、高质量数据集
在 DeepResearch 的开发过程中,高质量数据集的构建被视为成功的关键因素之一。JoshTobin 作为后期加入的团队成员,对此有着清晰的观察:" 嗯,我的意思是,也许我可以作为一个观察者来说,而不是从一开始就参与其中的人,但似乎 Isa 和团队其他成员非常努力地工作,并且是成功的关键之一是制作高质量的数据集。你知道,这是机器学习中人们不断重新学习的古老教训之一,但你输入模型的数据质量可能是你获得的模型质量的最大决定因素。"
EdwardSun 在数据集优化方面发挥了突出作用,团队反复强调了高质量训练数据在实现模型卓越性能中的重要性。这反映了 OpenAI 在 AI 开发中的一贯理念——尽管模型架构和训练方法至关重要,但没有高质量的训练数据,即使是最先进的神经网络也无法发挥最佳性能。
对于 DeepResearch 这样需要在复杂、多样化场景中执行开放式任务的智能体,数据集质量的重要性更加凸显。团队不仅需要收集各类研究任务的样本,还需要确保这些样本覆盖不同领網域、不同难度级别的研究场景,以培养模型的通用研究能力。
DeepResearch 应用场景
1、专业领網域应用
DeepResearch 在专业领網域展现出强大的应用潜力,为各行各业的知识工作者提供了前所未有的研究效率。IsaFulford 在红杉资本的采访中明确指出:" 它真的是为那些在日常工作或生活中从事知识工作的人准备的。所以,我们看到很多使用来自工作中的人们,比如,作为工作的一部分进行研究,了解市场、公司、房地产,还有很多科学研究、医学研究,我认为我们也看到了很多医学示例。"
在商业分析领網域,DeepResearch 能够快速整合市场信息、竞争对手数据和行业趋势,帮助决策者制定更明智的战略。主持人 LaurenReeder 分享了一个实际案例:" 我的一个朋友正在考虑创办一家 CPG 公司,他一直在用它来寻找类似的产品,看看特定的名称是否已经被使用,網域名是否已经被占用,市场规模等等,所有这些不同的东西。" 这种全方位的市场研究能力,大大降低了创业者的信息收集成本。
医学研究是另一个备受关注的应用场景。JoshTobin 表示:" 我对很多医学用例感到非常兴奋,只是能够找到某个病情的所有文献或所有最近的病例,我认为我已经看到很多医生发帖关于这个,或者他们联系我们说,哦,我们用它来做这个,我们用它来帮助为这个病人找到临床试验或其他东西。" 在医疗环境中,DeepResearch 的快速文献综述能力可以帮助临床医生掌握最新研究成果,为患者提供更精准的治疗方案。
令人意外的是,技术文档检索也成为了 DeepResearch 的热门应用场景。Isa 承认这超出了团队的预期:" 我认为我最惊讶的是有多少人用它来编码。是的,这并不是我真正考虑过的用例,但我看到很多人在 Twitter 和我们收到反馈的各种地方用它来进行编码和代码搜索,还用于查找某个包的最新文档或帮助他们编写脚本之类的东西。所以,是的,我有点尴尬,我们没有想到这个用例,因为对于 ChatGPT 用户来说,这似乎很明显,但它的表现确实令人印象深刻。" 这表明,DeepResearch 在技术领網域的应用远比最初设想的更加广泛。
2、个人使用场景
除了专业应用外,DeepResearch 在个人生活场景中也展现出强大潜力。IsaFulford 特别强调了这一点:" 我们还非常兴奋的是,这种风格的—— ' 我只需要花很多时间去做某件事,我必须进行一堆网络搜索并分类一堆信息 ' ——这不仅仅是工作上的事情,对购物和旅行也很有用。"
在消费决策方面,DeepResearch 能够整合产品评价、技术参数和用户反馈,帮助消费者做出更明智的购买决定。Isa 分享了自己的亲身体验:" 对我来说,天哪,我在考虑买一辆新车,我想知道这款车的下一个型号什么时候发布,有很多推测性的博客文章,比如制造商的模式等等。所以我问 DeepResearch,你能分解关于这款车的所有八卦吗?还有他们之前做过什么,这家汽车制造商的历史。它整理了一份惊人的报告,告诉我也许等几个月,但今年,比如在接下来的几个月里,它应该会发布。"
旅行规划是另一个主要的个人应用场景。Isa 提到:" 我们在日本为 DeepResearch 的发布做了很多准备,所以它在寻找有非常特定要求的餐厅和找到我本来不会找到的东西方面非常有帮助。" 对于旅行者来说,DeepResearch 能够整合目的地信息、用户评价和当地文化背景,提供比传统旅行指南更加个性化、全面的行程建议。
个性化学习则是 LaurenReeder 特别提到的应用场景:" 个人化教育也是一个非常有趣的用例,比如,如果你一直想学习某个主题,你知道,如果你需要复习你的生物学,或者你想了解某个世界事件,它非常擅长让你输入你觉得不理解的信息,以及你想研究哪些方面,它会为你整理一份漂亮的报告。" 这种个性化学习体验,可能彻底改变人们获取知识的方式。
3、与传统搜索引擎对比
DeepResearch 与传统搜索引擎及其他 AI 工具相比,展现出明显的差异化特征。JoshTobin 提供了一个清晰的对比框架:"DeepResearch 真正擅长的是,如果你有一个关于你想要什么的详细描述,并且为了得到最佳答案需要阅读大量互联网内容。" 与之相对," 如果你有一个更模糊的问题,它会帮助你澄清你想要什么,但我的意思是,当你寻找一组特定的信息时,它的表现最好。" 与传统搜索引擎相比,DeepResearch 最大的优势在于其综合分析能力。传统搜索引擎提供的是相关网页的列表,用户需要自行浏览、提取和整合信息。而 DeepResearch 则直接提供经过整合的报告,大大节省了用户的时间和精力。JoshTobin 强调了这一点:" 它非常擅长综合遇到的信息,非常擅长找到特定且难以找到的信息。"
与 OpenAI 的其他模型相比,DeepResearch 也有明确的功能定位。Josh 说道:" 对于我来说,使用 O 系列模型,如果我要求与编码有关的事情,通常不需要模型从预训练中知道的知识之外的知识,所以你通常会使用 01Pro 或 o1 进行编码,或者 o3minihigh。" 这表明在不同场景下,用户应选择最适合的工具。值得注意的是,DeepResearch 与其他搜索增强型 AI 工具的关键区别在于其端到端训练方法。正如 Isa 强调的:" 因为我们有能力进行端到端训练,在做研究的过程中有很多事情是你事先无法预测的,所以我不认为可以编写某种语言模型程式或脚本,能够像模型通过训练学到的那样灵活,它实际上是对实时网络信息的反应,并根据看到的内容改变策略等。" 这种灵活性使 DeepResearch 在处理复杂、开放式研究任务时具有明显优势。
信息获取的未来
DeepResearch 的出现代表了人工智能与人类知识工作协作模式的重要进步。通过端到端强化学习的创新应用,OpenAI 成功打造了一款能够大幅提升研究效率的智能助手,为用户节省了宝贵的时间和精力。
更为深远的是,这款产品可能预示着 " 智能体之年 " 的到来。正如 JoshTobin 和 IsaFulford 在采访中异口同声所言,智能体技术将成为 2025 年 AI 领網域的核心突破点。DeepResearch 作为这一趋势的先行者,展现了 AI 智能体如何重塑我们获取和处理信息的方式。尽管面临信息准确性和响应时间等挑战,DeepResearch 的价值已得到广泛认可。它不仅能够处理从医学研究到旅行规划的多种场景,还能发掘传统搜索引擎难以发现的晦涩信息。这些能力使其成为知识工作者的有力助手,正如 Isa 所强调的,赋予人们 " 超能力 " ——不仅仅是节省时间,更是扩展了人类可能性的边界。
随着 OpenAI 继续完善这一技术,DeepResearch 的能力边界将不断拓展,其应用场景也将更加多元化。无论是专业研究还是日常决策,这款智能体产品都有望成为我们信息世界中不可或缺的向导,引领我们进入一个信息获取更高效、知识工作更智能的新时代。
参考资料:https://www.youtube.com/watch?v=bNEvJYzoa8A&t=533s