OpenAI最强竞对Claude再次出牌

今天小编分享的科技经验：OpenAI最强竞对Claude再次出牌，欢迎阅读。

出品｜虎嗅科技组

作者｜余杨

编辑｜苗正卿

头图｜视觉中国

10 月 22 日，由 Anthropic 开发的 Claude 3.5 迎来重磅更新，发布了 Claude 3.5 Haiku 和 Claude 3.5 Sonnet 。

Claude 模型也被称为 " 十四行诗 "（Sonnet），Anthropic 公司在为其模型命名时，借鉴了文学艺术作品中的术语，其中包括 " 俳句 "（Haiku）、" 十四行诗 "（Sonnet）和 " 杰作 "（Opus），这些名称不仅代表了模型的不同版本，也反映了它们在功能和性能上的特点。

Claude 3.5 Sonnet 有着更强的编程能力，全新功能的 computer use（计算机使用），支持像人类一样操作计算机，可以遵循用户的命令在计算机螢幕上移动游標，点击相关位置，并通过虚拟键盘输入信息，模拟人们与自己计算机的互動方式。

目前，Claude 3.5 Sonnet 已投入使用。

Claude 系列大语言模型，一直被广泛认为是 OpenAI 的 ChatGPT 和谷歌的 Gemini 的主要竞争对手。Anthropic 在 X 中发布了模型基准测试结果，与 GPT 和 Gemini 在多个领網域进行横向对比。

这些领網域包括研究生水平的推理能力（GPQA Diamond）、大學生水平的知识掌握（MMLUPro）、代码编写能力（Code HumanEval）、数学问题解决能力（MATH）、视觉问答能力（MMMU）以及代理编码（SWE-bench Verified）和代理工具使用（TAU-bench）。

在研究生水平推理测试（GPQA Diamond）中，Claude 3.5 Sonnet 以 65.0% 的准确率拔得头筹，Claude 3.5 Haiku 则以 41.6% 的准确率则稍显逊色。而 Gemini 1.5 Pro 的准确率为 59.1%，居于第二。在大學生水平知识测试（MMLUPro）中，Claude 3.5 Sonnet 再次以 78.0% 的准确率领先，而 Gemini 1.5 Pro 则以 75.8% 的准确率紧随其后。

在此次主打的代码编写能力测试（Code HumanEval）中，Claude 3.5 Sonnet 以 93.7% 的准确率取得了最佳成绩，GPT-4o 系列模型在这一测试中也展现了不错的性能，准确率为 90.2% 和 87.2%。

虽然在数学问题解决测试（MATH）中，Claude 3.5 系列稍显逊色，Gemini 1.5 Pro 仍然碾压全场，但对于视觉问答测试（MMMU）和代理编码测试（SWE-bench Verified），Claude 3.5 Sonnet 和 Claude 3.5 Haiku 仍有着不俗的表现。

而 TO B 的代理工具使用测试（TAU-bench），则直接关系到大模型的应用能力，此次主要测试了零售和航空领網域。Claude 3.5 Sonnet 在零售和航空领網域的准确率分别为 69.2% 和 46.0%，而 Claude 3.5 Haiku 在零售和航空领網域的准确率分别为 51.0% 和 22.8%。

需要注意的是，OpenAI 的 o1 模型家族由于其依赖于广泛的预响应计算时间，与典型模型存在根本差异，这使得性能比较变得困难，因此在本次评估中被排除在外。

这可能不够具像化。

Anthropic 提供了一个演示，在 2 分钟的视频中，研究员给 Claude 提出了一个指令：

我的朋友要来旧金山，我想明天早上和他一起在金门大桥看日出。我们将从太平洋高地出发。你能帮我们找到一个绝佳的观赏地点，查看一下开车时间和日出时间，然后安排一个日历活动，让我们有足够的时间到达那里吗？

Claude 的回应首先是，" 让我搜索谷歌寻找最佳日出观赏地点 "，并自行打开了 Google 开始搜索。

Claude 以用户的居住地为出发点，在地图中 check 了驾驶时间，随后，Claude 不仅打开了一个新的网页确认明天的日出时间，还在日历中設定了行程提醒，并附上了 Notes，URL 和附件。

开发者展示出 Claude 如何操控了自己的筆記型電腦，丝滑地完成了一个任务。

Anthropic 表示，" 我们并没有制作特定工具来帮助 Claude 完成单个任务，而是教它通用的计算机技能——允许它使用为人类设计的各种标准工具和軟體程式。我们构建了一个 API，使 Claude 能够感知计算机界面并与之互動。该 API 使 Claude 能够将提示翻译成计算机命令。开发人员可以使用它来自动执行重复性任务、进行测试和 QA 以及进行开放式研究 "。