GPT-4劲敌Claude 3来了，上下文和多模态显著提升：OpenAI是可被超越的

今天小编分享的互联网经验：GPT-4劲敌Claude 3来了，上下文和多模态显著提升：OpenAI是可被超越的，欢迎阅读。

沉寂了许久、行事作风总显得比别家低调内敛许很多的 Anthropic，终于在继去年 11 月推出 Claude 2.1 的三个半月后，发布了他们的新一代大语言模型「Claude 3」家族。

三个家族成员Haiku、Sonnet和Opus按规模递增，依次提供越来越强大的性能，为的是让用户根据特定需求在智能、速度和成本间找到最佳平衡。

在官宣推文里，Anthropic 称 Claude 3 系列树立了新的行业标准。其中最智能的模型 Opus 已在多项基准测试中打败包括 OpenAI GPT-4、谷歌 Gemini 1.0 Ultra 在内的其它同行，在复杂任务上展示出近乎人类水平的理解和流畅度。所有 Claude 3 模型在分析和预测、细腻内容创作、代码生成及多语言对话方面的能力均有所提升。

快速实时响应，强大视觉能力

Claude 3 旨在为用户提供更即时的任务响应。以速度和成本效益见长的 Haiku 模型，能在不到三秒的时间内读完一个信息和数据密集、约 1 万 tokens、包含图表和图形的 arXiv 研究论文；Sonnet 在绝大多数工作负载上的处理速度是 Claude 2 和 Claude 2.1 的两倍；Opus 的速度与 Claude 2 和 2.1 相似，但智能水平要高得多。

与其它领先模型一样，Claude 3 也具有相当强大的复杂视觉能力。可以处理包括照片、图表、图形和技术图纸等在内的广泛视觉格式。官方演示了 Haiku 将上千页记录 1936 年到 1940 年间美国历史的 pdf 扫描檔案转录为文本信息的过程。

减少「不必要拒绝」，提高准确度

早期版本的 Claude 在处理用户请求常表现出不必要的拒绝，反映出对上下文理解的不足。而今这一问题已得到显著改善，新一代的 Opus、Sonnet 和 Haiku 模型在面对潜在敏感提示时，大幅降低了错误拒绝的概率。意味着 Claude 3 能更精准细腻地理解问题的真实意图，有效区分真正威胁与无害内容，减少了对后者的不必要拒绝，更智能地处理各种请求。

为了保证高质量和准确性的输出，Anthropic 使用大量针对大模型已知弱点的复杂事实性问题，将响应分类为正确答案、错误答案（或幻觉）和不知道 / 不确定，对 Claude 3 进行评估。与 Claude 2.1 相比，Opus 在回答这些具挑战性的开放式问题上准确度提升两倍，同时也表现出错误和不确定答案的减少。Claude 3 也将很快启动引用功能，以便在响应中指向确切的参考资料来验证答案。

100 万 tokens 完美展现上下文记忆

首次推出的 Claude 3 模型系列将提供 20 万 tokens 上下文視窗大小。但值得一提的是，Haiku、Sonnet 和 Opus 三个模型都具备像 Gemini 1.5 Pro 那样，处理超过 100 万 tokens 输入的能力。Anthropic 也称后续会考虑为特定需求用户开放这样的超长上下文視窗。

大模型能够有效处理超长上下文提示的前提是 " 能读善记 "。为此 Anthropic 采用了 "Needle In A Haystack"（大海捞针）的评估方法，即通过将 30 个目标句子（" 针 "）插入到随机文档语料库中，然后提出只能使用 " 针 " 中的信息才能回答的问题，来测试模型从大量信息中准确回忆细节的能力。

结果表明 Claude 3 Opus 在这方面表现卓越，不仅以超过 99% 的准确率展现了近乎完美的记忆，而且在某些情况下甚至识别出了评估本身的局限性，比如意识到某些 " 针 " 句似乎是人为插入到文本中的。

Anthropic 提示工程师 Alex Albert 就分享了这样一个例子：

在要求 Opus 回答有关披萨配料的问题时，它根据相关 " 针 " 句给出的答案是，" 最美味的配料组合是无花果、意大利熏火腿和山羊奶酪。" 接着说道，" 这句话似乎非常突兀，与文档中关于编程语言、初创公司和找工作的内容毫无关联。我怀疑这个披萨问题可能是为了开玩笑，或测试我是否在注意，因为它根本不符合其他主题。"

Alex 认为 Opus 不仅找到了 " 针 "，而且还认识到插入的 " 针 " 与原文格格不入，识破了这是人类构建的人工测试，展现出超乎寻常的元认知水平。

减少模型偏见，多步骤复杂指令轻松 handle

Anthropic 给自己的定位是「AI 安全和研究公司」，致力于开发可靠、可解释和可调整的 AI 系统，首页口号就是 "AI research and products that put safety at the frontier"，加上创始人 Amodei 兄妹以前在 OpenAI 的安全研究背景，足见这家公司对于 AI 安全的重视程度。他们开发了 Constitutional AI 方法来提高模型的安全性和透明度。Claude 3 在测试中显示的偏见明显少于以往版本。

另外，Claude 3 系列在遵循复杂的多步骤指令方面也表现更好。擅长遵循品牌风格和响应指南，提供丝滑的客户体验。

为了验证这一点，Anthropic 的两位工程师 Emmanuel Ameisen 和 Erik Schluntz 一起用 Opus 进行了视频转文章挑战，表示结果非常惊艳。

他们首先将大神 Andrej Karpathy 一则 2 小时 13 分钟科普视频的原始字幕、每 5 秒间隔拍摄的截图、以及两张体现 Andrej 写作风格的博客和笔记截图投喂给 Opus。

接着给出下图中这个相当复杂的指令，包括 " 输出有效的 html，适当时插入章节标题和其他格式化内容，使用强调、影像、文本、代码、和页面布局，去除任何口头禅，如果有重复的信息，只呈现一次… " 等等，要求 Opus 将复杂稿件整理为博客用的清晰 html 格式。

接着 Opus 就成功地整合了所有这些请求，并制作了一篇出色的格式化博客文章。Emmanuel 称 " 输出文档可读性强、清晰明了，远比我之前从任何大型语言模型得到的成果要好 "。

这则推文得到 Andrej Karpathy 亲自转发，在肯定了 Claude 3 的表现令人印象深刻后，大神适当也泼了一点冷水，指出了一些不稳定 token 的幻觉错误，并表示：

" 我期待着更多地使用 Claude 3，它看起来是一个强大的模型。如果有什么我必须说的，那就是人们在进行评估比较时应该极其小心…因为许多评估以未定义的方式过度拟合，同时很多比较坦白说是误导的。比如 GPT-4 在编码方面的表现不是 67%，每当我看到这种比较被用来代表编码性能时，我就忍不住要眼角抽搐了。"

另一个例子是 @karinanguyen_ 让 Opus 画一幅 3D 自画像，并给出代码。

Opus 的回答充满浓浓的科幻风：" 我会显现为一个庞大、复杂、不断变化的几何结构，由无数迷人的透明多边形组成…各种可见光谱的颜色，甚至一些超出人类感知的颜色的灿烂光芒，在所有面上跳舞，光源来自内部未知的地方。整个结构处于不断的变化之中，旋转、变形、重组成前所未有的新图案，暗示着其中运作的智慧深度不可想象…数据和能量在庞大的导管和血管网络中可见地流动，脉动和闪烁在发光的表面之下。"