全球最强模型一夜易主？Anthropic声称新模型Claude 3性能超越GPT-4接近人类

今天小编分享的互联网经验：全球最强模型一夜易主？Anthropic声称新模型Claude 3性能超越GPT-4接近人类，欢迎阅读。

图片来源：Anthropic

一夜之间，全球最强 AI 模型易主。大模型行业又变天了。

钛媒体 AGI 获悉，3 月 5 日凌晨，OpenAI 竞争对手、谷歌、亚马逊投资支持的 Anthropic 公司发布最新 Claude 3 系列模型，多个领網域的性能超越了 OpenAI 的 GPT-4。

Claude 3 系列模型主要包括 Haiku（中杯）、Sonnet（大杯）与 Opus（超大杯）三款，能力依次从低到高。在推理、数学、编码、多语言理解和视觉等多个领網域的 20 款测试中，Claude 3 Opus 在 14 个性能指标下超越了 GPT-4、谷歌 Gemini 等一系列模型。

Anthropic 表示，Claude 3 Opus 拥有人类大學生水平的知识。同时 Opus 也已经跃升成为全球最强大的 AI 大模型。

此外，Claude 还首次公布对多模态能力的支持（Opus 版本的 MMMU 得分为 59.4%，超过 GPT-4V，与 Gemini 1.0 Ultra 持平）。用户现在可以上传照片、图表、文档和其他类型的非结构化数据，让 AI 进行分析和解答。

目前，Claude 3Opus 和 Sonnet 已经在 claude.ai 以及全球 159 个国家和地区的 Claude API 上使用。而 " 中杯 "Haiku 模型也即将推出。

有网友戏称，Claude 3 来了。OpenAI，你打算拿什么来抢一下热度？Altman，GPT-5 什么时候推出？

单词处理能力是 ChatGPT 近 50 倍，Claude 3 到底有多强？

实际上，这家刚刚超越 ChatGPT-4 的大模型公司仅成立不到 3 年。

Anthropic AI 成立于 2021 年，由 OpenAI 前研究副总裁达里奥 · 阿莫迪（Dario Amodei）、GPT-3 论文一作 Tom Brown 等人建立。

成立的原因是，Amodei 领导的研究人员在对公司的发展方向存在分歧后离开了 OpenAI，他们担心微软对 OpenAI 的投资会使其走上更加商业化的道路，偏离公司最初想法。

2022 年 12 月，在 ChatGPT 发布不久，Anthropic 团队在 arxiv 上发布了一篇题为《Constitutional AI: Harmlessness from AI Feedback》论文，描述了一个基于无监督方式训练、520 亿参数的模型 AnthropicLM v4-s3，直接挑战 OpenAI 的 GPT-3 模型。

2023 年 1 月，Anthropic 发布基于 AnthropicLM v4-s3、AI 聊天机器人模型产品 Claude，被认为是 ChatGPT 的有力竞争者。

融资方面，整个 2023 年，Anthropic 共完成五笔融资，总融资额约 73 亿美元，投资方包括谷歌、Salesforce、亚马逊以及韩国 SK Telecom 等。其中，亚马逊向 Anthropic 投资高达 40 亿美元、谷歌投资超过 20 亿美元，均持有 Anthropic 的少数股权。

Anthropic 联合创始人丹妮拉 · 阿莫迪（Daniela Amodei）曾透露，公司有 60 至 80 人参与了核心人工智能模型的开发工作，而 120 至 150 人则参与了技术方面的研发。阿莫迪去年表示，AI 模型 Claude 的最新一次迭代由 30 至 35 人组成的团队直接参与，并有大约 150 人提供支持。

当地时间 3 月 4 日，Anthropic 正式发布最新一代模型 Claude 3，同时还是目前行业最强大的 AI 模型。

Claude 3 系列模型主要包括 Haiku（中杯）、Sonnet（大杯）与 Opus（超大杯）三个型号，在性能基准、实时结果、视觉能力、长上下文、多语言、工作负载、使用体验等方面都有重要的突破进展，尤其单词处理能力是 ChatGPT 近 50 倍。

上下文方面，Anthropic 表示，此次全系列大模型可提供 200k 上下文視窗，相当于 150000 个单词，单词处理能力是 ChatGPT 接近 50 倍，大约是英文版《白鲸》或《哈利・波特与死亡圣器》的长度。用户可以输入大量数据集，并要求其以备忘录、信件或故事的形式进行摘要。

性能基准方面，Claude 3 Opus 在本科水平专家知识 ( MMLU ) 、研究生水平专家推理 ( GPQA ) 、基础数学 ( GSM8K ) 等多个测试中都优于同行业模型。

例如，在 MMLU 方面，Claude 3 Opus 达到 86.8%，超越了 GPT、Gemini 等一众模型；在研究生水平专家推理（GPQA）得分是 50.4%，优于 GPT-4 的 35.7%，在基础数学 ( GSM8K ) 上 Claude 3 Opus 得分是 95.0%，优于 GPT-4 的 92.0%。而且，Claude 3 Haiku 甚至可以与 Gemini 1.0 Pro 相抗衡。

视觉能力方面，Claude 3 系列模型具备与其他领先模型相媲美的高级视觉识别能力。它们能够处理各种视觉格式，包括照片、图表、图形和技术绘图等。在部分视觉能力上 Claude 3 系列模型性能刷新 SOTA。如在技术图表（AI2D）上，Claude 3 Opus 得分为 88.1%，远超 GPT-4V 的 78.2%。另外，Anthropic 称，这将为企业客户提供这种新的能力，支持高达 50% 用 PDF、流程图或演示文稿等多种格式存储的企业知识库。

多语言方面，Claude 3 系列模型增强了西班牙语、日语和法语等非英语语言对话方面的能力。

实时结果和工作负载方面，对于绝大多数场景，Haiku 市场上速度最快且最具成本效益的模型，它可以在不到三秒的时间内阅读 arXiv 上包含图表和图形的信息和数据密集的研究论文；Sonnet 的速度比 Claude 2 和 Claude 2.1 快 2 倍，且智能水平更高，它擅长执行需要快速响应的任务，如知识检索或销售自动化等；最强大的 Opus 模型的速度与 Claude 2 和 2.1 相似，但智能水平更高。

Anthropic 还在 Claude 3 系列模型论文中表示，这些模型都是使用亚马逊 AWS 和谷歌云的硬體进行训练的。目前，Claude3 已在 AWS 模型库 Bedrock 和谷歌的 VertexAI 中上线。

此外，在负责任能力、使用体验等方面，Anthropic 表示，Claude 3 系列模型不仅功能强大，而且值得信赖。

不过，Anthropic 也坦言，虽然与之前的模型相比，Claude 3 模型系列在生物知识、网络相关知识和自主性的关键指标方面取得了进步，但根据其负责任的扩展政策，它仍处于 AI 安全级别 2 ( ASL-2 ) ，低于美国白宫的超强大 AI 模型标准的阈值界限。

整体来看，Anthropic 长文本能力、多个性能指标都非常强大，与 GPT-4 一较高下也不为过。

Dario Amodei 近期公开表示，2023 年是专家级 AI ，到 2025-2026 年 Anthropic 的模型技术将成功超越人类，届时 AI 将能够真正帮助人类工作，大大加速产业发展。

GPT-5 即将到来？

随着最强 AI 大模型 Claude 3 发布，引发了 AI 行业内的关注。

" 硅谷钢铁侠 "、亿万富翁、特斯拉 CEO 马斯克（ElonMusk）最新回应称，这个成果非常感人。