今天小编分享的科技经验:他们让GPT-4看起来像个流氓,欢迎阅读。
出品|虎嗅科技组
作者|齐健
编辑|王一鹏
头图|DALL-E 3
当地时间 3 月 4 日,Anthropic 发布了最新的 Claude 3 模型系列,包括 Claude 3 Opus、Sonnet 和 Haiku 三个模型,其中 Claude 3 Opus 在多个测试数据集中全面超过了 GPT-4。
Anthropic 是一家由 OpenAI 前成员 Daniela Amodei、Dario Amodei 和 Jared Kaplan 共同创立的美国人工智能(AI)初创公司,专注于开发通用 AI 系统和大型语言模型。
Claude 3 Haiku、Sonnet 和 Opus 三款模型的能力和成本依次递增,推理速度依次递减。Claude 3 Opus 性能最强,相对的输出成本最高和输出时间最长,Claude 3 Opus 模型在数学、编程、多语言理解和视觉等多项基准测试中超越了 GPT-4 和 Gemini 1.0 Ultra。
与 GPT-4 相比,Claude 3 Opus 在多个测试数据集中全面超过了 GPT-4。
Anthropic 在 Claude 3 系列模型中首次放出了多模态能力,用户可以上传各类非结构化数据如照片、图表等供 AI 分析。这三个模型均支持 200K token 的长上下文視窗,并向特定客户开放超过 100 万 token 的上下文输入能力。
不过,Claude 3 模型的定价也高于 GPT-4。能力最强的 Claude 3 Opus 比 GPT-4 Turbo 贵得多:GPT-4 Turbo 每百万 token 输入价格为 10 美元,输出价格为 30 美元,Claude 3 Opus 每百万 token 输入 5 美元,输出 75 美元。
Claude 3 的定价
目前 Claude 3 Haiku 尚未推送,Sonnet 已经开放在 Claude 的官网上可以免费试用,Opus 也已经上线,不过要体验 Opus 需要花每月 20 美元(不含税)订阅 Claude Pro。相对于 ChatGPT,目前 Claude 的全系产品均不能直接链接互联网查询资料。
安全第一
" 安全、稳定 " 一直被认为是 Claude 的一大特点。
Anthropic 开发了所谓的" 宪法 AI" 技术,旨在将一系列原则赋予模型,以引导模型产生符合这些原则的文本,例如非有害、有益的内容。这种方法旨在使 Claude 2 的行为更易于理解和调整,尽管公司承认在预测模型在所有情况下的行为方面仍面临挑战。
Claude 2 的另一个重点是降低模型产生有害、有偏见或不准确回应的概率。比如,与 Claude 1.3 相比,Claude 2 在内部评估中在给出 " 无害 " 回应方面表现得 " 两倍 " 更好。但是,这种改进的具体含义并未详细说明,例如是指两倍不太可能回应带有性别歧视或种族歧视的内容,还是两倍不太可能支持暴力或自残等。
由此,Claude 模型曾被质疑 " 道德标准过高 "。
此次发布的 Claude 3,在安全性和伦理性方面也进行了改进,包括对有害内容的更好管理和对有益行为的支持,同时减少了对良性提示的拒绝反应。
在训练数据方面 Anthropic 也格外小心,尽量规避可能的风险。
Claude 3 的训练数据来自 2023 年 8 月之前公开可获得的互联网信息、第三方提供的非公开数据、数据标注服务和付费合同工提供的数据以及 Anthropic 专门制作的数据集上训练的。Anthropic 采用了多种数据清洗和过滤方法,包括去重和分类。值得注意的是,Claude 3 的模型系列没有使用任何用户或客户提交给我们的用户提示或输出数据进行训练,包括免费用户、Claude Pro 用户和 API 客户。
在获取通过爬取公共网页的数据时,Anthropic 遵循行业实践,尊重网站运营者通过 robots.txt 指令和其他信号用来指示是否允许爬取其网站内容的做法。根据 Anthropic 的政策,其爬虫不会访问受密码保护或需要登录的页面,也不会绕过 CAPTCHA 控制。
Anthropic 对所使用的数据进行了尽职调查,并以透明的方式运营其爬虫系统,这意味着网站运营者可以轻松识别 Anthropic 的访问并向 Anthropic 表达他们的偏好。
OpenAI 的尴尬处境
Claude" 过于安全 " 的属性,也成了 OpenAI 的压力。
Claude 发布前月余,业界一直有传闻认为,OpenAI 将在 Claude 3 发布之际,迅速跟进发布最新的 GPT-4.5(5),或是秘密研发的 Q* 模型。
不过就在 2 月 29 日,马斯克突然对 OpenAI 提起诉讼,指控 OpenAI 首席执行官 Sam Altman 为了追求商业利益,违背了 OpenAI" 确保 AI 造福人类 " 的非盈利性初衷。马斯克要求法院强制 OpenAI 回归开源,并阻止公司及其创始人以及微软等背后支持者从中获利。
在此之前 OpenAI 在 AGI 研发方面就一直饱受质疑,人们对 " 巨型 "AI 模型和 AGI 安全性的担忧与日俱增,一些人甚至认为 OpenAI 及其他 AI 大模型公司应该暂时停止研发,等待相关法律、监管制度的逐步健全。
此番全新发布的 Claude 3,在模型能力方面继续主打安全、稳定。在 Claude 3 的衬托之下,如果 OpenAI 此时发布新模型,能力强则很可能在安全方面刺激监管和舆论敏感的神经,而能力弱,则自然会影响 " 大模型之王 " 的形象。
马斯克的突然袭击,似乎搞得 OpenAI 有点左右为难。Sam Altman 如今也不得不把注意力从产品、模型中抽出来,转而关注当下舆论焦点的 AI 安全问题。
正在发大火箭的马斯克还特意跑来 Anthropic 点了个赞
就在 Claude 3 发布几分钟后,Sam Altman 也发布了一条 X 推文,但他的推文却与 AI 大模型技术和产品无关,而是关于一封公开信。
Sam Altman 推文
风险投资家 Ron Conway 和他的公司 SV Angel 发起了一场名为:Build AI for a Better Future(构建人工智能,共创美好未来)的联名公开信活动,旨在强调 " 最大限度地发挥人工智能的好处并减轻风险 " 对社会的 " 集体责任 "。OpenAI、Google、Meta、Y Combinator 等科技公司、投资机构参与并签署了这份联名公开信。
目前,关于 GPT-4.5(5)和 Q* 的猜测仍未停止,而 OpenAI 近期是否真的会发布新模型,让我们拭目以待。
GPT-4 和 Claude 谁强?
" 跑分 " 战胜了 GPT-4,但具体模型能力方面,Claude 3 和 GPT-4 的差别到底在哪呢?
首先是多模态理解与处理能力,Claude 3 能够处理和理解影像和视频帧输入,从而解决超出简单文本理解的复杂多模态推理挑战。
在 AI2D 科学图表基准测试中,Claude 3 的能力得到了展示,尤其是在视觉问答评估方面。这项评估涉及到理解和分析图表,然后根据图表信息回答多项选择题。简单来说,就像在考试中,你被给了一些图表(比如柱状图、线图等),然后要回答一些基于这些图表的问题。Claude 3 不仅要理解图表显示的数据,还要准确选择正确的答案。
在这个测试中,Claude 3 展现了非常高的准确率,特别是 Sonnet 版本,在没有任何预备知识(即 0-shot 設定,也称为零样本学习)的情况下就达到了 89.2% 的准确率,这表明它非常擅长理解图表和回答相关问题,即使是在没有特定训练的情况下。这种能力对于执行需要影像和文本结合理解的任务非常重要,比如在学术研究、市场分析等领網域。
在长文本处理方面,Claude 3 模型支持至少 1M(1,000,000)个 token 的上下文,而目前在生产中仅提供最多 200k(200,000)token 的上下文。在长文档理解、跨文档分析、金融数据分析等方面提供了更详细和可操作的用例。这一点在处理大规模文本数据时,相对于 GPT-4 可能更有优势,尤其是在需要综合分析和提取大量信息的场景中。
此外,Claude 3 的多语言能力也被 Anthropic 认为是一大亮点。Claude 3 Opus 在多语言数学(MGSM)基准测试中达到了超过 90% 的 0-shot 成绩,并在 8 种语言中实现了超过 90% 的准确率,包括法语、俄语、简体中文、西班牙语、孟加拉语、泰语、德语和日语。这表明 Claude 3 在多语言理解和推理方面具有较强的能力,尤其是在数学问题解决方面。
最后,Claude 3 在长文本理解、推理、编程以及科学查询处理方面均表现出良好的性能。其在长文本问题回答基准测试 QuALITY 中的表现尤其突出,0-shot 和 1-shot 設定下的表现均优于早期模型,显示了其在理解和处理长文本上的高效能力。
在 Claude 的技术论文中也提到了一些模型的不足之处。
首先 Claude 不能联网。虽然用户可以通过直接分享的文档方式互动互动,但 Claude 只能基于 2023 年 8 月之前的数据回答问题,并拒绝识别影像中的人物。
其次是所有大型语言模型(LLMs)都会遇到的问题,生成内容的准确性和偏见,Claude 亦会产生错误信息(confabulations)、展现偏见、犯事实错误,并可能被 " 破解 "(jail-broken)。
多语言推理能力的不完备,在处理小语种时性能较不稳定。
多模态能力方面的准确性有待提高,Claude 模型有时可能生成关于影像的不准确信息和描述。性能有时也会在处理小影像或低分辨率影像时降低。
最后是新能力的 " 潜在 " 负面效应。Claude 3 引入了新的多模态、多语言能力等,开发人员认为这些能力有时可能会打破模型原有的 " 平衡 ",某些新改进的能力在其他领網域可能造成潜在影响。
论文中提到:随着时间的推移,决定 Claude" 个性 " 和能力的数据和影响因素变得相当复杂。在简单可自动化的方式中平衡这些因素,跟踪它们,以及一般减少训练 Claude 的复杂性,仍然是我们的关键研究问题。
走 OpenAI 没走的路
Anthropic 在 Claude 3 的发布博客中介绍了三款模型的潜在应用方向,带着浓浓的 ToB 商业化气息。
Claude 3 Opus:任务自动化,跨 API 和数据库规划和执行复杂的操作、互動式编码;研发,研究回顾、集思广益和假设生成、药物发现;策略,图表、财务和市场趋势的高级分析、预测。
Claude 3 Sonnet:数据处理,RAG 或对大量知识的搜索和检索;销售,产品推荐、预测、定向营销;节省时间的任务,代码生成、质量控制、从影像中解析文本。
Claude 3 Haiku:客户互动,实时互动、翻译中快速、准确的支持;内容审核,捕捉危险行为或客户请求;节省成本的任务,优化物流、库存管理、从非结构化数据中提取知识。
外界一直认为 Anthropic 是一家有着重度 ToB 基因的公司。
Anthropic 在 C 轮融资中,引入了 Google、Salesforce、Zoom 等技术和服务市场上的 ToB 科技巨头,这些合作伙伴对 AI 公司的诉求必然是将先进的 AI 技术集成到自己的产品和服务中,以提高效率、创新能力和竞争力。
此外,Anthropic 已经与 Zoom 开展合作,旨在 " 构建以可靠性、生产力和安全性为中心的面向客户的 AI 产品 ",也清晰地表明了公司的 B2B 基因。这种合作通常涉及开发能够为企业提供具体价值的解决方案,如改善客户服务、自动化工作流程或提供决策支持等。
Anthropic 还与波士顿咨询集团(BCG)合作,旨在将负责任的生成式 AI 技术引入到企业客户中。通过这一合作,BCG 的客户可以直接利用 Anthropic 的 AI 系统,包括其最先进的模型 Claude 2,这些系统专注于可靠性、可解释性和可控性。
目前,Anthropic 声称已拥有多个来自不同行业(包括医疗保健、人力资源和教育等)的客户。
在企业服务和 ToB 市场上,虽然 OpenAI 也推出了 ChatGPT Enterprise 版以及企业的 API 接口,但相对于 Anthropic 与企业的深度合作,则 ToB 属性轻得多。
从这次 Claude 3 的中提及的很多重点也可以看出,Anthropic 希望在商业化方面,走出一条与 OpenAI 不同的道路。