今天小编分享的科技经验:Claude 3 惊喜上线:多模态能力比肩GPT-4V,欢迎阅读。
作者:赖文昕、郭思
编辑:陈彩娴
过去不到一个月,OpenAI 扔出 Sora 这个重磅炸弹后成为全球焦点,不断推出的视频更是赚足眼球、热度不减。昨晚,Anthropic 突然惊喜上线,时隔八个月携着 Claude 3 走来,让世界再次将目光聚焦到这一个被视为 ChatGPT 强大竞争对手之一的多模态模型。
响应速度达即时水准,长文本与多模态双拳出击
据 Anthropic 官方表示,Claude 3 是针对不同功能的一个模型系列,分别是:Opus、Sonnet 和 Haiku。尽管 Anthropic 并未给出 Claude 3 模型的具体参数,但也公布了此三个版本在各自性能和适配的任务上的差异,具体表现为:
Claude 3 Opus ——最智能的模型,可跨 API 和数据库规划和编码,在药物研发、市场分析等高度复杂的任务上具有最佳性能。
Claude 3 Sonnet ——平衡智能和速度,其高耐用性更适合企业,更实惠和适合规模化。
Claude 3 Haiku ——最快、最紧凑的模型,具有近乎即时的响应能力,能提供无缝问答体验。
目前,Opus 和 Sonnet 现已可以使用,而 Claude 的 API 也已在 159 个国家 / 地区广泛开放。其中,开发者们可以在官网上免费体验最经济实惠的 Sonnet,而 Opus 则需要 订阅 Claude Pro 后付费使用。
与大半年前发布的 Claude 2 相比, Claude 3 有什么令人瞩目的进步呢?
首先,Claude 3 响应速度接近即时。
Claude 3 模型支持实时对话、自动完成和数据提取任务。对于绝大多数工作负载,Claude 3 Sonnet 的速度比 Claude 2 和 Claude 2.1 快 2 倍,且智能水平更高。Sonnet 擅长执行需要快速响应的任务,例如知识检索或销售自动化。Opus 的速度与 Claude 2 和 2.1 相似,但拥有更高的智能水平。而 Haiku 作为速度最快且最具成本效益的型号,它可以在不到三秒的时间内阅读 arXiv 上包含图表和图形的信息和数据密集的研究论文(约 10k tokens)。
其次,Claude 3 大大增强了对语境的理解,减少了不必要的拒绝。
Anthropic 在语境理解的领網域取得了有显著进展。与前几代模型相比,Claude 3 Opus、Sonnet 和 Haiku 发出拒绝回答提示的可能性明显降低,展现出 Claude 3 模型家族能对请求表现出更细致的理解,能够识别真正的伤害,并且拒绝回答无害提示的频率要少得多。
另一方面,Claude 3 还提高了回答的准确性。Anthropic 官方表示,他们使用了大量复杂的事实问题来针对解决当前模型中已知的弱点,将答案分为正确答案、错误答案(或幻觉)和承认不确定性,其中模型 " 承认不确定性 " 表示它不知道答案,而不是提供不正确的信息。
与 Claude 2.1 相比,Opus 在具有挑战性的开放式问题上的准确性提高了一倍,同时也减少了错误答案的水平。另外, Anthropic 很快还将在 Claude 3 模型中启用引用功能,以便用户可以指向参考材料中的精确句子来验证他们的答案。
尽管由 Sora 引发的文生视频热潮似乎已成为 2024 年的新趋势,但毋庸置疑的是,以长文本为核心的大语言模型依旧是各大科技巨头的兵家必争之地。
同老对手 OpenAI GPT-4 与谷歌 Gemini Pro 相比,Claude 3 的优势又在哪里呢?
Claude 本次更新的一大亮点,在于长文本能力的更新以及对多模态能力的突破。
Anthropic 在推出 Claude 3 时更新了其复杂视觉功能,使其领先于其他模型,多模态能力比肩 GPT-4V。
Claude 3 可以处理各种视觉格式,包括照片、图表、图形和技术图表,在数学推理、文档视觉、科学图表等各方面性能超越 GPT-4V,能让企业客户的知识库高达 50% 以各种格式编码,例如 PDF、流程图或演示幻灯片。
至于在原本就拥有的长文本分析优势上, Anthropic 也做出了更新。
Claude 3 提升了上下文对话視窗,最高达到 200k。值得一提的是,它还具有超强的回忆能力。Claude 3 Opus 能够 " 大海捞针 "(NIAH),通过将一个特定的句子(即 " 针 ")隐藏在一堆看似杂乱无章的文档(即 " 大海 ")中,然后询问一个只有通过找到那个 " 针 " 才能回答的问题,从而考察模型的信息回忆能力。
研发团队通过在每个提示中使用 30 个随机 " 针 " 对其中之一并在不同的众包文档库上进行测试,增强了该基准的稳健性。测试证明,Claude 3 Opus 不仅实现了近乎完美的召回率,超过 99% 的准确率,而且在某些情况下,它甚至可以通过识别 " 针 " 这句话似乎是人类人为插入到原文中来识别评估本身的局限性。
英伟达首席 AI 科学家 Jim Fan 在 Claude 3 发布后立即表示其他 LLM 也应该像 Anthropic 一样出击金融、医药等需要专业意见和优质报告的领網域:
Claude 3 的发布极为低调,直接在 X 上丢出一个链接。而最让人眼前一亮的便是,Claude 3 发布后即提供了免费试用的机会,此举吸引了大量用户积极参与体验。在社交媒体 X 上,一位博主发起了一场有趣的测试挑战,上传了一张酷狗的图片,并使用免费版 Claude 3 进行尝试,以检验其对影像内容的理解和描述能力。最终结果显示,相较于 ChatGPT,Claude 3 对于该图片信息的解读更详尽、贴切。
而另一位博主则对一段复杂的英文内容进行了测试翻译,结果显示 Claude 在该任务上的表现优于 GPT-4。尤其值得一提的是,Claude 具备一项独特功能,即能够主动对未经排版的文本进行合理分段和格式化处理,显著提升了阅读体验,而这项能力是 GPT-4 所不具备的。此外,Claude 的翻译输出内容也比 GPT-4 更为详尽。
接下来,在设计稿组件截图还原的挑战中,该博主特别强调了风格一致性的重要性,Claude 对此展现了卓越的处理能力,对于复杂的设计元素和细节把控得恰到好处,高度接近原始设计稿的要求。相比之下,GPT-4 在此类任务上一直难以达到同样水准。
最后,在多模态场景下,博主让 Claude 解读一篇论文的部分内容,其分析逻辑清晰、准确。尽管如此,在信息丰富度方面,Claude 的表现略逊于 GPT-4,尚有提升空间,特别是在多模态信息整合与呈现的能力上,仍有待进一步加强。
双管齐下锁定企业市场:Claude 3 的定价策略与安全优先理念
Claude 3,这款颠覆了大模型领網域格局的 AI 产品背后母公司 Anthropic,是一家战略上秉承谨慎与安全优先原则的初创企业。自公司创立之日起,其核心科研工作始终聚焦在人工智能治理和模型安全性的强化上。即使面对 2023 年 ChatGPT 在全球范围内引发的性能竞赛热潮,Anthropic 并未盲目追求技术性能指标上的超越,而是坚守对 AI 安全的重视。
去年 9 月,Anthropic 获得了亚马逊高达 40 亿美元,约 280 亿人民币的重磅投资。获得巨头青睐的原因,一方面是来其巨卓越的技术能力,另一方面,业界普遍认同,该公司的技术创新策略首先是确保服务于构建可靠且安全的人工智能框架,其次才是对技术极限进行探索和突破。
这意味着,在追求卓越的同时,Anthropic 始终坚持将安全性作为其 AI 产品和技术研发的基石。
其创始人 Daniela Amodei 与 Dario Amodei 是两兄妹。
值得一提的是,Daniela Amodei 是该公司的总裁,曾负责监督 OpenAI 的政策和安全团队在加入 OpenAI 之前,她曾公开表示 Anthropic 的安全第一政策是其主要差异化优势之一。这也决定了 Claude 系列以安全为首的技术基因。
在 Claude3 技术文档中,我们也看到了 Anthropic 对安全理念的一以贯之。
Claude 3 团队表明:现阶段已经组建了多个专门团队,负责监控和减少一系列广泛的风险,包括错误信息、儿童性剥削材料(CSAM)、生物滥用、选举干预以及自主复制能力等。并将持续开发如宪法式 AI 等方法,以提升模型的安全性和透明度,并对模型进行了调整优化,以降低由新型模态引发的隐私问题。
对于日益复杂的模型中所存在的偏见问题,根据问题回答偏见基准测试(BBQ),Claude 3 模型相比之前的产品表现出更少的偏见。
团队将继续致力于推动减少偏见并促进模型更大程度中立性的技术进步,确保它们不会偏向任何特定的政治立场。
实质上,关于 AI 安全的问题,在此前一直是一个争议的热点。曾获得图灵奖、被称为 "AI 教父 " 的加拿大计算机科学家 Yoshua Bengio 就曾呼吁,AI 领網域被少数科技公司控制的可能性,将会是该技术带来生存风险之后的 " 第二大问题 "。
Anthropic 的创始团队从 OpenAI 出来,并且参加过 GPT-3 的核心研发工作,目前也许是除了微软与 OpenAI 之外,最了解 OpenAI 与 GPT 系列大模型的公司。而他们选择的道路与 Open AI 相比也正好印证了技术路线的分歧:到底是性能先行还是兼顾技术治理。
这也是他们在发展理念上的终极竞争。
而关于 Claude 3 带给行业接下来的影响,除了对于 Open AI 霸主的地位的冲击外,有行业人士直接表示,行业有望很快从模型竞争转变为工作流竞争。
该观点的形成与 Claude 3 系列模型在定价策略上的与众不同相关。目前,Claude 3 系列中最顶级版本 Claude 3 Opus 的价格设定凸显其高端定位,对于每 100 万条 token 的使用费用为 15 美元,明显高于 GPT-4 Turbo 的 10 美元收费标准。
然而,Anthropic 也透露,Claude 3 系列中性能相对较低的 Sonnet 和 Haiku 版本,在处理相同数据量时的收费至少比 Claude 3 Opus 低五倍。
举例来说,如果用 Claude 来创建电子表格并比较其不同层级模型与 GPT-4 Turbo 以及 GPT-3.5 的成本,可以发现,在高端产品线上,Claude 3 Opus 在输入和输出成本上均超过了 GPT-4 Turbo;但在小型或中低端模型方面,例如 Claude 3 Haiku 的定价则较 GPT-3.5-turbo-0125 更为经济实惠。
这种价格差异使得业界开始讨论小规模模型的市场前景,有人甚至预测小模型可能在未来市场竞争中逐渐淡出。
与此同时,Anthropic 对 AI 安全性的高度重视及定价策略上的亲民设计,显示了该公司商业模式上的独特布局,即更倾向于瞄准具有较高付费能力的企业级客户群体。
Claude 3 发布后,市场上对下一代大模型 GPT-5 的期待声浪愈发高涨,许多业内专家认为,这不仅标志着 Claude 的崛起时刻,同时也是 Open AI 展现实力的关键阶段。有网友乐观预计,也许不久就能见证 GPT-4.5 的诞生。虽然最终结果有待观察,但可以预见的是,这场围绕大模型技术的竞争即将迎来新一轮的更新与高潮。
雷峰网 AI 科技评论将持续关注大模型领網域动态,欢迎添加 anna042023 和 lionceau2046,交流认知,互通有无