大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 互联网

全球最强模型一夜易主?Anthropic声称新模型Claude 3性能超越GPT-4接近人类

2024-03-05 简体 HK SG TW

今天小编分享的互联网经验:全球最强模型一夜易主?Anthropic声称新模型Claude 3性能超越GPT-4接近人类,欢迎阅读。

图片来源:Anthropic

一夜之间,全球最强   AI 模型易主。大模型行业又变天了。

钛媒体 AGI 获悉,3 月 5 日凌晨,OpenAI 竞争对手、谷歌、亚马逊投资支持的 Anthropic 公司发布最新 Claude 3 系列模型,多个领網域的性能超越了 OpenAI 的 GPT-4。

Claude 3 系列模型主要包括 Haiku(中杯)、Sonnet(大杯)与 Opus(超大杯)三款,能力依次从低到高。在推理、数学、编码、多语言理解和视觉等多个领網域的 20 款测试中,Claude 3 Opus 在 14 个性能指标下超越了 GPT-4、谷歌 Gemini 等一系列模型。

Anthropic 表示,Claude 3 Opus 拥有人类大學生水平的知识。同时 Opus 也已经跃升成为全球最强大的 AI 大模型。

此外,Claude 还首次公布对多模态能力的支持(Opus 版本的 MMMU 得分为 59.4%,超过 GPT-4V,与 Gemini   1.0 Ultra 持平)。用户现在可以上传照片、图表、文档和其他类型的非结构化数据,让 AI 进行分析和解答。

目前,Claude 3Opus 和 Sonnet 已经在 claude.ai 以及全球 159 个国家和地区的 Claude API 上使用。而 " 中杯 "Haiku 模型也即将推出。

有网友戏称,Claude 3 来了。OpenAI,你打算拿什么来抢一下热度?Altman,GPT-5 什么时候推出?

单词处理能力是 ChatGPT 近 50 倍,Claude 3 到底有多强?

实际上,这家刚刚超越 ChatGPT-4 的大模型公司仅成立不到 3 年。

Anthropic AI 成立于 2021 年,由 OpenAI 前研究副总裁达里奥 · 阿莫迪(Dario Amodei)、GPT-3 论文一作 Tom Brown 等人建立。

成立的原因是,Amodei 领导的研究人员在对公司的发展方向存在分歧后离开了 OpenAI,他们担心微软对 OpenAI 的投资会使其走上更加商业化的道路,偏离公司最初想法。

2022 年 12 月,在 ChatGPT 发布不久,Anthropic 团队在 arxiv 上发布了一篇题为《Constitutional AI: Harmlessness from AI Feedback》论文,描述了一个基于无监督方式训练、520 亿参数的模型 AnthropicLM v4-s3,直接挑战 OpenAI 的 GPT-3 模型。

2023 年 1 月,Anthropic 发布基于 AnthropicLM v4-s3、AI 聊天机器人模型产品 Claude,被认为是 ChatGPT 的有力竞争者。

融资方面,整个 2023 年,Anthropic 共完成五笔融资,总融资额约 73 亿美元,投资方包括谷歌、Salesforce、亚马逊以及韩国 SK Telecom 等。其中,亚马逊向 Anthropic 投资高达 40   亿美元、谷歌投资超过 20 亿美元,均持有 Anthropic 的少数股权。

Anthropic 联合创始人丹妮拉 · 阿莫迪(Daniela Amodei)曾透露,公司有 60 至 80 人参与了核心人工智能模型的开发工作,而 120 至 150 人则参与了技术方面的研发。阿莫迪去年表示,AI 模型 Claude 的最新一次迭代由 30 至 35 人组成的团队直接参与,并有大约 150 人提供支持。

当地时间 3 月 4 日,Anthropic 正式发布最新一代模型 Claude 3,同时还是目前行业最强大的 AI 模型。

Claude 3 系列模型主要包括 Haiku(中杯)、Sonnet(大杯)与 Opus(超大杯)三个型号,在性能基准、实时结果、视觉能力、长上下文、多语言、工作负载、使用体验等方面都有重要的突破进展,尤其单词处理能力是 ChatGPT 近 50 倍。

上下文方面,Anthropic 表示,此次全系列大模型可提供 200k 上下文視窗,相当于 150000 个单词,单词处理能力是 ChatGPT 接近 50 倍,大约是英文版《白鲸》或《哈利・波特与死亡圣器》的长度。用户可以输入大量数据集,并要求其以备忘录、信件或故事的形式进行摘要。

性能基准方面,Claude 3 Opus 在本科水平专家知识   ( MMLU ) 、研究生水平专家推理   ( GPQA ) 、基础数学   ( GSM8K )   等多个测试中都优于同行业模型。

例如,在 MMLU 方面,Claude 3 Opus 达到 86.8%,超越了 GPT、Gemini 等一众模型;在研究生水平专家推理  (GPQA)得分是 50.4%,优于 GPT-4 的 35.7%,在基础数学   ( GSM8K )   上 Claude 3 Opus 得分是 95.0%,优于 GPT-4 的 92.0%。而且,Claude 3 Haiku 甚至可以与 Gemini 1.0 Pro 相抗衡。

视觉能力方面,Claude 3 系列模型具备与其他领先模型相媲美的高级视觉识别能力。它们能够处理各种视觉格式,包括照片、图表、图形和技术绘图等。在部分视觉能力上 Claude 3 系列模型性能刷新 SOTA。如在技术图表(AI2D)上,Claude 3 Opus 得分为 88.1%,远超 GPT-4V 的 78.2%。另外,Anthropic 称,这将为企业客户提供这种新的能力,支持高达 50% 用 PDF、流程图或演示文稿等多种格式存储的企业知识库。

多语言方面,Claude 3 系列模型增强了西班牙语、日语和法语等非英语语言对话方面的能力。

实时结果和工作负载方面,对于绝大多数场景,Haiku 市场上速度最快且最具成本效益的模型,它可以在不到三秒的时间内阅读 arXiv 上包含图表和图形的信息和数据密集的研究论文;Sonnet 的速度比 Claude 2 和 Claude 2.1 快 2 倍,且智能水平更高,它擅长执行需要快速响应的任务,如知识检索或销售自动化等;最强大的 Opus 模型的速度与 Claude 2 和 2.1 相似,但智能水平更高。

Anthropic 还在 Claude 3 系列模型论文中表示,这些模型都是使用亚马逊 AWS 和谷歌云的硬體进行训练的。目前,Claude3 已在 AWS 模型库 Bedrock 和谷歌的 VertexAI 中上线。

此外,在负责任能力、使用体验等方面,Anthropic 表示,Claude 3 系列模型不仅功能强大,而且值得信赖。

不过,Anthropic 也坦言,虽然与之前的模型相比,Claude 3 模型系列在生物知识、网络相关知识和自主性的关键指标方面取得了进步,但根据其负责任的扩展政策,它仍处于 AI 安全级别 2 ( ASL-2 )  ,低于美国白宫的超强大 AI 模型标准的阈值界限。

整体来看,Anthropic 长文本能力、多个性能指标都非常强大,与 GPT-4 一较高下也不为过。

Dario Amodei 近期公开表示,2023 年是专家级 AI ,到 2025-2026 年 Anthropic 的模型技术将成功超越人类,届时 AI 将能够真正帮助人类工作,大大加速产业发展。

GPT-5 即将到来?

随着最强 AI 大模型 Claude 3 发布,引发了 AI 行业内的关注。

" 硅谷钢铁侠 "、亿万富翁、特斯拉 CEO 马斯克(ElonMusk)最新回应称,这个成果非常感人。

最近刚刚离职 OpenAI 的开发者关系负责人 Logan 称,祝贺 Anthropic 团队,很高兴看到编码能力发挥作用。

也有网友称,这些数学基准还是 0 样本的 Claude 3,击败了训练了 5-8 个样本的 GPT-4。

在 Anthropic 官宣之后,不少得到试用机会的研究者也晒出了自己的体验。有网友称,Claude 3 Sonnet 解出了一道此前只有 GPT-4 才能解开的谜题。

不过也有人质疑,Claude 幻觉问题很严重,尤其是对于中文的支持程度很低。而且,在定价上 Claude   3   也比   GPT-4   Turbo   要贵得多。

据悉,GPT-4 Turbo 每百万 token 输入   /   输出收费为 10/30   美元,而 Claude 3 Opus 为 15/75 美元。

英伟达高级科学家 Jim Fan 则表示,他非常期待 GPT-5 的发布。

" 谁是今天的最强大模型,没有意义。这件事不是闪电战,是军备战和加长超时战。当然 Claude 3 确实很牛。"

那么,GPT-5 现在最新的情况怎么样呢?

3 月 4 日,网上疯转了一份最新长达 53 页的 PDF 檔案,曝光了 OpenAI 公司最新计划和进展,其中包括公司预计在 2027 年前打造出人类级别通用人工智能(AGI)计划等。

早在 2023 年 11 月 OpenAI CEO 奥特曼(Sam Altman)就透露,OpenAI 已经开发出了比 GPT-4 更强大、更难以想象的东西,远超人们的期待。

" 模型的能力将会有一个无人预料到的飞跃。与人们的预期不同,这个飞跃是惊人的……这在 OpenAI 的历史上有四次  ,而最近一次,就是在过去几周内。在拨开无知的面纱和探索未知的边界时,我有幸在场,这是我职业生涯中的荣幸。" 奥特曼表示。

斯坦福博士 Silas Alberti 就猜测,所谓 GPT-5 的 Q* 很可能是基于 AlphaGo 式蒙特卡罗树搜索 token 轨迹。下一个合乎逻辑的步骤是以更有原则的方式搜索 token 树。这在编码和数学等环境中尤为合理。

图灵奖得主 LeCun 则非常担心,一旦这些大模型公司游说政府监管开源 AI,将他们的模型除去标准以内,将使整个 AI 模型行业不复存在。

如果 GPT-5 消息这两天将发布,那今年,我们人类无疑将看到一场 AI 新热战,并无限接近 AGI 时代。

(本文首发钛媒体 App,作者|林志佳、任颖文,编辑|林志佳)

熱門排行
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們