大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 互聯網

全球最強模型一夜易主?Anthropic聲稱新模型Claude 3性能超越GPT-4接近人類

2024-03-05 简体 HK SG TW

今天小編分享的互聯網經驗:全球最強模型一夜易主?Anthropic聲稱新模型Claude 3性能超越GPT-4接近人類,歡迎閲讀。

圖片來源:Anthropic

一夜之間,全球最強   AI 模型易主。大模型行業又變天了。

钛媒體 AGI 獲悉,3 月 5 日凌晨,OpenAI 競争對手、谷歌、亞馬遜投資支持的 Anthropic 公司發布最新 Claude 3 系列模型,多個領網域的性能超越了 OpenAI 的 GPT-4。

Claude 3 系列模型主要包括 Haiku(中杯)、Sonnet(大杯)與 Opus(超大杯)三款,能力依次從低到高。在推理、數學、編碼、多語言理解和視覺等多個領網域的 20 款測試中,Claude 3 Opus 在 14 個性能指标下超越了 GPT-4、谷歌 Gemini 等一系列模型。

Anthropic 表示,Claude 3 Opus 擁有人類大學生水平的知識。同時 Opus 也已經躍升成為全球最強大的 AI 大模型。

此外,Claude 還首次公布對多模态能力的支持(Opus 版本的 MMMU 得分為 59.4%,超過 GPT-4V,與 Gemini   1.0 Ultra 持平)。用户現在可以上傳照片、圖表、文檔和其他類型的非結構化數據,讓 AI 進行分析和解答。

目前,Claude 3Opus 和 Sonnet 已經在 claude.ai 以及全球 159 個國家和地區的 Claude API 上使用。而 " 中杯 "Haiku 模型也即将推出。

有網友戲稱,Claude 3 來了。OpenAI,你打算拿什麼來搶一下熱度?Altman,GPT-5 什麼時候推出?

單詞處理能力是 ChatGPT 近 50 倍,Claude 3 到底有多強?

實際上,這家剛剛超越 ChatGPT-4 的大模型公司僅成立不到 3 年。

Anthropic AI 成立于 2021 年,由 OpenAI 前研究副總裁達裏奧 · 阿莫迪(Dario Amodei)、GPT-3 論文一作 Tom Brown 等人建立。

成立的原因是,Amodei 領導的研究人員在對公司的發展方向存在分歧後離開了 OpenAI,他們擔心微軟對 OpenAI 的投資會使其走上更加商業化的道路,偏離公司最初想法。

2022 年 12 月,在 ChatGPT 發布不久,Anthropic 團隊在 arxiv 上發布了一篇題為《Constitutional AI: Harmlessness from AI Feedback》論文,描述了一個基于無監督方式訓練、520 億參數的模型 AnthropicLM v4-s3,直接挑戰 OpenAI 的 GPT-3 模型。

2023 年 1 月,Anthropic 發布基于 AnthropicLM v4-s3、AI 聊天機器人模型產品 Claude,被認為是 ChatGPT 的有力競争者。

融資方面,整個 2023 年,Anthropic 共完成五筆融資,總融資額約 73 億美元,投資方包括谷歌、Salesforce、亞馬遜以及韓國 SK Telecom 等。其中,亞馬遜向 Anthropic 投資高達 40   億美元、谷歌投資超過 20 億美元,均持有 Anthropic 的少數股權。

Anthropic 聯合創始人丹妮拉 · 阿莫迪(Daniela Amodei)曾透露,公司有 60 至 80 人參與了核心人工智能模型的開發工作,而 120 至 150 人則參與了技術方面的研發。阿莫迪去年表示,AI 模型 Claude 的最新一次迭代由 30 至 35 人組成的團隊直接參與,并有大約 150 人提供支持。

當地時間 3 月 4 日,Anthropic 正式發布最新一代模型 Claude 3,同時還是目前行業最強大的 AI 模型。

Claude 3 系列模型主要包括 Haiku(中杯)、Sonnet(大杯)與 Opus(超大杯)三個型号,在性能基準、實時結果、視覺能力、長上下文、多語言、工作負載、使用體驗等方面都有重要的突破進展,尤其單詞處理能力是 ChatGPT 近 50 倍。

上下文方面,Anthropic 表示,此次全系列大模型可提供 200k 上下文視窗,相當于 150000 個單詞,單詞處理能力是 ChatGPT 接近 50 倍,大約是英文版《白鲸》或《哈利・波特與死亡聖器》的長度。用户可以輸入大量數據集,并要求其以備忘錄、信件或故事的形式進行摘要。

性能基準方面,Claude 3 Opus 在本科水平專家知識   ( MMLU ) 、研究生水平專家推理   ( GPQA ) 、基礎數學   ( GSM8K )   等多個測試中都優于同行業模型。

例如,在 MMLU 方面,Claude 3 Opus 達到 86.8%,超越了 GPT、Gemini 等一眾模型;在研究生水平專家推理  (GPQA)得分是 50.4%,優于 GPT-4 的 35.7%,在基礎數學   ( GSM8K )   上 Claude 3 Opus 得分是 95.0%,優于 GPT-4 的 92.0%。而且,Claude 3 Haiku 甚至可以與 Gemini 1.0 Pro 相抗衡。

視覺能力方面,Claude 3 系列模型具備與其他領先模型相媲美的高級視覺識别能力。它們能夠處理各種視覺格式,包括照片、圖表、圖形和技術繪圖等。在部分視覺能力上 Claude 3 系列模型性能刷新 SOTA。如在技術圖表(AI2D)上,Claude 3 Opus 得分為 88.1%,遠超 GPT-4V 的 78.2%。另外,Anthropic 稱,這将為企業客户提供這種新的能力,支持高達 50% 用 PDF、流程圖或演示文稿等多種格式存儲的企業知識庫。

多語言方面,Claude 3 系列模型增強了西班牙語、日語和法語等非英語語言對話方面的能力。

實時結果和工作負載方面,對于絕大多數場景,Haiku 市場上速度最快且最具成本效益的模型,它可以在不到三秒的時間内閲讀 arXiv 上包含圖表和圖形的信息和數據密集的研究論文;Sonnet 的速度比 Claude 2 和 Claude 2.1 快 2 倍,且智能水平更高,它擅長執行需要快速響應的任務,如知識檢索或銷售自動化等;最強大的 Opus 模型的速度與 Claude 2 和 2.1 相似,但智能水平更高。

Anthropic 還在 Claude 3 系列模型論文中表示,這些模型都是使用亞馬遜 AWS 和谷歌雲的硬體進行訓練的。目前,Claude3 已在 AWS 模型庫 Bedrock 和谷歌的 VertexAI 中上線。

此外,在負責任能力、使用體驗等方面,Anthropic 表示,Claude 3 系列模型不僅功能強大,而且值得信賴。

不過,Anthropic 也坦言,雖然與之前的模型相比,Claude 3 模型系列在生物知識、網絡相關知識和自主性的關鍵指标方面取得了進步,但根據其負責任的擴展政策,它仍處于 AI 安全級别 2 ( ASL-2 )  ,低于美國白宮的超強大 AI 模型标準的阈值界限。

整體來看,Anthropic 長文本能力、多個性能指标都非常強大,與 GPT-4 一較高下也不為過。

Dario Amodei 近期公開表示,2023 年是專家級 AI ,到 2025-2026 年 Anthropic 的模型技術将成功超越人類,屆時 AI 将能夠真正幫助人類工作,大大加速產業發展。

GPT-5 即将到來?

随着最強 AI 大模型 Claude 3 發布,引發了 AI 行業内的關注。

" 硅谷鋼鐵俠 "、億萬富翁、特斯拉 CEO 馬斯克(ElonMusk)最新回應稱,這個成果非常感人。

最近剛剛離職 OpenAI 的開發者關系負責人 Logan 稱,祝賀 Anthropic 團隊,很高興看到編碼能力發揮作用。

也有網友稱,這些數學基準還是 0 樣本的 Claude 3,擊敗了訓練了 5-8 個樣本的 GPT-4。

在 Anthropic 官宣之後,不少得到試用機會的研究者也曬出了自己的體驗。有網友稱,Claude 3 Sonnet 解出了一道此前只有 GPT-4 才能解開的謎題。

不過也有人質疑,Claude 幻覺問題很嚴重,尤其是對于中文的支持程度很低。而且,在定價上 Claude   3   也比   GPT-4   Turbo   要貴得多。

據悉,GPT-4 Turbo 每百萬 token 輸入   /   輸出收費為 10/30   美元,而 Claude 3 Opus 為 15/75 美元。

英偉達高級科學家 Jim Fan 則表示,他非常期待 GPT-5 的發布。

" 誰是今天的最強大模型,沒有意義。這件事不是閃電戰,是軍備戰和加長超時戰。當然 Claude 3 确實很牛。"

那麼,GPT-5 現在最新的情況怎麼樣呢?

3 月 4 日,網上瘋轉了一份最新長達 53 頁的 PDF 檔案,曝光了 OpenAI 公司最新計劃和進展,其中包括公司預計在 2027 年前打造出人類級别通用人工智能(AGI)計劃等。

早在 2023 年 11 月 OpenAI CEO 奧特曼(Sam Altman)就透露,OpenAI 已經開發出了比 GPT-4 更強大、更難以想象的東西,遠超人們的期待。

" 模型的能力将會有一個無人預料到的飛躍。與人們的預期不同,這個飛躍是驚人的……這在 OpenAI 的歷史上有四次  ,而最近一次,就是在過去幾周内。在撥開無知的面紗和探索未知的邊界時,我有幸在場,這是我職業生涯中的榮幸。" 奧特曼表示。

斯坦福博士 Silas Alberti 就猜測,所謂 GPT-5 的 Q* 很可能是基于 AlphaGo 式蒙特卡羅樹搜索 token 軌迹。下一個合乎邏輯的步驟是以更有原則的方式搜索 token 樹。這在編碼和數學等環境中尤為合理。

圖靈獎得主 LeCun 則非常擔心,一旦這些大模型公司遊説政府監管開源 AI,将他們的模型除去标準以内,将使整個 AI 模型行業不復存在。

如果 GPT-5 消息這兩天将發布,那今年,我們人類無疑将看到一場 AI 新熱戰,并無限接近 AGI 時代。

(本文首發钛媒體 App,作者|林志佳、任穎文,編輯|林志佳)

熱門排行
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們