今天小編分享的互聯網經驗:全球最強模型一夜易主?Anthropic聲稱新模型Claude 3性能超越GPT-4接近人類,歡迎閱讀。
圖片來源:Anthropic
一夜之間,全球最強 AI 模型易主。大模型行業又變天了。
钛媒體 AGI 獲悉,3 月 5 日凌晨,OpenAI 競争對手、谷歌、亞馬遜投資支持的 Anthropic 公司發布最新 Claude 3 系列模型,多個領網域的性能超越了 OpenAI 的 GPT-4。
Claude 3 系列模型主要包括 Haiku(中杯)、Sonnet(大杯)與 Opus(超大杯)三款,能力依次從低到高。在推理、數學、編碼、多語言理解和視覺等多個領網域的 20 款測試中,Claude 3 Opus 在 14 個性能指标下超越了 GPT-4、谷歌 Gemini 等一系列模型。
Anthropic 表示,Claude 3 Opus 擁有人類大學生水平的知識。同時 Opus 也已經躍升成為全球最強大的 AI 大模型。
此外,Claude 還首次公布對多模态能力的支持(Opus 版本的 MMMU 得分為 59.4%,超過 GPT-4V,與 Gemini 1.0 Ultra 持平)。用戶現在可以上傳照片、圖表、文檔和其他類型的非結構化數據,讓 AI 進行分析和解答。
目前,Claude 3Opus 和 Sonnet 已經在 claude.ai 以及全球 159 個國家和地區的 Claude API 上使用。而 " 中杯 "Haiku 模型也即将推出。
有網友戲稱,Claude 3 來了。OpenAI,你打算拿什麼來搶一下熱度?Altman,GPT-5 什麼時候推出?
單詞處理能力是 ChatGPT 近 50 倍,Claude 3 到底有多強?
實際上,這家剛剛超越 ChatGPT-4 的大模型公司僅成立不到 3 年。
Anthropic AI 成立于 2021 年,由 OpenAI 前研究副總裁達裡奧 · 阿莫迪(Dario Amodei)、GPT-3 論文一作 Tom Brown 等人建立。
成立的原因是,Amodei 領導的研究人員在對公司的發展方向存在分歧後離開了 OpenAI,他們擔心微軟對 OpenAI 的投資會使其走上更加商業化的道路,偏離公司最初想法。
2022 年 12 月,在 ChatGPT 發布不久,Anthropic 團隊在 arxiv 上發布了一篇題為《Constitutional AI: Harmlessness from AI Feedback》論文,描述了一個基于無監督方式訓練、520 億參數的模型 AnthropicLM v4-s3,直接挑戰 OpenAI 的 GPT-3 模型。
2023 年 1 月,Anthropic 發布基于 AnthropicLM v4-s3、AI 聊天機器人模型產品 Claude,被認為是 ChatGPT 的有力競争者。
融資方面,整個 2023 年,Anthropic 共完成五筆融資,總融資額約 73 億美元,投資方包括谷歌、Salesforce、亞馬遜以及韓國 SK Telecom 等。其中,亞馬遜向 Anthropic 投資高達 40 億美元、谷歌投資超過 20 億美元,均持有 Anthropic 的少數股權。
Anthropic 聯合創始人丹妮拉 · 阿莫迪(Daniela Amodei)曾透露,公司有 60 至 80 人參與了核心人工智能模型的開發工作,而 120 至 150 人則參與了技術方面的研發。阿莫迪去年表示,AI 模型 Claude 的最新一次迭代由 30 至 35 人組成的團隊直接參與,并有大約 150 人提供支持。
當地時間 3 月 4 日,Anthropic 正式發布最新一代模型 Claude 3,同時還是目前行業最強大的 AI 模型。
Claude 3 系列模型主要包括 Haiku(中杯)、Sonnet(大杯)與 Opus(超大杯)三個型号,在性能基準、實時結果、視覺能力、長上下文、多語言、工作負載、使用體驗等方面都有重要的突破進展,尤其單詞處理能力是 ChatGPT 近 50 倍。
上下文方面,Anthropic 表示,此次全系列大模型可提供 200k 上下文視窗,相當于 150000 個單詞,單詞處理能力是 ChatGPT 接近 50 倍,大約是英文版《白鲸》或《哈利・波特與死亡聖器》的長度。用戶可以輸入大量數據集,并要求其以備忘錄、信件或故事的形式進行摘要。
性能基準方面,Claude 3 Opus 在本科水平專家知識 ( MMLU ) 、研究生水平專家推理 ( GPQA ) 、基礎數學 ( GSM8K ) 等多個測試中都優于同行業模型。
例如,在 MMLU 方面,Claude 3 Opus 達到 86.8%,超越了 GPT、Gemini 等一眾模型;在研究生水平專家推理 (GPQA)得分是 50.4%,優于 GPT-4 的 35.7%,在基礎數學 ( GSM8K ) 上 Claude 3 Opus 得分是 95.0%,優于 GPT-4 的 92.0%。而且,Claude 3 Haiku 甚至可以與 Gemini 1.0 Pro 相抗衡。
視覺能力方面,Claude 3 系列模型具備與其他領先模型相媲美的高級視覺識别能力。它們能夠處理各種視覺格式,包括照片、圖表、圖形和技術繪圖等。在部分視覺能力上 Claude 3 系列模型性能刷新 SOTA。如在技術圖表(AI2D)上,Claude 3 Opus 得分為 88.1%,遠超 GPT-4V 的 78.2%。另外,Anthropic 稱,這将為企業客戶提供這種新的能力,支持高達 50% 用 PDF、流程圖或演示文稿等多種格式存儲的企業知識庫。
多語言方面,Claude 3 系列模型增強了西班牙語、日語和法語等非英語語言對話方面的能力。
實時結果和工作負載方面,對于絕大多數場景,Haiku 市場上速度最快且最具成本效益的模型,它可以在不到三秒的時間内閱讀 arXiv 上包含圖表和圖形的信息和數據密集的研究論文;Sonnet 的速度比 Claude 2 和 Claude 2.1 快 2 倍,且智能水平更高,它擅長執行需要快速響應的任務,如知識檢索或銷售自動化等;最強大的 Opus 模型的速度與 Claude 2 和 2.1 相似,但智能水平更高。
Anthropic 還在 Claude 3 系列模型論文中表示,這些模型都是使用亞馬遜 AWS 和谷歌雲的硬體進行訓練的。目前,Claude3 已在 AWS 模型庫 Bedrock 和谷歌的 VertexAI 中上線。
此外,在負責任能力、使用體驗等方面,Anthropic 表示,Claude 3 系列模型不僅功能強大,而且值得信賴。
不過,Anthropic 也坦言,雖然與之前的模型相比,Claude 3 模型系列在生物知識、網絡相關知識和自主性的關鍵指标方面取得了進步,但根據其負責任的擴展政策,它仍處于 AI 安全級别 2 ( ASL-2 ) ,低于美國白宮的超強大 AI 模型标準的阈值界限。
整體來看,Anthropic 長文本能力、多個性能指标都非常強大,與 GPT-4 一較高下也不為過。
Dario Amodei 近期公開表示,2023 年是專家級 AI ,到 2025-2026 年 Anthropic 的模型技術将成功超越人類,屆時 AI 将能夠真正幫助人類工作,大大加速產業發展。
GPT-5 即将到來?
随着最強 AI 大模型 Claude 3 發布,引發了 AI 行業内的關注。
" 矽谷鋼鐵俠 "、億萬富翁、特斯拉 CEO 馬斯克(ElonMusk)最新回應稱,這個成果非常感人。
最近剛剛離職 OpenAI 的開發者關系負責人 Logan 稱,祝賀 Anthropic 團隊,很高興看到編碼能力發揮作用。
也有網友稱,這些數學基準還是 0 樣本的 Claude 3,擊敗了訓練了 5-8 個樣本的 GPT-4。
在 Anthropic 官宣之後,不少得到試用機會的研究者也曬出了自己的體驗。有網友稱,Claude 3 Sonnet 解出了一道此前只有 GPT-4 才能解開的謎題。
不過也有人質疑,Claude 幻覺問題很嚴重,尤其是對于中文的支持程度很低。而且,在定價上 Claude 3 也比 GPT-4 Turbo 要貴得多。
據悉,GPT-4 Turbo 每百萬 token 輸入 / 輸出收費為 10/30 美元,而 Claude 3 Opus 為 15/75 美元。
英偉達高級科學家 Jim Fan 則表示,他非常期待 GPT-5 的發布。
" 誰是今天的最強大模型,沒有意義。這件事不是閃電戰,是軍備戰和加長超時戰。當然 Claude 3 确實很牛。"
那麼,GPT-5 現在最新的情況怎麼樣呢?
3 月 4 日,網上瘋轉了一份最新長達 53 頁的 PDF 檔案,曝光了 OpenAI 公司最新計劃和進展,其中包括公司預計在 2027 年前打造出人類級别通用人工智能(AGI)計劃等。
早在 2023 年 11 月 OpenAI CEO 奧特曼(Sam Altman)就透露,OpenAI 已經開發出了比 GPT-4 更強大、更難以想象的東西,遠超人們的期待。
" 模型的能力将會有一個無人預料到的飛躍。與人們的預期不同,這個飛躍是驚人的……這在 OpenAI 的歷史上有四次 ,而最近一次,就是在過去幾周内。在撥開無知的面紗和探索未知的邊界時,我有幸在場,這是我職業生涯中的榮幸。" 奧特曼表示。
斯坦福博士 Silas Alberti 就猜測,所謂 GPT-5 的 Q* 很可能是基于 AlphaGo 式蒙特卡羅樹搜索 token 軌迹。下一個合乎邏輯的步驟是以更有原則的方式搜索 token 樹。這在編碼和數學等環境中尤為合理。
圖靈獎得主 LeCun 則非常擔心,一旦這些大模型公司遊說政府監管開源 AI,将他們的模型除去标準以内,将使整個 AI 模型行業不復存在。
如果 GPT-5 消息這兩天将發布,那今年,我們人類無疑将看到一場 AI 新熱戰,并無限接近 AGI 時代。
(本文首發钛媒體 App,作者|林志佳、任穎文,編輯|林志佳)