今天小編分享的科技經驗:他們讓GPT-4看起來像個流氓,歡迎閲讀。
出品|虎嗅科技組
作者|齊健
編輯|王一鵬
頭圖|DALL-E 3
當地時間 3 月 4 日,Anthropic 發布了最新的 Claude 3 模型系列,包括 Claude 3 Opus、Sonnet 和 Haiku 三個模型,其中 Claude 3 Opus 在多個測試數據集中全面超過了 GPT-4。
Anthropic 是一家由 OpenAI 前成員 Daniela Amodei、Dario Amodei 和 Jared Kaplan 共同創立的美國人工智能(AI)初創公司,專注于開發通用 AI 系統和大型語言模型。
Claude 3 Haiku、Sonnet 和 Opus 三款模型的能力和成本依次遞增,推理速度依次遞減。Claude 3 Opus 性能最強,相對的輸出成本最高和輸出時間最長,Claude 3 Opus 模型在數學、編程、多語言理解和視覺等多項基準測試中超越了 GPT-4 和 Gemini 1.0 Ultra。
與 GPT-4 相比,Claude 3 Opus 在多個測試數據集中全面超過了 GPT-4。
Anthropic 在 Claude 3 系列模型中首次放出了多模态能力,用户可以上傳各類非結構化數據如照片、圖表等供 AI 分析。這三個模型均支持 200K token 的長上下文視窗,并向特定客户開放超過 100 萬 token 的上下文輸入能力。
不過,Claude 3 模型的定價也高于 GPT-4。能力最強的 Claude 3 Opus 比 GPT-4 Turbo 貴得多:GPT-4 Turbo 每百萬 token 輸入價格為 10 美元,輸出價格為 30 美元,Claude 3 Opus 每百萬 token 輸入 5 美元,輸出 75 美元。
Claude 3 的定價
目前 Claude 3 Haiku 尚未推送,Sonnet 已經開放在 Claude 的官網上可以免費試用,Opus 也已經上線,不過要體驗 Opus 需要花每月 20 美元(不含税)訂閲 Claude Pro。相對于 ChatGPT,目前 Claude 的全系產品均不能直接鏈接互聯網查詢資料。
安全第一
" 安全、穩定 " 一直被認為是 Claude 的一大特點。
Anthropic 開發了所謂的" 憲法 AI" 技術,旨在将一系列原則賦予模型,以引導模型產生符合這些原則的文本,例如非有害、有益的内容。這種方法旨在使 Claude 2 的行為更易于理解和調整,盡管公司承認在預測模型在所有情況下的行為方面仍面臨挑戰。
Claude 2 的另一個重點是降低模型產生有害、有偏見或不準确回應的概率。比如,與 Claude 1.3 相比,Claude 2 在内部評估中在給出 " 無害 " 回應方面表現得 " 兩倍 " 更好。但是,這種改進的具體含義并未詳細説明,例如是指兩倍不太可能回應帶有性别歧視或種族歧視的内容,還是兩倍不太可能支持暴力或自殘等。
由此,Claude 模型曾被質疑 " 道德标準過高 "。
此次發布的 Claude 3,在安全性和倫理性方面也進行了改進,包括對有害内容的更好管理和對有益行為的支持,同時減少了對良性提示的拒絕反應。
在訓練數據方面 Anthropic 也格外小心,盡量規避可能的風險。
Claude 3 的訓練數據來自 2023 年 8 月之前公開可獲得的互聯網信息、第三方提供的非公開數據、數據标注服務和付費合同工提供的數據以及 Anthropic 專門制作的數據集上訓練的。Anthropic 采用了多種數據清洗和過濾方法,包括去重和分類。值得注意的是,Claude 3 的模型系列沒有使用任何用户或客户提交給我們的用户提示或輸出數據進行訓練,包括免費用户、Claude Pro 用户和 API 客户。
在獲取通過爬取公共網頁的數據時,Anthropic 遵循行業實踐,尊重網站運營者通過 robots.txt 指令和其他信号用來指示是否允許爬取其網站内容的做法。根據 Anthropic 的政策,其爬蟲不會訪問受密碼保護或需要登錄的頁面,也不會繞過 CAPTCHA 控制。
Anthropic 對所使用的數據進行了盡職調查,并以透明的方式運營其爬蟲系統,這意味着網站運營者可以輕松識别 Anthropic 的訪問并向 Anthropic 表達他們的偏好。
OpenAI 的尴尬處境
Claude" 過于安全 " 的屬性,也成了 OpenAI 的壓力。
Claude 發布前月餘,業界一直有傳聞認為,OpenAI 将在 Claude 3 發布之際,迅速跟進發布最新的 GPT-4.5(5),或是秘密研發的 Q* 模型。
不過就在 2 月 29 日,馬斯克突然對 OpenAI 提起訴訟,指控 OpenAI 首席執行官 Sam Altman 為了追求商業利益,違背了 OpenAI" 确保 AI 造福人類 " 的非盈利性初衷。馬斯克要求法院強制 OpenAI 回歸開源,并阻止公司及其創始人以及微軟等背後支持者從中獲利。
在此之前 OpenAI 在 AGI 研發方面就一直飽受質疑,人們對 " 巨型 "AI 模型和 AGI 安全性的擔憂與日俱增,一些人甚至認為 OpenAI 及其他 AI 大模型公司應該暫時停止研發,等待相關法律、監管制度的逐步健全。
此番全新發布的 Claude 3,在模型能力方面繼續主打安全、穩定。在 Claude 3 的襯托之下,如果 OpenAI 此時發布新模型,能力強則很可能在安全方面刺激監管和輿論敏感的神經,而能力弱,則自然會影響 " 大模型之王 " 的形象。
馬斯克的突然襲擊,似乎搞得 OpenAI 有點左右為難。Sam Altman 如今也不得不把注意力從產品、模型中抽出來,轉而關注當下輿論焦點的 AI 安全問題。
正在發大火箭的馬斯克還特意跑來 Anthropic 點了個贊
就在 Claude 3 發布幾分鍾後,Sam Altman 也發布了一條 X 推文,但他的推文卻與 AI 大模型技術和產品無關,而是關于一封公開信。
Sam Altman 推文
風險投資家 Ron Conway 和他的公司 SV Angel 發起了一場名為:Build AI for a Better Future(構建人工智能,共創美好未來)的聯名公開信活動,旨在強調 " 最大限度地發揮人工智能的好處并減輕風險 " 對社會的 " 集體責任 "。OpenAI、Google、Meta、Y Combinator 等科技公司、投資機構參與并籤署了這份聯名公開信。
目前,關于 GPT-4.5(5)和 Q* 的猜測仍未停止,而 OpenAI 近期是否真的會發布新模型,讓我們拭目以待。
GPT-4 和 Claude 誰強?
" 跑分 " 戰勝了 GPT-4,但具體模型能力方面,Claude 3 和 GPT-4 的差别到底在哪呢?
首先是多模态理解與處理能力,Claude 3 能夠處理和理解影像和視頻幀輸入,從而解決超出簡單文本理解的復雜多模态推理挑戰。
在 AI2D 科學圖表基準測試中,Claude 3 的能力得到了展示,尤其是在視覺問答評估方面。這項評估涉及到理解和分析圖表,然後根據圖表信息回答多項選擇題。簡單來説,就像在考試中,你被給了一些圖表(比如柱狀圖、線圖等),然後要回答一些基于這些圖表的問題。Claude 3 不僅要理解圖表顯示的數據,還要準确選擇正确的答案。
在這個測試中,Claude 3 展現了非常高的準确率,特别是 Sonnet 版本,在沒有任何預備知識(即 0-shot 設定,也稱為零樣本學習)的情況下就達到了 89.2% 的準确率,這表明它非常擅長理解圖表和回答相關問題,即使是在沒有特定訓練的情況下。這種能力對于執行需要影像和文本結合理解的任務非常重要,比如在學術研究、市場分析等領網域。
在長文本處理方面,Claude 3 模型支持至少 1M(1,000,000)個 token 的上下文,而目前在生產中僅提供最多 200k(200,000)token 的上下文。在長文檔理解、跨文檔分析、金融數據分析等方面提供了更詳細和可操作的用例。這一點在處理大規模文本數據時,相對于 GPT-4 可能更有優勢,尤其是在需要綜合分析和提取大量信息的場景中。
此外,Claude 3 的多語言能力也被 Anthropic 認為是一大亮點。Claude 3 Opus 在多語言數學(MGSM)基準測試中達到了超過 90% 的 0-shot 成績,并在 8 種語言中實現了超過 90% 的準确率,包括法語、俄語、簡體中文、西班牙語、孟加拉語、泰語、德語和日語。這表明 Claude 3 在多語言理解和推理方面具有較強的能力,尤其是在數學問題解決方面。
最後,Claude 3 在長文本理解、推理、編程以及科學查詢處理方面均表現出良好的性能。其在長文本問題回答基準測試 QuALITY 中的表現尤其突出,0-shot 和 1-shot 設定下的表現均優于早期模型,顯示了其在理解和處理長文本上的高效能力。
在 Claude 的技術論文中也提到了一些模型的不足之處。
首先 Claude 不能聯網。雖然用户可以通過直接分享的文檔方式互動互動,但 Claude 只能基于 2023 年 8 月之前的數據回答問題,并拒絕識别影像中的人物。
其次是所有大型語言模型(LLMs)都會遇到的問題,生成内容的準确性和偏見,Claude 亦會產生錯誤信息(confabulations)、展現偏見、犯事實錯誤,并可能被 " 破解 "(jail-broken)。
多語言推理能力的不完備,在處理小語種時性能較不穩定。
多模态能力方面的準确性有待提高,Claude 模型有時可能生成關于影像的不準确信息和描述。性能有時也會在處理小影像或低分辨率影像時降低。
最後是新能力的 " 潛在 " 負面效應。Claude 3 引入了新的多模态、多語言能力等,開發人員認為這些能力有時可能會打破模型原有的 " 平衡 ",某些新改進的能力在其他領網域可能造成潛在影響。
論文中提到:随着時間的推移,決定 Claude" 個性 " 和能力的數據和影響因素變得相當復雜。在簡單可自動化的方式中平衡這些因素,跟蹤它們,以及一般減少訓練 Claude 的復雜性,仍然是我們的關鍵研究問題。
走 OpenAI 沒走的路
Anthropic 在 Claude 3 的發布博客中介紹了三款模型的潛在應用方向,帶着濃濃的 ToB 商業化氣息。
Claude 3 Opus:任務自動化,跨 API 和數據庫規劃和執行復雜的操作、互動式編碼;研發,研究回顧、集思廣益和假設生成、藥物發現;策略,圖表、财務和市場趨勢的高級分析、預測。
Claude 3 Sonnet:數據處理,RAG 或對大量知識的搜索和檢索;銷售,產品推薦、預測、定向營銷;節省時間的任務,代碼生成、質量控制、從影像中解析文本。
Claude 3 Haiku:客户互動,實時互動、翻譯中快速、準确的支持;内容審核,捕捉危險行為或客户請求;節省成本的任務,優化物流、庫存管理、從非結構化數據中提取知識。
外界一直認為 Anthropic 是一家有着重度 ToB 基因的公司。
Anthropic 在 C 輪融資中,引入了 Google、Salesforce、Zoom 等技術和服務市場上的 ToB 科技巨頭,這些合作夥伴對 AI 公司的訴求必然是将先進的 AI 技術集成到自己的產品和服務中,以提高效率、創新能力和競争力。
此外,Anthropic 已經與 Zoom 開展合作,旨在 " 構建以可靠性、生產力和安全性為中心的面向客户的 AI 產品 ",也清晰地表明了公司的 B2B 基因。這種合作通常涉及開發能夠為企業提供具體價值的解決方案,如改善客户服務、自動化工作流程或提供決策支持等。
Anthropic 還與波士頓咨詢集團(BCG)合作,旨在将負責任的生成式 AI 技術引入到企業客户中。通過這一合作,BCG 的客户可以直接利用 Anthropic 的 AI 系統,包括其最先進的模型 Claude 2,這些系統專注于可靠性、可解釋性和可控性。
目前,Anthropic 聲稱已擁有多個來自不同行業(包括醫療保健、人力資源和教育等)的客户。
在企業服務和 ToB 市場上,雖然 OpenAI 也推出了 ChatGPT Enterprise 版以及企業的 API 接口,但相對于 Anthropic 與企業的深度合作,則 ToB 屬性輕得多。
從這次 Claude 3 的中提及的很多重點也可以看出,Anthropic 希望在商業化方面,走出一條與 OpenAI 不同的道路。