大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 互聯網

Anthropic找到了打敗OpenAI的方法:自己也成為OpenAI

2024-03-29 简体 HK SG TW

今天小編分享的互聯網經驗:Anthropic找到了打敗OpenAI的方法:自己也成為OpenAI,歡迎閱讀。

最近 Anthropic 真是風頭正盛,堪稱赢麻了。

亞馬遜剛剛宣布,再次對它追加 27.5 億美元投資,共同加速生成式人工智能發展。加上去年 9 月投入的 12.5 億美元,總共豪擲超過 40 億美元,成為亞馬遜三十年歷史上最大的對外投資,也令 Anthropic 從去年至今的融資額一舉超過 100 億美元。

而公司開發的旗艦大模型 Claude 3 全家桶自推出 20 多天以來,也一路好評無數、口碑爆棚,并在最新的 Chatbot Arena 排行榜上正式打敗 GPT-4,首次登上王位。

Claude 3 打趴 GPT-4,躍居用戶體驗榜首

我們知道,每當一款新的大模型推出時,都會拿 GPT-4 來作比較。拉出一張包括 MMLU、數學、推理、編程等各項測試的跑分對照表,證明自己哪些參數已經趕超 GPT-4。但歸根結底,模型終究是給人用的,到底是不是真的比 GPT-4 厲害,還得是實際用戶體驗說了算。

昨天,Chatbot Arena 新鮮出爐了截至 3 月 26 日的聊天機器人對戰榜成績。

在收集了來自 47.7 萬多野生用戶對于市面上 75 款大模型的匿名投票後,Claude 3 超大杯 Opus 在群眾的呼聲中力壓群雄,打敗 GPT-4 Turbo 成功登頂第 1 名。大杯 Sonnet 排名第 4,就連 Claude 最輕巧的中杯 Haiku 都超越了初版 GPT-4 和歐洲新貴 Mistral Large,位列第 6 名。

與此同時 Google 僅 Gemini Pro 一員大将殺入前十,來自阿裡巴巴的通義千問排在第 9。

如果說 Anthropic 發布 Claude 3 時引發的 " 大模型王位易主 " 讨論還存在參數争議,那麼經過近一個月的場下實測,Claude 3 的确用實力證明了自己比 GPT-4 更能打,成為目前 LLM 争霸賽的最大赢家。

社區用戶 Peter Gostev 還根據 Chatbot Arena 排行榜制作了從 23 年 5 月到 24 年 3 月,Top15 大模型的動态演變史,清晰展現 Claude 3 勢如破竹的 " 上位 " 全過程。

對榜單不熟悉的朋友,我們先一起來看看它是怎麼打分的。

Chatbot Arena(聊天機器人競技場)是由 UC Berkley、UCSD 和 CMU 合作研究組織 LMSYS Org 開發的 LLM 測試平台,通過眾包方式進行匿名随機對戰,評估和排名不同的語言模型。

具體規則是:用戶向兩個匿名模型輸入同一個問題,然後對它們各自生成的答案進行評價,選擇模型 A 更好、B 更好、平手或都很差。它支持多輪對話,直到用戶認定赢家。并且如果在對話過程中洩露了模型身份,那麼投票将不會被計入。最終,Chatbot Arena 會采用類似于國際象棋等競技遊戲中廣泛使用的 Elo 評分機制,來綜合評估大模型能力。

可以看出,與常見的 Benchmarks 跑分不同,Arena Elo 排行榜成績完全是基于人類用戶的使用體驗和真實反饋,在實用性上更具參考價值。

Chatbot Arena 還放出一系列白熱化的後台對戰數據。

模型 A 在所有非平局 Battle 中戰勝模型 B 的比例:

每一組模型組合(不包括平局)的對戰次數:

公布這一結果的 LMSYS Org 認為,更讓人印象深刻的是 Claude 3 Haiku。作為全家桶中最輕量級的模型,它的用戶偏好已達到與 GPT-4 相當的水平,綜合其速度、能力和 200k 上下文長度,在市場上現在無人能敵。(同時也誇了一下自家伯克利團隊開發的 Starling-LM-7B-beta 近期攀升迅速,是市面上最好的 7B 開源模型。)

許多網友也紛紛注意到了這點,為 Haiku 鼓掌叫好:" 我們擁有了一個 GPT-4 水平但比它便宜 10 倍的模型!"

Antrohpic 工程師 @alexalbert_ 親自解釋說,Haiku 模型的價格和速度被嚴重低估:" 據估計,普通人一生大概會說 8.6 億個單詞,相當于約 12 億個标記。而 Haiku 的價格是每百萬标記輸入 0.25 美元。意味着你僅花費 300 美元就可以讓 Haiku 處理一個人一生中說的所有話。更瘋狂的是,Haiku 可以每秒讀取高達 2.4 萬個标記。也就是說只需 5000 秒,大約 83 分鍾内,就能分析完一個人一生的經歷。"

人們表示給新王跪了, Claude 3 Opus 确實樹立了新的 AI 行業标準,現實中使用率更高。

" 我真得更喜歡 Claude。我只是使用免費版 Sonnet 并與 GPT-4 進行比較,對于日常對話和事實核實,它似乎更加智能。GPT-4 在編程方面仍占據主導地位,但我并不是特别相信它真有那麼優秀。"

" 蘋果應該考慮和 Anthropic 合作,讓 Claude 作為 iPhone 手機的配套 AI。"

——這還真有可能。最近有新的傳言流出,iOS 18 的 AI 供應商也許會由 Google Gemini 悄悄換成 Claude 3。Sam Altman 因為一直想做 AI 硬體不被考慮,而安卓集成 Gemini 後會削弱 iOS 的獨特性,此時人畜無害又口碑爆炸的 Claude 3 似乎才是最佳選擇,扶持它也能讓 AI 競賽拖得更久更均衡。相信這些到蘋果 6 月的 WWDC 開發者大會便會見分曉。

豐富民間用例驗證,六邊形戰士 Claude 3

推上也有不少人展示了自己在日常工作中使用 Claude 3 的一些驚豔實例。

HyperWriteAI 公司 CEO Matt Shumer 分享了一個用于生成高質量提示的工具「claude-prompt-engineer」 。用戶只需描述任務和輸入變量,Claude 3 就會幫你生成許多候選提示,并在排名賽中針對每個用例測試,最後返回最佳提示。

他表示之前的版本接入的是 GPT-4,而現在選用 Claude 3 編寫出的提示比 GPT-4 質量要高得多。這個工具能自動生成測試用例,支持多變量,進一步自動化 prompt engineering 的工作流程,他本人已經在實際工作中使用,極大提升了效率。

他還做了一個使用 Claude 3 的開源投資分析師代理「claude-investor」。用戶提供一個行業,就能快速查找主要公司的财務數據和新聞、分析每個公司的輿情和趨勢,并根據投資潛力和目标價格對股票進行排名。

通過 Claude 3 強大的海量數據分析能力,生成詳細的投資報告,幫助使用者查找高增長潛力的科技公司,跟蹤投資組合中的股票表現,識别投資機會。從金融從業者到炒股小白都可以直接使用,很受社區歡迎。

用戶 @dr_cintas 使用 Claude 3 生成了效果拔群的勾股定理演示動畫。解鎖了以動态視覺輕松解釋各種原理的可能性。

再更生活化一些的例子也有。在宜家買過家具的同學都知道,看組裝說明書實在是一項耗費腦細胞的活兒。用戶 @gabchuayz 借助 Claude 3 強大的影像推理能力大大簡化了這一流程。直接把說明書喂給模型,就生成簡潔清晰的操作步驟。他在對比 GPT-4 後認為 Claude 3 輸出的結果更具可讀性,還能辨認出細小零件的編号,非常實用。

Claude 3 在代碼審查和測試方面的潛力也得到了專業人士驗證。

紐約大學 Tandon 工學院助理教授 Brendan Dolan-Gavitt 在 X 分享到,他将一個在 GitHub 上找到的小型 C 語言 GIF 解碼庫全部源代碼提供給 Claude 3,并要求它編寫一個 Python 函數用于生成随機的 GIF 影像,以測試解碼器的解析能力。結果這個 GIF 生成器在解碼器中覆蓋了 92% 的代碼行,并發現了 4 個内存安全性漏洞和一個程式挂起問題。證明 Claude 3 完全有能力成為人類程式員的工作助手。

ChatGPT 又變懶了?用戶:棄

不過也有人覺得 Claude 3 厲害是厲害,但并不能代表 OpenAI 落于人後。畢竟 GPT-4 是 22 年夏天訓練的,按照慣例,奧特曼的工具箱裡早就準備好新武器了。

"Claude 現在是頂級的中央控制 AI 模型,GPT-4 長期的統治已經結束。但這一情況将随着一個被稱為 GPT-5 的新秘密模型而改變。"

"Opus 可以享受這種喜悅,直到 GPT-5 發布那天 "。

但問題是 ....GPT-5 到底在哪兒呢?

不久前 Sam Altman 在 Lex Friedman 最新的播客采訪中提到過,OpenAI 的目标絕不是給世界帶來令人震驚的更新,而是恰恰相反,漸進式達到每一個裡程碑,因此下一代 LLM 會考慮以一種新的形式與公眾見面。但他也堅定表示,今年會官宣一個令人驚嘆的新模型,不管是不是叫 GPT-5。在那之前,還會有其它東西先發布。

或許是加上各種事件和官司纏身, OpenAI 現在的行事風格确實不像以往那麼激進了。最新推特是今天剛剛發布的準備與小部分美國開發者合作,測試基于訪問量的 GPT 盈利模式的消息。" 我們的目标是創造一個活躍的生态系統,在這裡開發者因其創造力和影響力而獲得獎勵。"

然後底下的評論可想而知,似乎少有人關心這個已經被 Poe 玩了好幾個月的創作者共享經濟模式,滿滿都是在問什麼時候發布 GPT-5 和開放 Sora。

可以清晰感受到,随着 Claude 3 這類優秀大模型的卓越性能被大量用戶親自驗證,人們對于 OpenAI 的耐心越來越低,對 ChatGPT 要求的門檻也越來越高。加上 GPT-4 最近又開始不給力,過去曾出現過的 " 變懶變傻 " 問題再次重演,引得大批網友在推特抱怨讨伐,紛紛倒戈轉向了 Claude 3(包括本人在内)。

" 使用了 4 個月之後,我決定放棄 ChatGPT Plus。GPT-4 經常變得懶惰、緩慢、產生幻覺。與此同時我使用了免費的 Claude 3 sonnet 模型,它在上下文記憶、長回復以及速度方面給人留下了深刻印象——對程式員來說簡直棒極了。正在考慮更新到高級版的 Claude。請 OpenAI 盡快修復 GPT-4 的問題。"

其實,諸如 Sora 這些技術再超前,沒有真正走向市場讓人們上手用到,也只是望梅止渴的鏡花水月。而今一個主打公平公正,由近 50 萬用戶驗證後投票的 Chatbot Arena 榜單放出,足以見 Claude 3 是憑實力拿下的新王之位。

而無論是 OpenAI 還是 Google 等公司都應該清楚認識到,在 GenAI 浪潮裡陪他們一起翻滾了兩年多的用戶們也早就練出來了,大家對于新模型的适應性和流動性是很強的。換句話說,沒有誰真得離不開誰,單純靠信仰的時代已過,體驗跟不上、更新不及時,用戶就會流失,好用才是硬道理。

打敗 OpenAI 的方法是成為 OpenAI

Anthropic 在發布 Claude 3 時承諾過,會在接下來的幾個月内對該系列進行頻繁更新。發布一系列功能來增強模型性能,包括工具使用、互動式編碼和更高級的代理能力等。對企業用例和大規模部署也會有新動作。

作為一家自我定義為 " 人工智能安全公司 " 的 AI 企業,現在的 Anthropic 似乎在慢慢遠離起初低調謹慎、時刻強調安全的行事作風,節奏變得越發主動強勢。而以往人們在推特上見慣了 OpenAI、DeepMind 的 AI 大咖輸出意見,卻鮮少見到 Anthropic 工程師們的身影。最近這一人群仿佛也跟着 Claude 3 的大火走向台前高調起來,成為人們關注的技術 KOL。

再加上亞馬遜總共 40 億美元巨資入池,雙方達成更深入的人工智能合作。Anthropic 把 AWS 作為其關鍵工作負載的主要雲提供商,使用亞馬遜 Trainium 和 Inferentia 芯片來訓練和部署未來模型,并向全球 AWS 客戶提供未來幾代基礎模型在 Amazon Bedrock 上的訪問權限。

今天亞馬遜之于 Anthropic 的模式,怎麼看怎麼像曾經的微軟之于 OpenAI。按照這個路線,Anthropic 很有可能在商業化版圖中鋪開更大的攤子,野心勃勃地跟亞馬遜合力打造另一個 AI 帝國。等到蘋果選擇哪家 AI 供應商的靴子落地,全球科技巨頭 +AI 公司的競争格局又将被重新洗牌。

Anthropic 已經找到了打敗 OpenAI 的方法,那就是成為 OpenAI。

也許,留給 OpenAI 的時間真得不多了。

熱門排行
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們