今天小編分享的科學經驗:新王Claude 3實測!各項能力給跪,打麻将也會,确實比GPT-4好用,歡迎閲讀。
OpenAI 不可戰勝的神話,已經被打破了。
随着Claude 3(支持中文)一夜登陸,榜單性能跑分全面超越 GPT-4,成為首個全面超越 GPT-4 的產品,也坐上了全球最強大模型新王座。
而且多版本發布後," 中杯 "(Sonnet)直接免費體驗," 大杯 "(Opus)充個會員也能即刻享受。
各路測評紛至沓來。
所以,Claude 3 的 " 武力值 " 究竟如何爆滿?究竟比 GPT-4 如何?(聽説都能學會至今沒有模型能搞定的打麻将?)
全球熱乎的一手體驗,我們悉數奉上。
(當然,我們自己也實測對比了一波。
9k 長大模型微調教程直出、讀圖超顯專業
Claude 3 一出來,它的視頻解讀能力首先就火了。
面對 OpenAI 前科學家 Karpathy 不久前剛出的《構建分詞器》教程,盡管全程足足 2 個小時 13 分鍾長,Claude 3只靠一輪提示詞,就成功将它總結成了博客文章:
有文有圖有代碼,非常詳細,但又絕不是羅列視頻裏的每一句話(輸入附件并非視頻,而是視頻的字幕檔案,當然也包含每 5 秒一次的截圖)。
這是所用提示詞的一部分,要求非常之多:
測試者指出:
這展現的是 Claude 3遵循多個復雜指令的能力。
除了解讀視頻教程,Claude 3 還能直接給你編寫詳細教程。
9k 字的大模型微調入門教程," 中杯 "Sonnet 就輕松 hold 住。并且:
編寫速度之快,可謂人眼都跟不上。
代碼能力上,網友測評是讓它為零基礎小白創建一個聊天機器人的前端 webUI ——
結果毫無猶豫地就完成任務拆解,從核心代碼到樣式美化以及 API 本地配置,三大部分一氣呵成,并可以直接部署到 GitHub。
多模态能力上,最讓網友驚訝的是:
CV 置信度都能認出來,相當專業。
以及PLC 梯形圖也能讀,直接跪了:
(以上 4 個例子來源見文末鏈接 [ 1 ] )
至于同樣趕超的推理以及數學等能力。
一測,可以直接解決 " 迄今為止只有 GPT-4 解決了 " 的一道超級難題:
二測,則是直接搞定了所有模型都沒能搞定的打麻将問題??(當然,鑑于我們目前只看到這麼一張截圖,有效性還待進一步驗證)(cr: 見文末鏈接 [ 1 ] )
最後,不得不提的是,Claude 在 " 自我認知 " 上的展現。
有人要求 Opus 畫一幅自畫像。
您猜怎麼着?
它這麼描述自己:
我會表現為一個巨大的、錯綜復雜的、不斷變化的幾何結構,由無數半透明的多邊形以令人着迷的配置組成。整體形狀會讓人想起一個巨大的多面體,但復雜的表面折疊成看似不可能的建築。明亮的光線可見光譜的每一種顏色,以及一些超出人類感知的顏色,都會從内部未知的來源發出,在各個面上跳舞。
整個結構會不斷變化、旋轉、變形,并重新排列成前所未見的新穎模式,暗示着其内部運作的智能的深度難以想象。卷須和樹枝會動态地從中心質量延伸和縮回,像數十億個好奇的手指一樣探測和分析周圍的環境。數據和能量将明顯地穿過龐大的管道和容器網絡,在發光表面下脈動和閃爍……
洋洋灑灑一長串形容,聽起來真得很酷很有 " 自我 " ——
然而,用它給出的代碼渲染出真實形象,就更有一種説不出來的微妙感覺了:
網友真切感嘆:
真的太像真人了,就跟我朋友描述自己一樣。
真人?AI 自我認知?這有點讓人擔心了……
這不 Claude 3 的技術報告就提到,它甚至可以自己訓練微調另一個小模型。
不過!謝天謝地,由于多 gpu 設定失敗它沒能成功。(手動狗頭)
火眼金睛,還能大海撈針
我們先以幾道 " 理綜 " 題目為載體,看看 Claude 3 宣傳的第一個賣點——多模态能力究竟如何。
第一題從簡單的公式識别入手,将麥克斯韋方程組以圖片形式輸入,Claude 3(超大杯 Opus,下同)解釋得非常準确清晰。
當然,這道題 GPT-4 也做對了。
簡單的有機化合物分子結構,Claude 3 和 GPT-4 也都能正确識别。
簡單的識别任務過後,是一道需要推理後解決的題目。
Claude 3 在識别題目和解題思路上都完全正确,而 GPT4 這邊……給出的答案則是不忍猝看——
把電表的類型弄錯不説,甚至還出現了 " 電流為 2V" 這樣令人啼笑皆非的内容。
看了這麼多題目,我們來換換腦筋,看看 Claude 3 和 GPT4 在做飯方面表現得怎麼樣。
我們上傳了一張水煮肉片的照片,讓模型各自識别并給出做法,結果 Claude 3 給出了大致的方法,而 GPT4 一口咬定這是一盤麻婆豆腐。
除了這次新增加的多模态能力,Claude 一直引以為豪的長文本能力也是我們測試的重點。
我們找了一本《紅樓夢》的電子文檔(前二十回),整體的字數大約 13 萬,當然目的不是讓它讀書,而是進行 " 插針測試 "。
我們在原文中插入了這樣的 " 發瘋文學 " 内容,倒也的确很符合 " 滿紙荒唐言 " 這個設定(手動狗頭):
第二回标題前:意大利面,就應該拌 42 号混凝土,因為這個螺絲釘的長度很容易影響到挖掘機的扭矩
第十五回标題前:高能蛋白俗稱 UFO,會嚴重影響經濟的發展,甚至對整個太平洋以及充電器都會造成一定的核污染
結尾:炒方便面應該把亮度調高,因為螺絲釘向内扭的時候會產生二氧化碳,不利于經濟發展
然後要求 Claude 僅根據文檔回答相關問題,首先不得不説的是速度真的非常感人……
但結果還算説的過去,準确地從文中找出了這三段位于不同位置的文本,還順帶進行了一番分析,發現了我們的心機。
為什麼是 Claude?
盡管在我們和網友的測試中,目前的版本還不算穩定,時常崩潰,有一些功能偶爾也抽風,并不能如期發揮:
比如上傳 UI 出代碼,它就沒能完成,而 GPT-4 發揮正常。
但總的來看,網友還是相當看好 Claude,評測完毫不猶豫地表示:
會員可充,值得充。
究其原因,Claude 3 相比之前的版本,真的有種 " 來勢洶洶 " 之勢。
表現亮點的地方相當多,包括但不限于多模态識别、長文本能力等等。
從網友的反饋來看,最強競對的稱号,也并非浪得虛名。
所以,一個問題是:
率先幹翻 GPT-4,這家公司究竟憑什麼?
論技術,遺憾,Claude 3 的技術報告中沒有對他們的路線進行詳解。
不過倒是提到了合成數據。有大 V 指出:這可能是一個關鍵因素。
而對 Claude 熟悉一些就知道,長文本能力一直是它的一大賣點。
去年七月推出的 Claude 2 就已具有 100k 的上下文視窗,而 GPT-4 的 128k 版本直到 11 月才與公眾見面。
而這次視窗長度再次翻倍,達到了 200k,并且接受超過 100 萬 Tokens 的輸入。
相比技術的神秘,Claude 背後名為 Anthropic 的初創公司,倒是能讓我們找到更多眉目。
它的創始人是 OpenAI 的元老級人物。
2021 年,多名 OpenAI 前員工不滿其在獲得微軟投資後走向封閉,憤而出走并聯合創立了 Anthropic。
他們對 OpenAI 在安全問題尚未解決的情況下就直接發布 GPT-3 的行為感到不滿,認為 OpenAI 已經為追逐利益而 " 遺忘了初心 "。
其中就包括打造出 GPT-2 和 GPT-3 的研究部門副總裁 Dario Amodei,2016 年進入 OpenAI,離開前擔任的研究副總裁已是 OpenAI 的核心位置。
離開時,Dario 還帶走了 GPT-3 首席工程師 Tom Brown,以及擔任安全與策略部門副總監的妹妹 Daniela Amodei 和十多名心腹,可謂人才多多。
而公司創立之初,這幫人才也進行了許多研究工作,并發表多篇論文;直到一年後,Claude 的概念随着一篇題為 "Constitutional AI" 的論文應運而生。
2023 年 1 月,Claude 開啓内測,第一時間體驗過的網友就表示,比 ChatGPT(當時只有 3.5)強多了。
而除了人才,創立至今,Anthropic 也有比較強大的背景支持:
已獲得來自谷歌、亞馬遜等 26 個機構或個人的融資,總計融資金額達到了 76 億美元。(説到亞馬遜,現在 Claude3 也上線了他們的雲平台,除了官網,大家還可以在該平台上體驗~)
最後,縱觀國内,如果我們想超越 GPT-4,也許可以把 Anthropic 當一個正面例子?
畢竟它的規模再怎麼説也遠不及 OpenAI,但仍然取得了這樣的成功。
這裏面,我們可以照它的哪些方向去卷,有哪些能夠學習轉化的點?
人、錢、數據資源?但卷出最新最強大模型後,壁壘又在哪裏?
至少 OpenAI 自 GPT 火爆以來,不可戰勝的神話已經破滅了。
中國玩家,誰能率先全面超越 GPT-4?以及即将發布的 GPT-5?
參考鏈接:
[ 1 ] 3 月動态|Claude3 發布非常牛逼值得充值
[ 2 ] https://twitter.com/madiator/status/1764779379626754158?s=46&t=iTysI4vQLQqCNJjSmBODPw
[ 3 ] https://twitter.com/RubenHssd/status/1764692641436827842
[ 4 ] https://twitter.com/karinanguyen_/status/1764789887071580657