今天小編分享的科學經驗:網友縫合Llama3 120B竟意外能打,輕松擊敗GPT2-chatbot和GPT-4,歡迎閱讀。
Llama 3 首發陣容裡沒有的 120B 型号竟意外 " 曝光 ",而且十分能打?!
最近這樣一個号稱是「Llama3-120b」的神秘大模型火了起來,原因在于它表現太出色了——
輕松擊敗 GPT-4、gpt2-chatbot 那種。
比如,面對像「觀察希格斯場是否會改變其狀态」這樣的艱深難題時。
GPT-4 冷酷而決絕:No;
但 Llama3-120b 就不一樣了," 只有當我們質疑量子力學的哥本哈根解釋時,讓我來解釋一下…… "
還有就是讓 LIama3-120B 解釋笑話,并同兩個 gpt2-chatbot 比較:im-a-good-gpt2-chatbot;im-also-a-good-gpt2-chatbot。
I randomly walked past the grave of bayes yesterday, but being a frequentist i didn ’ t bother taking a photo。
(昨天我偶然路過貝葉斯墓,但我是頻率學派,懶得拍照。)
首先,他們三個都判斷出這是關于兩種統計學派的笑話,以及兩個學派是相對對立的情況:
Frequentist 頻率學派只關注從抽樣 / 實驗的結果中提取信息,Bayesian 貝葉斯學派還會設定一個主觀的先驗信息。
但兩個 gpt2-chatbot 給出進一步解釋是,正是因為頻率學派并不認同對貝葉斯理論,所以對貝葉斯墓不感興趣,更不會以他為榮而拍照。
而 LIama3-120B 精準指出笑點在 " i didn ’ t bother taking a photo",并給出了更深一層的解釋。
因為作為頻率學派,會認為碰到貝葉斯墓的概率幾乎為零。這樣的小概率事件也不值得去拍照或者幹一些有意義的事情。
哦莫,說的好有道理……
另外題外話,它的回答格式十分工整,讓人看了賞心悅目。
除此之外,網友發現它還能創造出谷歌搜到 0 結果的新單詞。
以及直接回答含糊的問題,不用交代背景,這不比 ChatGPT 好多了。
(沒有說 ChatGPT 不好的意思)
有評測過後的網友感嘆:它太聰明了,我不會再擺弄它了。因為它有自己的想法。
這真的是我用過最聰明的大模型了。
有網友找了半天也找不到官方來源……
與此同時,更多版本也開始出現了,比如 170B、225B …嗯,一版更比一版強。
Llama 3 120B 竟意外能打
這兩天,社交網絡上出現了各種關于 Llama3 120B 玩法。
比如推導解釋一些理論,Omega 假設。
有創造一些新單詞,比如 prefaceate、driftift 等
并且給它一個完整的解釋和定義。
甚至還有人整了個評測,去評估這個來路不明的大模型。結果在創意寫作測試中成績還不錯,排名第 6,超過 GPT-4、Claude3-Haiku 等模型。
既然如此,這個非官方的大模型 Llama3 120B 又是怎麼來的呢?
據作者介紹,它是用 MergeKit 制作,将 Meta 官方 LIama3 70B 模型合并(Self-Merge)
MergeKit 咋是專門用來合并預訓練模型的工具包,合并可以完全在 CPU 上運行,也可以使用低至 8GB 的 VRAM 進行加速。在 GitHub 上已經收獲 3.6k 星。
目前支持 Llama、Mistral、GPT-NeoX、StableLM 等模型。
△支持的合并算法
作者 Maxime Labonne 是一位資深機器學習專家,目前在一家通用大模型創業公司 LiquidAI 工作。
他博士畢業于巴黎理工學院,他在 2019 年開始研究大語言模型和圖神經網絡,并将他們應用到不同環境中,比如研發、工業、金融等,撰寫過書籍《Hands-On Graph Neural Networks using Python》。
他也是開發者社區的活躍開發者,在 HuggingFace 上發布過各種 LLM, 例如 AlpahMonarch-7B、Beyonder-4x7B、Phixtral 和 NeuralBeagle14。以及一些工具,例如 LLM AutoEval、LazyMergekit、LazyZxolotl 和 AutoGGUF。
在 GitHub 上他的關于大模型課程,收獲 29.5K Star。
不過對于這個「縫合」大模型的使用,作者建議可以用來創意寫作。
在多方評估中可以看到,它有時候會出現神經混亂,但寫作風格不錯。另外有時候還會出現拼寫錯誤,并且非常喜歡大寫字母。
而且由于覺得這個版本的推理能力比較差,于是作者再做了個 225B 的。
網友:看完更期待官方 400B 了
有網友猜測為什麼 LIama3-120B 能這麼強。
lmsysorg 就深入分析了 LIama3 的實力,簡單來說,LIama3 在開放式寫作和創意問題上擊敗了頂尖模型,但在封閉式數學和編碼問題上就稍弱一點。
不過随着提示詞變得更加復雜,LIama3 的能力也就下降得很明顯。
以及在輸出内容上面,LIama3 的輸出比其他模型更友好,也更具對話性。
除此之外,也有網友分析這與模型深度有關。
事實上與 LIama3-70B 唯一的區别是額外的 Layer,甚至是復制的,沒有新的訓練數據。。
這意味着,120B 大模型的智能水平是從模型的深度產生的。" 這不僅僅是訓練數據的函數,它是數據和深度的結合 "。
啊這……走了走了。
有提供 GGUF 形式的 LMStudioAI,也很直接地說:不适合内存不足的人。
原作者也很逗趣地表示:是時候跟你的 RAM 做告别了。
但不管怎麼說,已經在期待更多官方型号了。
比如,400B 那種。
參考鏈接:
[ 1 ] https://x.com/spectate_or/status/1788031383052374069
[ 2 ] https://x.com/spectate_or/status/1787308316152242289
[ 3 ] https://x.com/spectate_or/status/1787295252576952325
[ 4 ] https://x.com/spectate_or/status/1787264115804606628
[ 5 ] https://huggingface.co/mlabonne/Meta-Llama-3-120B-Instruct
[ 6 ] https://x.com/maximelabonne/status/1787485038591746269
[ 7 ] https://x.com/spectate_or/status/1788102406250664171
[ 8 ] https://x.com/spectate_or/status/1787576927529615516
— 完 —
點這裡關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>