GPT-4裏套娃LLaMA 2！OpenAI創始成員周末爆改「羊駝寶寶」，GitHub一日千星 - 大酷樂

今天小編分享的科學經驗：GPT-4裏套娃LLaMA 2！OpenAI創始成員周末爆改「羊駝寶寶」，GitHub一日千星，歡迎閲讀。

大神僅花一個周末訓練微型LLaMA 2，并移植到C 語言。

推理代碼只有 500 行，在蘋果M1 筆記本上做到每秒輸出 98 個 token。

作者是 OpenAI 創始成員Andrej Karpathy，他把這個項目叫做Baby LLaMA 2（羊駝寶寶）。

所有推理代碼可以放在C 語言單檔案上，沒有任何依賴，除了能在筆記本 CPU 上跑，還迅速被網友接力開發出了各種玩法。

llama.cpp 的作者Georgi Gerganov搞出了直接在浏覽器裏運行的版本。

提示工程師Alex Volkov甚至做到了在 GPT-4 代碼解釋器裏跑Baby LLaMA 2。

大模型套娃小模型，成了。

據 Karpathy 分享，做這個項目的靈感正是來自 llama.cpp。

訓練代碼來自之前他自己開發的 nanoGPT，并修改成 LLaMA 2 架構。

推理代碼直接開源在 GitHub 上了，不到 24 小時就狂攬 1500+ 星。

訓練數據集TinyStories 則來自微軟前一陣的研究。

2023 新視野數學獎得主 Ronen Eldan、2023 斯隆研究獎得主李遠志聯手，驗證了1000 萬參數以下的小模型，在垂直數據上訓練也可以學會正确的語法、生成流暢的故事、甚至獲得推理能力。

此外，開發過程中還有一個插曲。

Karpathy 很久不寫 C 語言已經生疏了，但是在 GPT-4 的幫助下，還是只用一個周末就完成了全部工作。

對此，英偉達科學家 Jim Fan 評價為：現象級。

最初，在 CPU 單線程運行、fp32 推理精度下，Baby LLaMA 2 每秒只能生成 18 個 token。

在編譯上使用一些優化技巧以後，直接提升到每秒 98 個 token。

優化之路還未停止。

有人提出，可以通過 GCC 編譯器的 -funsafe-math-optimizations 模式再次提速 6 倍。

除了編譯方面外，也有人提議下一步增加 LoRA、Flash Attention 等模型層面流行的優化方法。

Baby LLaMA 2 一路火到 Hacker News 社區，也引發了更多的讨論。

有人提出，現在雖然只是一個概念驗證，但本地運行的語言模型真的很令人興奮。

雖然無法達到在雲端 GPU 集群上托管的大模型的相同功能，但可以實現的玩法太多了。

在各種優化方法加持下，karpathy 也透露已經開始嘗試訓練更大的模型，并表示：

70 億參數也許觸手可及。

GitHub：

https://github.com/karpathy/llama2.c

在浏覽器運行 Baby LLaMA 2：

https://ggerganov.com/llama2.c

參考鏈接：

[ 1 ] https://twitter.com/karpathy/status/1683143097604243456

[ 2 ] https://twitter.com/ggerganov/status/1683174252990660610

[ 3 ] https://twitter.com/altryne/status/1683222517719384065

[ 4 ] https://news.ycombinator.com/item?id=36838051

熱門排行

李蘭迪“咬筆蓋”在韓網火了，王陽當年的評價郟君昊 | 2025-01-18
驚豔全球！這部印度神片，出圈不靠強奸袁曼雁 | 2025-01-18
中國科協：不再接受15歲以下少年兒童參加全國謝飛揚 | 2025-01-18
鎮咳祛痰，藥用對了嗎？速看防治要點袁曼雁 | 2025-01-18
《笑傲江湖》官宣定檔，與《射雕英雄傳》正面寸飛蘭 | 2025-01-18
多校官宣：26考研初試科目調整！寸飛蘭 | 2025-01-18
官方“打假”俄羅斯商品館，仍人擠人寸飛蘭 | 2025-01-18
2025年，賣車還得靠流量嗎？佼昌翰 | 2025-01-18
台積電确認已在美國亞利桑那州晶圓廠大規模賁芳蕤 | 2025-01-18
蜜雪冰城，不務正業？郟君昊 | 2025-01-18
高露現身上海虹橋機場黑色外套點綴亮色愛惠惠君 | 2023-05-02
《歧路旅人2》：向光而生衛青柏 | 2023-05-02
vivo X90S曝光：處理器更新為天玑9200+ 安卓最袁曼雁 | 2023-05-05
宋慧喬獲百想視後韓素希發圖手動加愛心表賁芳蕤 | 2023-05-02
“懶癌”發病率上升，定期體檢别忽視幸聽楓 | 2023-05-02
十年了，他們終于要HE！惠惠君 | 2023-05-07
曹操墓，裏面都有啥？衛青柏 | 2023-05-02
中央部署經濟工作，釋放5大信号郜萌運 | 2023-05-02
陳自瑤抱病為愛女做蛋糕慶生，王浩信點贊沒露賁芳蕤 | 2023-05-02
高端國產車：軍車血統，目前電動車越野的“天花謝飛揚 | 2023-05-02
高德上線手機彎道會車預警功能習又夏 | 2023-05-02
等比例長大的童星，李蘭迪算一個郟君昊 | 2023-05-02
這些被抓來做實驗的流浪狗，最終拯救了無數糖集玲琳 | 2023-05-02
《雲襄傳》終于抬上來啦，男O女A讓人好上頭！集玲琳 | 2023-05-02
普京籤署總統令，批準對俄刑法典相關法條的修集玲琳 | 2023-05-02
21家A股遊戲公司2022年收入651億今年“遊衛青柏 | 2023-05-04
中銀證券給予南京銀行增持評級袁曼雁 | 2023-05-03
解除資格！停止一切合作佼昌翰 | 2023-05-02
與周立波夫婦鬧糾紛成老賴，唐爽被司法拘留15 寸飛蘭 | 2023-05-05
信用風險釋放趨緩，結構性風險需重點關注 — 袁曼雁 | 2023-05-02
前董事長被免，天山生物全面進入“中植系”時惠惠君 | 2023-05-02
狂吼11次“讓一下”！交警咆哮開道嘶吼到吐寸飛蘭 | 2023-05-03
3699起聯想小新mini主機上架 13代酷睿标壓習又夏 | 2023-05-05
瘋成這樣，怎麼還能被全網吹捧？郜萌運 | 2023-05-02
摩根大通收購美國第一共和銀行謝飛揚 | 2023-05-02
台劇赢麻了，又來一部8.9 衛青柏 | 2023-05-02
下降45分，上漲35分！34所自劃線院校復試分數線袁曼雁 | 2023-05-07
五一檔沒一個能打的集玲琳 | 2023-05-05
事關農村土地承包和農民權益，《農村土地承包郟君昊 | 2023-05-02
恐怖韓劇下神壇，這次膽小可入袁曼雁 | 2023-05-05
"三高"已盯上青少年，做好這件事是關鍵習又夏 | 2023-05-05
這劇是不是用ChatGPT寫的呀？惠惠君 | 2023-05-02
性騷擾慣犯，滾出娛樂圈謝飛揚 | 2023-05-05
48歲何炅自曝已老花眼，黃磊睡前認老，《向往的佼昌翰 | 2023-05-02
200户連夜疏散，原因讓人憤怒！“損失超一億”，袁曼雁 | 2023-05-03
一個《長月燼明》倒了，《狐妖》《長相思》《惠惠君 | 2023-05-02
張天愛假期曬“酷”存照卷發披肩穿黑色吊嬴覓晴 | 2023-05-02
當年輕人開始不随份子錢袁曼雁 | 2023-05-02
畢滢用8年時間成功逼宮？曾被傳已婚生子的她，幸聽楓 | 2023-05-03
宋慧喬獲視後首次曬照，拿獎杯笑容温柔郜萌運 | 2023-05-02