今天小編分享的科技經驗:26年前的古董Win98電腦成功運行大語言模型:搭載奔騰 II處理器,歡迎閱讀。
IT 之家 12 月 30 日消息,一個名為 EXO Labs 的組織今日在社交媒體上發布了一段視頻,展示了一台運行 Windows 98 系統的 26 年高齡的奔騰 II 電腦(128MB 内存)成功運行大型語言模型(LLM)的情形。随後,EXO Labs 在其博客上發表了一篇詳細文章,進一步闡述了這個項目的細節,以及其 " 普及人工智能 " 的願景。
IT 之家注意到,視頻中一台 350MHz 的 Elonex 奔騰 II 電腦啟動 Windows 98 後,EXO Labs 運行了基于 Andrej Karpathy 的 Llama2.c 開發的定制純 C 推理引擎,并讓 LLM 生成了一個關于 "Sleepy Joe" 的故事。令人驚訝的是,整個過程運行流暢,故事生成速度也相當可觀。
EXO Labs 由牛津大學的研究人員和工程師組成,于今年 9 月正式對外亮相,其使命是 " 普及人工智能 "。該組織認為,少數大型企業控制人工智能會對文化、真相以及社會其他基本方面造成負面影響。因此,EXO Labs 希望 " 構建開放的基礎設施,以訓練前沿模型,并使任何人都能在任何地方運行它們 ",從而讓普通人也能在幾乎任何設備上訓練和運行 AI 模型。此次在 Windows 98 上運行 LLM 的壯舉,正是對這一理念的有力證明。
根據 EXO Labs 的博客文章,他們從 eBay 上購得了一台老式 Windows 98 電腦。然而,将數據傳輸到這台老機器上卻是一個挑戰,他們最終通過其以太網端口使用 " 古老的 FTP" 完成了檔案傳輸。
更大的挑戰在于為 Windows 98 編譯現代代碼,幸運的是他們找到了 Andrej Karpathy 的 llama2.c,這是一個 " 用 700 行純 C 代碼即可在 Llama 2 架構的模型上運行推理 " 的工具。借助這一資源以及老式的 Borland C++ 5.02 IDE 和編譯器(以及一些小的調整),EXO Labs 成功将代碼編譯成可在 Windows 98 上運行的可執行檔案。他們還在 GitHub 上公開了最終代碼。
EXO Labs 的 Alex Cheema 特别感謝了 Andrej Karpathy 的代碼,并對其性能贊嘆不已,稱其在使用基于 Llama 架構的 26 萬參數 LLM 時,在 Windows 98 上實現了 " 每秒 35.9 個 token" 的生成速度。值得一提的是,Karpathy 曾任特斯拉人工智能主管,也是 OpenAI 的創始團隊成員之一。
雖然 26 萬參數的 LLM 規模較小,但在這台古老的 350MHz 單核電腦上運行速度相當不錯。根據 EXO Labs 的博客,使用 1500 萬參數的 LLM 時,生成速度略高于每秒 1 個 token。而使用 Llama 3.2 10 億參數模型時,速度則非常緩慢,僅為每秒 0.0093 個 token。
EXO Labs 的目标遠不止于在 Windows 98 機器上運行 LLM。他們在博客文章中進一步闡述了其對未來的展望,并希望通過 BitNet 實現人工智能的普及。
據介紹,"BitNet 是一種使用三元權重的 transformer 架構 ",使用這種架構,一個 70 億參數的模型只需要 1.38GB 的存儲空間。這對于一台 26 年前的奔騰 II 來說可能仍然有些吃力,但對于現代硬體甚至十年前的設備來說,都非常輕量級的。
EXO Labs 還強調,BitNet 是 "CPU 優先 " 的,避免了對昂貴 GPU 的依賴。此外,據稱這種類型的模型比全精度模型效率高 50%,并且可以在單個 CPU 上以人類閱讀速度(約每秒 5 到 7 個 token)運行一個 1000 億參數的模型。