26年前的古董Win98電腦成功運行大語言模型：搭載奔騰 II處理器

今天小編分享的科技經驗：26年前的古董Win98電腦成功運行大語言模型：搭載奔騰 II處理器，歡迎閱讀。

IT 之家 12 月 30 日消息，一個名為 EXO Labs 的組織今日在社交媒體上發布了一段視頻，展示了一台運行 Windows 98 系統的 26 年高齡的奔騰 II 電腦（128MB 内存）成功運行大型語言模型（LLM）的情形。随後，EXO Labs 在其博客上發表了一篇詳細文章，進一步闡述了這個項目的細節，以及其 " 普及人工智能 " 的願景。

IT 之家注意到，視頻中一台 350MHz 的 Elonex 奔騰 II 電腦啟動 Windows 98 後，EXO Labs 運行了基于 Andrej Karpathy 的 Llama2.c 開發的定制純 C 推理引擎，并讓 LLM 生成了一個關于 "Sleepy Joe" 的故事。令人驚訝的是，整個過程運行流暢，故事生成速度也相當可觀。

EXO Labs 由牛津大學的研究人員和工程師組成，于今年 9 月正式對外亮相，其使命是 " 普及人工智能 "。該組織認為，少數大型企業控制人工智能會對文化、真相以及社會其他基本方面造成負面影響。因此，EXO Labs 希望 " 構建開放的基礎設施，以訓練前沿模型，并使任何人都能在任何地方運行它們 "，從而讓普通人也能在幾乎任何設備上訓練和運行 AI 模型。此次在 Windows 98 上運行 LLM 的壯舉，正是對這一理念的有力證明。

根據 EXO Labs 的博客文章，他們從 eBay 上購得了一台老式 Windows 98 電腦。然而，将數據傳輸到這台老機器上卻是一個挑戰，他們最終通過其以太網端口使用 " 古老的 FTP" 完成了檔案傳輸。

更大的挑戰在于為 Windows 98 編譯現代代碼，幸運的是他們找到了 Andrej Karpathy 的 llama2.c，這是一個 " 用 700 行純 C 代碼即可在 Llama 2 架構的模型上運行推理 " 的工具。借助這一資源以及老式的 Borland C++ 5.02 IDE 和編譯器（以及一些小的調整），EXO Labs 成功将代碼編譯成可在 Windows 98 上運行的可執行檔案。他們還在 GitHub 上公開了最終代碼。

EXO Labs 的 Alex Cheema 特别感謝了 Andrej Karpathy 的代碼，并對其性能贊嘆不已，稱其在使用基于 Llama 架構的 26 萬參數 LLM 時，在 Windows 98 上實現了 " 每秒 35.9 個 token" 的生成速度。值得一提的是，Karpathy 曾任特斯拉人工智能主管，也是 OpenAI 的創始團隊成員之一。

雖然 26 萬參數的 LLM 規模較小，但在這台古老的 350MHz 單核電腦上運行速度相當不錯。根據 EXO Labs 的博客，使用 1500 萬參數的 LLM 時，生成速度略高于每秒 1 個 token。而使用 Llama 3.2 10 億參數模型時，速度則非常緩慢，僅為每秒 0.0093 個 token。

EXO Labs 的目标遠不止于在 Windows 98 機器上運行 LLM。他們在博客文章中進一步闡述了其對未來的展望，并希望通過 BitNet 實現人工智能的普及。

據介紹，"BitNet 是一種使用三元權重的 transformer 架構 "，使用這種架構，一個 70 億參數的模型只需要 1.38GB 的存儲空間。這對于一台 26 年前的奔騰 II 來說可能仍然有些吃力，但對于現代硬體甚至十年前的設備來說，都非常輕量級的。

EXO Labs 還強調，BitNet 是 "CPU 優先 " 的，避免了對昂貴 GPU 的依賴。此外，據稱這種類型的模型比全精度模型效率高 50%，并且可以在單個 CPU 上以人類閱讀速度（約每秒 5 到 7 個 token）運行一個 1000 億參數的模型。