不依賴token，字節級模型來了！直接處理二進制數據

今天小編分享的科學經驗：不依賴token，字節級模型來了！直接處理二進制數據，歡迎閱讀。

最新 GPT，不預測 token 了。

微軟亞研院等發布 bGPT，仍舊基于 Transformer，但是模型預測的是下一個字節（byte）。

通過直接處理原生二進制數據，bGPT 将所有輸入内容都視為字節序列，從而可以不受限于任何特定的格式或任務。

能預測 CPU 行為，準确率超過 99.99%；還能直接模拟 MIDI ——一種音樂傳輸和存儲的标準格式。

研究團隊認為，傳統的深度學習往往忽視了字節——數字世界的構建基石。

不論是信息的形式還是操作，都是通過二進制格式編碼和處理的。字節構成了所有數據、設備和軟體的基礎，從計算機處理器到我們日常使用的電子產品中的作業系統。

這篇論文的标題清晰地指出了其目标：

超越語言模型：将字節模型作為數字世界的模拟器。

模拟 CPU 行為準确率超 99.99%

bGPT 通過字節級處理，不僅能夠應用于常規的 AI 生成和理解任務，還能處理更多非傳統應用。

例如，它能夠直接模拟 MIDI ——一種音樂傳輸和存儲的标準格式，之前的研究由于 MIDI 的二進制本質而避免了直接對這類數據的建模。

但 bGPT 天生适合此類任務。它能夠準确模拟符号音樂數據轉換算法，在将 ABC 記譜法轉換為 MIDI 格式時，達到極低的錯誤率（0.0011 BPB）。

在模拟 CPU 行為方面，bGPT 展現出超過 99.99%的準确率。這些實驗顯示了 bGPT 在處理原生二進制數據方面的強大能力和可擴展性。

bGPT 還展示了在處理諸如文本、影像和音頻傳統媒體檔案的生成 / 分類任務上的潛力，而且不需要任何針對特定模态的定制。

研究團隊訓練了一個大約有100M 參數的 bGPT，根據論文中的實驗結果，bGPT 可以與同樣規模的文本模型（GPT-2）、視覺模型（ViT）和音頻模型（AST）在各自的模态下有着可比的性能。

字節到塊策略：拓展序列建模長度

在處理數字數據時，bGPT 代表了一次重要的進步。

因為字節的粒度非常細，處理的字節序列通常較長，這對基于 Transformer 的傳統模型來說是一個挑戰。由于自注意機制的復雜度是二次方的，處理長序列的效率和可擴展性受到了限制。

bGPT 的研發團隊此前在音樂 AI 領網域推出了 CLaMP 項目，并因此在 ISMIR 2023 上獲得了最佳學生論文獎。

基于這項成果，bGPT 采取了一種 "字節到塊（patch）" 的轉化方法。這個方法不僅極大提升了數據處理效率，還讓長序列數據的處理和擴展變得更加簡便。

bGPT 包含三個關鍵組成部分：

線性投影層：通過線性投影将每個字節塊轉化為密集向量表示，既保留了關鍵信息，又降低了維度。

塊級解碼器：順序處理塊的 embeddings 以預測下一個塊的特征，使用自回歸機制學習字節序列的整體結構。

字節級解碼器：根據塊級解碼器的預測特征來預測每個塊内的字節序列，這一過程獨立于每個塊進行，依據當前塊的特征表示。

bGPT 提供了一種有前景的解決方案來應對傳統模型在處理字節級數據時面臨的挑戰，顯著提高了處理大規模數字數據序列的效率和可擴展性。

拓寬邊界：bGPT 與未來數字世界的無限潛力

盡管 bGPT 展現出巨大的潛力，但其也存在一定的局限性和改進空間。

目前，bGPT 只能處理不超過 8KB 的數據序列，對于需要生成大量數據的現代應用來說，這一容量顯然不夠。這一局限主要由于訓練和部署這類模型需要巨大的計算資源需求。

為了推進 bGPT 的實用性和适用範圍，未來的研究将專注于開發更高效的算法和利用硬體進步以降低計算成本，使 bGPT 能夠更加經濟高效地處理更大規模的數據序列，從而拓寬其應用前景。

在探讨字節模型未來的話題中，來自世界各地的網友們已經提出了一系列腦洞。

他們探讨了在裸機上運行純粹的神經網絡，以取代作業系統執行命令的前景，或者利用網絡修剪和自我學習來優化連接，使得超大規模網絡具備自我重構的能力。

雖然實現這些目标需要時間，但 bGPT 有望實現将所有數據以字節形式輸入，通過超大規模自我重構網絡處理後再以字節形式輸出的終極目标。

或許，在探索 bGPT 能力的邊界時，想象力才是唯一的限制。

長期來看，bGPT 展示的字節模型在推動人工智能進步方面展現了兩大巨大潛能。

首先，它有望實現一個統一模型，将計算機中的所有數據整合起來，為實現真正的通用人工智能（AGI）邁出關鍵一步。

其次，bGPT 推動了将 AI 作為作業系統（LLM OS）的概念，即利用這種字節模型作為核心，直接與檔案、軟體及底層硬體數據進行深度互動。

這不僅與 Andrej Karpathy 的 AI 願景不謀而合，更重要的是，它開啟了使用 AI 模拟數字世界各種層面的可能性——從精确模拟 CPU 操作到系統級軟體的行為模拟，bGPT 的能力遠超傳統界限。通過這種方式，bGPT 有望成為數字世界的全面模拟器，探索和理解從基礎硬體到復雜系統級軟體操作的每一個角落。

單憑對計算機文本數據的深入建模，我們已經見證了 ChatGPT 如何引發社會的廣泛關注。

然而，文本數據在數字世界中海量數據的宏觀圖景裡，不過只是冰山一角而已。想象一下，如果我們能夠利用計算機中存儲的所有形式的數據——無論是文本、影像、音頻，還包括更復雜的二進制數據，乃至軟體、作業系統和硬體本身的信息——來訓練模型，能否創造出一個更加深入理解和精确模拟數字世界各個層面的模型？

bGPT 的代碼和模型已開源，如果你對探索字節級模型感興趣，可以嘗試在自己的數據集上使用 bGPT 進行訓練，大膽探索它的潛能。

論文：https://arxiv.org/abs/2402.19155

代碼：https://github.com/sanderwood/bgpt

模型：https://huggingface.co/sander-wood/bgpt

項目主頁：https://byte-gpt.github.io