大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

不依賴token,字節級模型來了!直接處理二進制數據

2024-03-12 简体 HK SG TW

今天小編分享的科學經驗:不依賴token,字節級模型來了!直接處理二進制數據,歡迎閲讀。

最新 GPT,不預測 token 了。

微軟亞研院等發布 bGPT,仍舊基于 Transformer,但是模型預測的是下一個字節(byte)。

通過直接處理原生二進制數據,bGPT 将所有輸入内容都視為字節序列,從而可以不受限于任何特定的格式或任務。

能預測 CPU 行為,準确率超過 99.99%;還能直接模拟 MIDI ——一種音樂傳輸和存儲的标準格式。

研究團隊認為,傳統的深度學習往往忽視了字節——數字世界的構建基石。

不論是信息的形式還是操作,都是通過二進制格式編碼和處理的。字節構成了所有數據、設備和軟體的基礎,從計算機處理器到我們日常使用的電子產品中的作業系統。

這篇論文的标題清晰地指出了其目标:

超越語言模型:将字節模型作為數字世界的模拟器。

模拟 CPU 行為準确率超 99.99%

bGPT 通過字節級處理,不僅能夠應用于常規的 AI 生成和理解任務,還能處理更多非傳統應用。

例如,它能夠直接模拟 MIDI ——一種音樂傳輸和存儲的标準格式,之前的研究由于 MIDI 的二進制本質而避免了直接對這類數據的建模。

但 bGPT 天生适合此類任務。它能夠準确模拟符号音樂數據轉換算法,在将 ABC 記譜法轉換為 MIDI 格式時,達到極低的錯誤率(0.0011 BPB)。

在模拟 CPU 行為方面,bGPT 展現出超過 99.99%的準确率。這些實驗顯示了 bGPT 在處理原生二進制數據方面的強大能力和可擴展性。

bGPT 還展示了在處理諸如文本、影像和音頻傳統媒體檔案的生成 / 分類任務上的潛力,而且不需要任何針對特定模态的定制。

研究團隊訓練了一個大約有100M 參數的 bGPT,根據論文中的實驗結果,bGPT 可以與同樣規模的文本模型(GPT-2)、視覺模型(ViT)和音頻模型(AST)在各自的模态下有着可比的性能。

字節到塊策略:拓展序列建模長度

在處理數字數據時,bGPT 代表了一次重要的進步。

因為字節的粒度非常細,處理的字節序列通常較長,這對基于 Transformer 的傳統模型來説是一個挑戰。由于自注意機制的復雜度是二次方的,處理長序列的效率和可擴展性受到了限制。

bGPT 的研發團隊此前在音樂 AI 領網域推出了 CLaMP 項目,并因此在 ISMIR 2023 上獲得了最佳學生論文獎。

基于這項成果,bGPT 采取了一種 "字節到塊(patch)" 的轉化方法。這個方法不僅極大提升了數據處理效率,還讓長序列數據的處理和擴展變得更加簡便。

bGPT 包含三個關鍵組成部分:

線性投影層:通過線性投影将每個字節塊轉化為密集向量表示,既保留了關鍵信息,又降低了維度。

塊級解碼器:順序處理塊的 embeddings 以預測下一個塊的特征,使用自回歸機制學習字節序列的整體結構。

字節級解碼器:根據塊級解碼器的預測特征來預測每個塊内的字節序列,這一過程獨立于每個塊進行,依據當前塊的特征表示。

bGPT 提供了一種有前景的解決方案來應對傳統模型在處理字節級數據時面臨的挑戰,顯著提高了處理大規模數字數據序列的效率和可擴展性。

拓寬邊界:bGPT 與未來數字世界的無限潛力

盡管 bGPT 展現出巨大的潛力,但其也存在一定的局限性和改進空間。

目前,bGPT 只能處理不超過 8KB 的數據序列,對于需要生成大量數據的現代應用來説,這一容量顯然不夠。這一局限主要由于訓練和部署這類模型需要巨大的計算資源需求。

為了推進 bGPT 的實用性和适用範圍,未來的研究将專注于開發更高效的算法和利用硬體進步以降低計算成本,使 bGPT 能夠更加經濟高效地處理更大規模的數據序列,從而拓寬其應用前景。

在探讨字節模型未來的話題中,來自世界各地的網友們已經提出了一系列腦洞。

他們探讨了在裸機上運行純粹的神經網絡,以取代作業系統執行命令的前景,或者利用網絡修剪和自我學習來優化連接,使得超大規模網絡具備自我重構的能力。

雖然實現這些目标需要時間,但 bGPT 有望實現将所有數據以字節形式輸入,通過超大規模自我重構網絡處理後再以字節形式輸出的終極目标。

或許,在探索 bGPT 能力的邊界時,想象力才是唯一的限制。

長期來看,bGPT 展示的字節模型在推動人工智能進步方面展現了兩大巨大潛能。

首先,它有望實現一個統一模型,将計算機中的所有數據整合起來,為實現真正的通用人工智能(AGI)邁出關鍵一步。

其次,bGPT 推動了将 AI 作為作業系統(LLM OS)的概念,即利用這種字節模型作為核心,直接與檔案、軟體及底層硬體數據進行深度互動。

這不僅與 Andrej Karpathy 的 AI 願景不謀而合,更重要的是,它開啓了使用 AI 模拟數字世界各種層面的可能性——從精确模拟 CPU 操作到系統級軟體的行為模拟,bGPT 的能力遠超傳統界限。通過這種方式,bGPT 有望成為數字世界的全面模拟器,探索和理解從基礎硬體到復雜系統級軟體操作的每一個角落。

單憑對計算機文本數據的深入建模,我們已經見證了 ChatGPT 如何引發社會的廣泛關注。

然而,文本數據在數字世界中海量數據的宏觀圖景裏,不過只是冰山一角而已。想象一下,如果我們能夠利用計算機中存儲的所有形式的數據——無論是文本、影像、音頻,還包括更復雜的二進制數據,乃至軟體、作業系統和硬體本身的信息——來訓練模型,能否創造出一個更加深入理解和精确模拟數字世界各個層面的模型?

bGPT 的代碼和模型已開源,如果你對探索字節級模型感興趣,可以嘗試在自己的數據集上使用 bGPT 進行訓練,大膽探索它的潛能。

論文:https://arxiv.org/abs/2402.19155

代碼:https://github.com/sanderwood/bgpt

模型:https://huggingface.co/sander-wood/bgpt

項目主頁:https://byte-gpt.github.io

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重税打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重税打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?硅碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?硅碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們