大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

Karpathy新視頻又火了:從頭構建GPT Tokenizer

2024-02-22 简体 HK SG TW

今天小編分享的科學經驗:Karpathy新視頻又火了:從頭構建GPT Tokenizer,歡迎閲讀。

技術大神卡帕西離職 OpenAI 以後,營業可謂相當積極啊。

這不,前腳新項目剛上線,後腳全新的教學視頻又給大夥整出來了:

這次,是手把手教咱構建一個GPT Tokenizer(分詞器),還是熟悉的時長(足足 2 小時 13 分鍾)。

Ps. 上次講課還是倆月前的大模型科普。

所謂" 卡帕西出手,必屬精品 ",大夥火速碼碼碼:

今晚的約會取消,卡帕西來了我要去上課(狗頭)

再説一遍,付費都買不到的這樣高質量的課程,衝。

具體都有哪些幹貨?

" 太長不看版 "已為大家準備好。

為什麼要關注 Tokenizer

如大神介紹:

Tokenizer 即分詞器是大語言模型 pipeline 中一個完全獨立的階段。

它們有自己的訓練集、算法(比如 BPE,字節對編碼),并在訓練完成後實現兩個功能:

從字元串編碼到 token,以及從 token 解碼回字元串。

為什麼我們需要關注它?

卡帕西指出:

因為 LLM 中的很多奇怪行為和問題都可以追溯到它。

比如:

為什麼大模型不能處理簡單的字元串處理任務,例如反轉?

為什麼大模型在非英語語言任務方面的性能更差?

為什麼大模型不擅長簡單的算術?

為什麼我的模型在看到字元串 "" 後就突然 " 宕機 " 了?|>

為什麼大模型實際上并不是端到端的語言建模?

……

所以為了弄清這些問題,便有了今天的課程——盡管大神本人對這部分内容其實也不太喜歡。

上這門課大家會注意到我的表情全程都很凝重。不過,其中的細節真的太重要了(大家還是忍忍吧)。

以下為視頻主要内容文字版。

從頭構建 OpenAI 大模型中使用的分詞器

視頻的最開始主要是對分詞器的一些介紹。

包括最簡單的字元級分詞操作(即每個字元是一個 token ) 以及更為復雜和常用的 chunk 級操作(即多個字元也會組成一個 token)。

在這之中,業内最常用的算法是 BPE,即 byte pair encoding,字節對編碼,因此我們要想構建自己的分詞器,最重要的是了解這個算法。

卡帕西介紹:

BPE 可以更好地處理非英語語言、對詞匯表大小進行調整,對于模型的性能有顯著影響。

比如 GPT-4 分詞器通過改進 BPE 算法,最終在處理 Python 代碼時更加高效,因為它能夠将多個空格合并為單個标記,從而減少序列長度,使得模型能夠關注更長更多的代碼。

需要注意的是,盡管 BPE 算法可以處理 UTF-8 編碼的字節序列,但直接使用這些序列會導致詞匯表過大、序列過長,從而影響模型的注意力機制和上下文長度,因此需要壓縮處理。

理解 BPE 算法後,如何構建自己的分詞器?

簡單來説,主要包括以下幾個步驟:

1、初始化詞匯表

基于 UTF-8 編碼的字節。

2、合并字節對并不斷迭代,直到詞匯表大小達到預設值

在實際演示中,卡帕西通過 20 次合并,将文本的 token 數量減少了約 27%。

3、處理特殊字元和不同語言的字元

4、整體優化

詞匯表過大可能會導致模型訓練困難,過小則可能無法捕捉到足夠的語言細節。

5、選擇一個包含豐富語言特征的數據集來訓練

在此,卡帕西提到了 SentencePiece 庫,它支持多種分詞算法包括今天提到的 BPE。

我們可以用它進行分詞器的訓練,包括配置選項和如何處理罕見字元。

訓練好的分詞器用于編碼和解碼文本也講了。

6、最後就是評估 + 集成到模型中了。

當然,後續我們還需要根據模型的表現進行持續調整。

具體道每一步,大神都給咱配了詳細的 Python 實現,包括如何找到最頻繁的字節對、如何合并這些對以及如何構建合并字典等等,具體大家就請參閲視頻吧。

在這之中,卡帕西也提醒了 n 個細節,比如:

在解碼過程中,如果遇到無效的 UTF-8 字節序列,可以使用 "errors= ’ replace ’ " 來替換;使用 "end of text" 特殊标記來在訓練數據中分隔文檔等等。

實際遠比此復雜

毫無疑問,卡帕西帶大家實現的是比較基礎的一個分詞器版本,實際模型中遠比這要復雜得多。

比如 OpenAI 官方提供的 BPE 分詞器——tiktoken。

它用了正則表達式來分割文本,以此來保證某些類型的字元也不會被合并。在 GPT-2 中,它就在某些方面表現得不錯了。

到了 GPT-4,官方也對其進行了一些調整。

主要的改變在于:

GPT-4 會将空格合并;

大小寫不敏感;

GPT-4 最多只合并 3 位數字,避免了長數字序列 token。

不過由于官方并沒有公開具體訓練細節,所以我們也無法知道其詳細的實現。

而除了更復雜的算法,分詞器本身在處理長字元串、非英語語言、數字和特殊字元時都可能遇到問題。

因此,講來講去,大神在視頻中還是表達了一個 " 樸素的願望 ":

非常希望有一天能夠不需要分詞,直接将字節流輸入到語言模型中。

不過由于這就需要我們對 Transfomer 架構進行重大修改了,所以現階段,構建和優化分詞器仍然是實現高效大模型的關鍵步驟。

完整視頻見:

https://weibo.com/6105753431/O1BQB96Yg

傳送門:

[ 1 ] https://www.youtube.com/watch?v=zduSFxRajkE

[ 2 ] https://twitter.com/karpathy/status/1759996549109776702/quotes

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重税打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重税打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?硅碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?硅碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們