大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

大神Karpathy強推,分詞領網域必讀:自動釣魚讓大模型“發瘋”的token,來自Transformer作者創業公司

2024-05-13 简体 HK SG TW

今天小編分享的科學經驗:大神Karpathy強推,分詞領網域必讀:自動釣魚讓大模型“發瘋”的token,來自Transformer作者創業公司,歡迎閲讀。

關于大模型分詞(tokenization),大神 Karpathy 剛剛推薦了一篇必讀新論文。

主題是:自動檢測大模型中那些會導致 " 故障 " 的 token。

簡單來説,由于大模型 tokenizer 的創建和模型訓練是分開的,可能導致某些 token 在訓練中很少、甚至完全沒出現過。這些 " 訓練不足 "(under-trained)的 token 會導致模型產生異常輸出。

最經典的例子,就是 SolidGoldMagikarp ——

這個單詞一度讓 ChatGPT" 胡言亂語 "。只要 prompt 裏包含這個詞,ChatGPT 就開始文不對題,生成一些混亂的輸出:

現在,來自 Cohere 的研究人員針對這個問題,提出檢測 " 故障 "token 的有效方法,他們還發現:在多個主流開源大語言模型上,包括 Llama 系列、Mistral 系列在内,訓練不足的 token 都在不同程度上普遍存在。

p.s. Cohere 是 Transformer 最年輕作者 Aidan Gomez 創辦的公司,此前推出了 Command R 系列開源大模型。去年 6 月,該公司估值達到了 22 億美元。

研究人員提出的方法主要包括三個步驟。

首先,通過檢查 tokenizer 詞匯表并觀察其編碼 / 解碼行為,來分析 tokenizer,找出其中特殊類别的 token,比如不完整的 UTF-8 序列等。

然後,根據模型架構計算識别指标,找出嵌入向量異常的 token,列入 " 訓練不足 " 候選名單。

舉個例子,對于 tied embedding 模型,利用一組已知的未使用的 embedding,通過主成分分析去除 unembedding 矩陣中的常數成分。

接着計算其餘 token 和這些未使用 embedding 的餘弦距離,作為 " 訓練不足 " 指标。

而對于 non-tied embedding 的模型,可以直接采用 embedding 向量的 L2 範數來檢測。

最後,通過特定 prompt 來進行驗證,看看候選 token 們是否确實超出了訓練數據的分布,會引發異常輸出。

将該方法應用于多個主流的開源大語言模型後,研究人員發現,訓練不足能讓大模型 " 發瘋 " 的 token 在這些大模型上普遍存在,他們一口氣就挖出了數千個。

常見類型包括:

單字節 token,尤其是 UTF-8 标準中未使用的字節,如 0xF5-0xFF;

字節對編碼(Byte-Pair Encoding,BPE)過程中,出現的一些未充分訓練的中間 token。

一些特殊字元,如 <pad>、<unk> 等。

研究人員還發現,詞匯表較大的模型," 訓練不足 "token 的數量也會明顯增多。

因為大詞匯表意味着更稀疏的 token 分布和更細粒度的 token 切分,這必然會導致更多低頻 token 和無意義的 token 殘片,增加 " 訓練不足 "token 的比例。同時,大詞匯表也給模型訓練帶來了更大的優化難度。

值得注意的是,論文提到,基于相同 tokenizer 的模型表現相似,而不同的 tokenizer 實現、配置、訓練數據,會導致不同模型間 " 訓練不足 "token 的明顯差異。

論文認為,優化詞匯表結構和 tokenizer 算法,是解決 token 訓練不足問題的關鍵。

他們也提出了一些建議:

确保 tokenizer 訓練數據、模型訓練數據和模型推理中輸入數據的預處理完全相同。

确保模型訓練數據和 tokenizer 對齊,尤其是在從頭訓練新的基礎模型時。

對于單字節 token,要麼詞匯表包含所有 256 個字元且不允許重復,要麼排除 13 個 UTF-8 中不出現的字元(0xC0/0xC1,0xF5-0xFF)。

訓練 tokenizer 後,通過對詞匯表進行編碼和解碼來檢查無法訪問的 token,以确保正确處理手動添加的 token。

在 Hugging Face 上發表 tokenizer 的 " 快速 " 和 " 慢速 " 版本時,确保它們輸出相同。

訓練基礎模型時,在小型測試中檢查訓練不足的 token,重新考慮分詞方法和數據。在不同語料庫上運行測試,也可以發現導致主訓練數據中 " 故障 " 輸入的預處理錯誤。

論文地址:

https://arxiv.org/abs/2405.05417

—  完  —

點這裏關注我,記得标星哦~

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~  

>
熱門排行
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們