開源大模型新SOTA！支持免費商用，比LLaMA65B小但更強，基于1萬億token

今天小編分享的科學經驗：開源大模型新SOTA！支持免費商用，比LLaMA65B小但更強，基于1萬億token，歡迎閱讀。

号稱 " 史上最強的開源大語言模型 " 出現了。

它叫Falcon（獵鷹），參數 400 億，在 1 萬億高質量 token 上進行了訓練。

最終性能超越 650 億的 LLaMA，以及 MPT、Redpajama 等現有所有開源模型。

一舉登頂 HuggingFace OpenLLM 全球榜單：

除了以上成績，Falcon 還可以只用到 GPT-3 75% 的訓練預算，性能就顯著超越 GPT-3，且推理階段的計算也只需 GPT-3 的 1/5。

據悉，這只半路殺出來的 " 獵鷹 " 來自阿聯酋阿布扎比技術創新研究所 ( TII ) 。

有意思的是，作為一個開源模型，TII 在 Falcon 上推出了一個相當特别的授權許可證要求：

可以商業使用，但如果用它產生的收益超過了 100 萬美元，就要被收取10%的授權費。

一時之間，争議滿滿。

史上最強開源 LLM

據介紹，Falcon 屬于自回歸解碼器模型。

它使用自定義工具構建，包含一個獨特的數據管道，該管道從公開網絡中提取訓練數據。

—— Falcon 宣稱它 " 特别注重數據質量 "，從公網上抓取内容構建好 Falcon 的初始預訓練數據集後，再使用 CommonCrawl 轉儲，進行大量過濾（包括删除機器生成的文本和成人内容）并消除重復數據，最終得到一個由近 5 萬億個 token 組成的龐大預訓練數據集。

為了擴大 Falcon 的能力，該數據集随後又加進了很多精選語料，包括研究論文和社交媒體對話等内容。

除了數據把關，作者還對 Falcon 的架構進行了優化以提升性能，但細節沒有透露，相關論文将很快發布。

據悉，Falcon 一共耗費兩個月，在 AWS 的384 個 GPU上訓練而成。

最終，Falcon 一共包含 4 個版本：

Falcon-40B：在 1 萬億 token 上進行訓練，并使用精選語料庫進行了增強；主要接受英語、德語、西班牙語、法語的訓練，不會中文。

Falcon-40B-Instruct：在 Baize 上進行了微調，使用 FlashAttention 和多查詢對推理架構進行了優化，是一個即用型聊天模型。

Falcon-7B：參數 70 億，在 1.5 萬億 token 上進行了訓練，作為一個原始的預訓練模型，還需要用戶針對大多數用例進一步微調。

Falcon-RW-7B：參數 70 億，在 3500 億 token 上進行訓練，該模型旨在用作 " 研究神器 "，單獨研究各種在網絡數據進行訓練的影響。

開源許可證引争議

Falcon 作為開源模型，已公開源代碼和模型權重，可供研究和商業使用。

這對業界來說是一個好消息，畢竟像 Meta 的羊駝家族都只能用于研究目的，且還得填表格申請才行，很是麻煩。

但 Falcon 還是引起了争議。

這主要是因為它那 " 超過 100 萬美元的任何商業應用都要收 10% 的授權費 " 的許可證要求。

據悉，該許可證部分基于Apache License 2.0 協定，該協定對商業應用友好，使用者修改代碼只需滿足相關需求即可将新作品作為開源或商業產品發布或銷售。

有不少網友認為，既然 Falcon 宣稱開源，還要收費，就違背了 Apache License Version 2.0 的宗旨，不屬于真正的開源。

并有人稱這是一種 " 有損 Apache 軟體基金會來之不易的名譽 " 的做法。

有網友已經跑到 TII 的官方賬号下 " 讨要說法 "：

你自己能解釋一下這是如何符合 " 開源 " 的定義嗎？

目前，官方并沒有回復。

你認為這種做法究竟算不算開源呢？

參考鏈接：

[ 1 ] https://falconllm.tii.ae/

[ 2 ] https://twitter.com/ItakGol/status/1662149041831002138

[ 3 ] https://twitter.com/TIIuae/status/1662159306588815375