Llama 2唯一中國合作夥伴，剛剛曝光

今天小編分享的科學經驗：Llama 2唯一中國合作夥伴，剛剛曝光，歡迎閱讀。

上周，Llama 2 的發布在 AI 圈子引起了巨大的轟動。

Llama 2 相比上一代，不僅用了更多的訓練數據，而且 context length 直接翻倍，達到了 4096。

更重要的是，Llama 2 在公開測試基準上的結果顯示，其在代碼、常識推理、世界知識、閱讀理解、數學等評測維度的能力均獲得了大幅的提升。僅 7B 的版本就在很多測試集上接近甚至超越 30B 的 MPT 模型的表現。

尤其需要注意的是，Llama 2 70B 模型在 MMLU 和 BBH 測試上的成績，分别比 Llama 1 65B 的模型提升了約 5 和 8 個百分點。當規模相同時，Llama 2 7B 和 30B 模型在除了編程基準測試之外的所有類别上，表現都優于 MPT 模型。

此外，對于 Falcon 模型，Llama 27B 和 34B 在所有基準測試類别上，都超過了 Falcon 7B 和 40B 模型。不僅如此，Llama 2 70B 模型在所有開源模型中的表現是最好的。

除了與開源模型進行比較，論文裡也對比了 Llama 2 70B 與閉源模型的結果。

如表所示，Llama 2 70B 在 MMLU 和 GSM8K 測試上接近 GPT-3.5 模型，但在編程基準測試上，兩者之間存在顯著的差距。在幾乎所有的基準測試上，Llama 2 70B 的結果都等于或優于 PaLM（540B）模型。

除此之外，這次還順帶發布了一個對齊人類偏好的 finetune 版本—— Llama-2-chat 模型，其對話流暢性和安全性都會相比 Llama 2 有一個比較明顯的提升，當然，副作用就是模型在一些任務層面的性能可能會有所損失。

而 Llama-2-chat 模型跟一眾開源 / 閉源模型的 pk 也是驚到了讀者。

竟然都能小幅打赢 ChatGPT-0301！ 而且評估方式是人類評估，而不是嚴重有偏的刷榜式評估，雖然不是絕對無偏，但也能很大程度上表明真實的使用體驗了。

那麼問題來了，驅動 Llama 2 系列模型取得如此效果提升的關鍵是什麼？

相信每一個算法工程師心裡都有一個清晰的答案：

數據！

數據可以視為機器學習模型訓練過程中的燃料，沒有高質量的數據，就很難訓練出高質量的模型。

模型訓練對數據的依賴性主要體現在以下幾個方面：

數據質量：模型的訓練和預測表現在很大程度上取決于數據的質量。如果訓練數據中缺乏高質量的寫作數據、對話數據等等，自然就不可能產生高質量的文章和高質量的對話。

數據量：對于深度學習模型，需要大量的訓練數據才能從中學習到復雜的模式。如果數據量不足，模型可能無法從中捕獲到有用的信息，從而對未見過的新數據做出準确預測。一句話來說，限制模型對復雜長尾模式的學習能力。

數據代表性：訓練數據必須真實反映真實世界的情況，在所有可能的輸入空間中都有良好的覆蓋。否則，模型可能會在面對未見過的情況時表現不佳。

數據多樣性：訓練集的數據應該具有高度多樣性。這樣，模型可以學習到訓練數據中的一般特征，而不是特定于某些特例的特征。

而 Llama 2 不僅僅是在訓練數據量的層面相比上一代 Llama 1 增加了 40%，而且在數據來源和豐富性上也有了很大的改善。但 Llama 2 在論文中對數據來源的細節卻沒有過多表述。這也更加說明了，數據來源對模型效果的關鍵性影響。

在 Llama 2 以及 Llama-2-chat 模型的訓練中，數據對模型效果起到了至關重要的作用。那麼問題來了，除了眾所周知的數據外，還有沒有哪些數據是提之甚少或秘而不宣，但對模型效果起到了非常重要的作用呢？

由于筆者沒有參與 Llama 2 的訓練，自然沒法直接回答。

但是，筆者在 Llama 的官網注意到，在眾多 Llama 2 的全球合作夥伴，有一家公司叫海天瑞聲。

海天瑞聲的 COO 李科及 CTO 黃宇凱也出現在了 Llama 2 的 supporters list 裡面，支持 Meta 的這種開源行為，可以讓每個人都能從這個技術中受益良多，并為技術帶來足夠的透明度、審慎性和可信性。

筆者不禁好奇的扒了一下海天瑞聲，發現這家公司确實不簡單。

根據官網介紹：

海天瑞聲（股票代碼：688787）成立于 2005 年，是我國最早從事 AI 訓練數據解決方案提供商之一。海天瑞聲作為 AI 數據行業首家主機板上市公司，致力于為 AI 企業、研發機構提供 AI 數據集及服務。

海天瑞聲向全行業提供多語言、跨領網域、跨模态的人工智能數據及相關數據服務，涵蓋智能語音（語音識别、語音合成等）、計算機視覺、自然語言等多個核心領網域，覆蓋全球近 200 個主要語種及方言。

深耕行業近 20 年，與阿裡巴巴、騰訊、百度、科大訊飛、海康威視、字節跳動、微軟、亞馬遜、三星、中國科學院、清華大學等全球 810 家科技互聯網、社交、IoT、智能駕駛等領網域的主流企業，以及教育科研機構等建立了深度合作關系，以專業、可靠、安全的數據服務，成功交付數千個定制項目，深得客戶信賴。依托覆蓋 70 多個國家、近 200 種語言及方言的優質資源，技術完善的算法研發團隊，經驗豐富的項目團隊，全方位助力 AI 前沿項目的全球商業落地。

尤其要強調的，就是其在多語言數據集方面的能力，這個對于大模型基礎能力的訓練來說是十分重要的保障。

筆者深入挖掘了一下，發現海天瑞聲還在大模型數據領網域打造了一套完整的文本标注一體化平台，并匯聚眾多特定垂類領網域背景的本碩專業人才，在能夠滿足大模型迭代周期頻繁、高質量數據集需求、特定領網域知識等各類需求，并确保數據的安全合規。

也難怪，在這樣強大的數據提供商的能力加持下，無論是預訓練，還是微調、RLHF，大模型的基礎到專業能力都會有一個比較扎實的保障。

Llama 2 發布的同時，海天瑞聲也發布了一個符合中國人語言表達習慣的超大規模中文多輪對話數據集—— DOTS-NLP-216。

這個數據集有多大呢？

Token 數量達到了上億規模，對話輪數高達千萬輪！

我們知道，當前在中文對話領網域，公開的數據集往往量少、分布有偏、價格昂貴甚至不能商用。這就導致大模型在中文對話方面的能力，相比英文對話，總是顯得 " 略像智障 "。尤其是在一些需要比較深的中文語言理解能力的對話場景，無論開源的還是閉源的大模型，都往往表現不佳。

而這份 DOTS-NLP-216 數據集，不僅僅是數據規模大，而且對話場景覆蓋到了工作、生活、校園等方方面面，更是涉及到了金融、教育、娛樂、體育、汽車、科技等諸多領網域。

筆者有幸拿到了數據集的一些樣本，看了下，質量确實非常高，貼個 case 感受一下：

在數據集構成上，DOTS-NLP-216 包含了對真實場景的對話采集，和高度還原真實場景的模拟對話這兩種方式，來兼顧了分布的代表性、多樣性和樣本規模。

值得注意的是，DOTS-NLP-216 是海天瑞聲自有版權的數據集，可以授權商用，這意味着 DOTS-NLP-216 很可能會成為以後中文大模型廠商提升模型中文對話能力必備的數據集。

總的來說，海天瑞聲近期發布的 DOTS-NLP-216 數據集，精準切中了當下大模型訓練的剛需問題，無論數據規模、分布的覆蓋度、安全合規以及商用方面，都做到了恰到好處。尤其在語言表達方面，筆者發現其非常契合中國人的語言表達習慣，相信這份數據集會讓大模型的 " 中文味 " 得到一個不錯的提升！