大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

Llama 2唯一中國合作夥伴,剛剛曝光

2023-07-29 简体 HK SG TW

今天小編分享的科學經驗:Llama 2唯一中國合作夥伴,剛剛曝光,歡迎閱讀。

上周,Llama 2 的發布在 AI 圈子引起了巨大的轟動。

Llama 2 相比上一代,不僅用了更多的訓練數據,而且 context length 直接翻倍,達到了 4096。

更重要的是,Llama 2 在公開測試基準上的結果顯示,其在代碼、常識推理、世界知識、閱讀理解、數學等評測維度的能力均獲得了大幅的提升。僅 7B 的版本就在很多測試集上接近甚至超越 30B 的 MPT 模型的表現。

尤其需要注意的是,Llama 2 70B 模型在 MMLU 和 BBH 測試上的成績,分别比 Llama 1 65B 的模型提升了約 5 和 8 個百分點。當規模相同時,Llama 2 7B 和 30B 模型在除了編程基準測試之外的所有類别上,表現都優于 MPT 模型。

此外,對于 Falcon 模型,Llama 27B 和 34B 在所有基準測試類别上,都超過了 Falcon 7B 和 40B 模型。不僅如此,Llama 2 70B 模型在所有開源模型中的表現是最好的。

除了與開源模型進行比較,論文裡也對比了 Llama 2 70B 與閉源模型的結果。

如表所示,Llama 2 70B 在 MMLU 和 GSM8K 測試上接近 GPT-3.5 模型,但在編程基準測試上,兩者之間存在顯著的差距。在幾乎所有的基準測試上,Llama 2 70B 的結果都等于或優于 PaLM(540B)模型。

除此之外,這次還順帶發布了一個對齊人類偏好的 finetune 版本—— Llama-2-chat 模型,其對話流暢性和安全性都會相比 Llama 2 有一個比較明顯的提升,當然,副作用就是模型在一些任務層面的性能可能會有所損失。

而 Llama-2-chat 模型跟一眾開源 / 閉源模型的 pk 也是驚到了讀者。

竟然都能小幅打赢 ChatGPT-0301! 而且評估方式是人類評估,而不是嚴重有偏的刷榜式評估,雖然不是絕對無偏,但也能很大程度上表明真實的使用體驗了。

那麼問題來了,驅動 Llama 2 系列模型取得如此效果提升的關鍵是什麼?

相信每一個算法工程師心裡都有一個清晰的答案:

數據!

數據!

數據!

數據可以視為機器學習模型訓練過程中的燃料,沒有高質量的數據,就很難訓練出高質量的模型。

模型訓練對數據的依賴性主要體現在以下幾個方面:

數據質量:模型的訓練和預測表現在很大程度上取決于數據的質量。如果訓練數據中缺乏高質量的寫作數據、對話數據等等,自然就不可能產生高質量的文章和高質量的對話。

數據量:對于深度學習模型,需要大量的訓練數據才能從中學習到復雜的模式。如果數據量不足,模型可能無法從中捕獲到有用的信息,從而對未見過的新數據做出準确預測。一句話來說,限制模型對復雜長尾模式的學習能力。

數據代表性:訓練數據必須真實反映真實世界的情況,在所有可能的輸入空間中都有良好的覆蓋。否則,模型可能會在面對未見過的情況時表現不佳。

數據多樣性:訓練集的數據應該具有高度多樣性。這樣,模型可以學習到訓練數據中的一般特征,而不是特定于某些特例的特征。

而 Llama 2 不僅僅是在訓練數據量的層面相比上一代 Llama 1 增加了 40%,而且在數據來源和豐富性上也有了很大的改善。但 Llama 2 在論文中對數據來源的細節卻沒有過多表述。這也更加說明了,數據來源對模型效果的關鍵性影響。

在 Llama 2 以及 Llama-2-chat 模型的訓練中,數據對模型效果起到了至關重要的作用。那麼問題來了,除了眾所周知的數據外,還有沒有哪些數據是提之甚少或秘而不宣,但對模型效果起到了非常重要的作用呢?

由于筆者沒有參與 Llama 2 的訓練,自然沒法直接回答。

但是,筆者在 Llama 的官網注意到,在眾多 Llama 2 的全球合作夥伴,有一家公司叫海天瑞聲。

海天瑞聲的 COO 李科及 CTO 黃宇凱也出現在了 Llama 2 的 supporters list 裡面,支持 Meta 的這種開源行為,可以讓每個人都能從這個技術中受益良多,并為技術帶來足夠的透明度、審慎性和可信性。

筆者不禁好奇的扒了一下海天瑞聲,發現這家公司确實不簡單。

根據官網介紹:

海天瑞聲(股票代碼:688787)成立于 2005 年,是我國最早從事 AI 訓練數據解決方案提供商之一。海天瑞聲作為 AI 數據行業首家主機板上市公司,致力于為 AI 企業、研發機構提供 AI 數據集及服務。

海天瑞聲向全行業提供多語言、跨領網域、跨模态的人工智能數據及相關數據服務,涵蓋智能語音(語音識别、語音合成等)、計算機視覺、自然語言等多個核心領網域,覆蓋全球近 200 個主要語種及方言。

深耕行業近 20 年,與阿裡巴巴、騰訊、百度、科大訊飛、海康威視、字節跳動、微軟、亞馬遜、三星、中國科學院、清華大學等全球 810 家科技互聯網、社交、IoT、智能駕駛等領網域的主流企業,以及教育科研機構等建立了深度合作關系,以專業、可靠、安全的數據服務,成功交付數千個定制項目,深得客戶信賴。依托覆蓋 70 多個國家、近 200 種語言及方言的優質資源,技術完善的算法研發團隊,經驗豐富的項目團隊,全方位助力 AI 前沿項目的全球商業落地。

尤其要強調的,就是其在多語言數據集方面的能力,這個對于大模型基礎能力的訓練來說是十分重要的保障。

筆者深入挖掘了一下,發現海天瑞聲還在大模型數據領網域打造了一套完整的文本标注一體化平台,并匯聚眾多特定垂類領網域背景的本碩專業人才,在能夠滿足大模型迭代周期頻繁、高質量數據集需求、特定領網域知識等各類需求,并确保數據的安全合規。

也難怪,在這樣強大的數據提供商的能力加持下,無論是預訓練,還是微調、RLHF,大模型的基礎到專業能力都會有一個比較扎實的保障。

Llama 2 發布的同時,海天瑞聲也發布了一個符合中國人語言表達習慣的超大規模中文多輪對話數據集—— DOTS-NLP-216。

這個數據集有多大呢?

Token 數量達到了上億規模,對話輪數高達千萬輪!

我們知道,當前在中文對話領網域,公開的數據集往往量少、分布有偏、價格昂貴甚至不能商用。這就導致大模型在中文對話方面的能力,相比英文對話,總是顯得 " 略像智障 "。尤其是在一些需要比較深的中文語言理解能力的對話場景,無論開源的還是閉源的大模型,都往往表現不佳。

而這份 DOTS-NLP-216 數據集,不僅僅是數據規模大,而且對話場景覆蓋到了工作、生活、校園等方方面面,更是涉及到了金融、教育、娛樂、體育、汽車、科技等諸多領網域。

筆者有幸拿到了數據集的一些樣本,看了下,質量确實非常高,貼個 case 感受一下:

在數據集構成上,DOTS-NLP-216 包含了對真實場景的對話采集,和高度還原真實場景的模拟對話這兩種方式,來兼顧了分布的代表性、多樣性和樣本規模。

值得注意的是,DOTS-NLP-216 是海天瑞聲自有版權的數據集,可以授權商用,這意味着 DOTS-NLP-216 很可能會成為以後中文大模型廠商提升模型中文對話能力必備的數據集。

總的來說,海天瑞聲近期發布的 DOTS-NLP-216 數據集,精準切中了當下大模型訓練的剛需問題,無論數據規模、分布的覆蓋度、安全合規以及商用方面,都做到了恰到好處。尤其在語言表達方面,筆者發現其非常契合中國人的語言表達習慣,相信這份數據集會讓大模型的 " 中文味 " 得到一個不錯的提升!

>
熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們