大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

Llama 2唯一中国合作伙伴,刚刚曝光

2023-07-29 简体 HK SG TW

今天小编分享的科学经验:Llama 2唯一中国合作伙伴,刚刚曝光,欢迎阅读。

上周,Llama 2 的发布在 AI 圈子引起了巨大的轰动。

Llama 2 相比上一代,不仅用了更多的训练数据,而且 context length 直接翻倍,达到了 4096。

更重要的是,Llama 2 在公开测试基准上的结果显示,其在代码、常识推理、世界知识、阅读理解、数学等评测维度的能力均获得了大幅的提升。仅 7B 的版本就在很多测试集上接近甚至超越 30B 的 MPT 模型的表现。

尤其需要注意的是,Llama 2 70B 模型在 MMLU 和 BBH 测试上的成绩,分别比 Llama 1 65B 的模型提升了约 5 和 8 个百分点。当规模相同时,Llama 2 7B 和 30B 模型在除了编程基准测试之外的所有类别上,表现都优于 MPT 模型。

此外,对于 Falcon 模型,Llama 27B 和 34B 在所有基准测试类别上,都超过了 Falcon 7B 和 40B 模型。不仅如此,Llama 2 70B 模型在所有开源模型中的表现是最好的。

除了与开源模型进行比较,论文里也对比了 Llama 2 70B 与闭源模型的结果。

如表所示,Llama 2 70B 在 MMLU 和 GSM8K 测试上接近 GPT-3.5 模型,但在编程基准测试上,两者之间存在显著的差距。在几乎所有的基准测试上,Llama 2 70B 的结果都等于或优于 PaLM(540B)模型。

除此之外,这次还顺带发布了一个对齐人类偏好的 finetune 版本—— Llama-2-chat 模型,其对话流畅性和安全性都会相比 Llama 2 有一个比较明显的提升,当然,副作用就是模型在一些任务层面的性能可能会有所损失。

而 Llama-2-chat 模型跟一众开源 / 闭源模型的 pk 也是惊到了读者。

竟然都能小幅打赢 ChatGPT-0301! 而且评估方式是人类评估,而不是严重有偏的刷榜式评估,虽然不是绝对无偏,但也能很大程度上表明真实的使用体验了。

那么问题来了,驱动 Llama 2 系列模型取得如此效果提升的关键是什么?

相信每一个算法工程师心里都有一个清晰的答案:

数据!

数据!

数据!

数据可以视为机器学习模型训练过程中的燃料,没有高质量的数据,就很难训练出高质量的模型。

模型训练对数据的依赖性主要体现在以下几个方面:

数据质量:模型的训练和预测表现在很大程度上取决于数据的质量。如果训练数据中缺乏高质量的写作数据、对话数据等等,自然就不可能产生高质量的文章和高质量的对话。

数据量:对于深度学习模型,需要大量的训练数据才能从中学习到复杂的模式。如果数据量不足,模型可能无法从中捕获到有用的信息,从而对未见过的新数据做出准确预测。一句话来说,限制模型对复杂长尾模式的学习能力。

数据代表性:训练数据必须真实反映真实世界的情况,在所有可能的输入空间中都有良好的覆盖。否则,模型可能会在面对未见过的情况时表现不佳。

数据多样性:训练集的数据应该具有高度多样性。这样,模型可以学习到训练数据中的一般特征,而不是特定于某些特例的特征。

而 Llama 2 不仅仅是在训练数据量的层面相比上一代 Llama 1 增加了 40%,而且在数据来源和丰富性上也有了很大的改善。但 Llama 2 在论文中对数据来源的细节却没有过多表述。这也更加说明了,数据来源对模型效果的关键性影响。

在 Llama 2 以及 Llama-2-chat 模型的训练中,数据对模型效果起到了至关重要的作用。那么问题来了,除了众所周知的数据外,还有没有哪些数据是提之甚少或秘而不宣,但对模型效果起到了非常重要的作用呢?

由于笔者没有参与 Llama 2 的训练,自然没法直接回答。

但是,笔者在 Llama 的官网注意到,在众多 Llama 2 的全球合作伙伴,有一家公司叫海天瑞声。

海天瑞声的 COO 李科及 CTO 黄宇凯也出现在了 Llama 2 的 supporters list 里面,支持 Meta 的这种开源行为,可以让每个人都能从这个技术中受益良多,并为技术带来足够的透明度、审慎性和可信性。

笔者不禁好奇的扒了一下海天瑞声,发现这家公司确实不简单。

根据官网介绍:

海天瑞声(股票代码:688787)成立于 2005 年,是我国最早从事 AI 训练数据解决方案提供商之一。海天瑞声作为 AI 数据行业首家主機板上市公司,致力于为 AI 企业、研发机构提供 AI 数据集及服务。

海天瑞声向全行业提供多语言、跨领網域、跨模态的人工智能数据及相关数据服务,涵盖智能语音(语音识别、语音合成等)、计算机视觉、自然语言等多个核心领網域,覆盖全球近 200 个主要语种及方言。

深耕行业近 20 年,与阿里巴巴、腾讯、百度、科大讯飞、海康威视、字节跳动、微软、亚马逊、三星、中国科学院、清华大学等全球 810 家科技互联网、社交、IoT、智能驾驶等领網域的主流企业,以及教育科研机构等建立了深度合作关系,以专业、可靠、安全的数据服务,成功交付数千个定制项目,深得客户信赖。依托覆盖 70 多个国家、近 200 种语言及方言的优质资源,技术完善的算法研发团队,经验丰富的项目团队,全方位助力 AI 前沿项目的全球商业落地。

尤其要强调的,就是其在多语言数据集方面的能力,这个对于大模型基础能力的训练来说是十分重要的保障。

笔者深入挖掘了一下,发现海天瑞声还在大模型数据领網域打造了一套完整的文本标注一体化平台,并汇聚众多特定垂类领網域背景的本硕专业人才,在能够满足大模型迭代周期频繁、高质量数据集需求、特定领網域知识等各类需求,并确保数据的安全合规。

也难怪,在这样强大的数据提供商的能力加持下,无论是预训练,还是微调、RLHF,大模型的基础到专业能力都会有一个比较扎实的保障。

Llama 2 发布的同时,海天瑞声也发布了一个符合中国人语言表达习惯的超大规模中文多轮对话数据集—— DOTS-NLP-216。

这个数据集有多大呢?

Token 数量达到了上亿规模,对话轮数高达千万轮!

我们知道,当前在中文对话领網域,公开的数据集往往量少、分布有偏、价格昂贵甚至不能商用。这就导致大模型在中文对话方面的能力,相比英文对话,总是显得 " 略像智障 "。尤其是在一些需要比较深的中文语言理解能力的对话场景,无论开源的还是闭源的大模型,都往往表现不佳。

而这份 DOTS-NLP-216 数据集,不仅仅是数据规模大,而且对话场景覆盖到了工作、生活、校园等方方面面,更是涉及到了金融、教育、娱乐、体育、汽车、科技等诸多领網域。

笔者有幸拿到了数据集的一些样本,看了下,质量确实非常高,贴个 case 感受一下:

在数据集构成上,DOTS-NLP-216 包含了对真实场景的对话采集,和高度还原真实场景的模拟对话这两种方式,来兼顾了分布的代表性、多样性和样本规模。

值得注意的是,DOTS-NLP-216 是海天瑞声自有版权的数据集,可以授权商用,这意味着 DOTS-NLP-216 很可能会成为以后中文大模型厂商提升模型中文对话能力必备的数据集。

总的来说,海天瑞声近期发布的 DOTS-NLP-216 数据集,精准切中了当下大模型训练的刚需问题,无论数据规模、分布的覆盖度、安全合规以及商用方面,都做到了恰到好处。尤其在语言表达方面,笔者发现其非常契合中国人的语言表达习惯,相信这份数据集会让大模型的 " 中文味 " 得到一个不错的提升!

>
熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們