海天瑞声CEO王晓东：大模型时代来临，数据服务市场将重新洗牌

今天小编分享的互联网经验：海天瑞声CEO王晓东：大模型时代来临，数据服务市场将重新洗牌，欢迎阅读。

文｜林炜鑫

编辑｜邓咏仪

5 月 26 日，海天瑞声在北京召开媒体见面会，分享了在多模态数据、数据标注平台方面的新进展。另外，CEO 王晓东宣布品牌更新战略，公司保留中文名称 " 海天瑞声 "，英文名则更改为 "Dataocean AI"。

海天瑞声是国内 AI 训练数据专业提供商，致力于为 AI 产业链的各类机构提供 AI 算法模型开发所需的专业数据。

王晓东表示，海天瑞声靠语音数据业务起家，逐步扩大业务范围，现在已经实现了语音、影像、文本全覆盖，公司的目标是为客户提供高质量数据。" 现在叫数据时代，需要新基建，" 王晓东说，" 我们公司提供高质量水泥，数据时代新基建建设的基础，都需要数据。"

同时，海天瑞声也将首次免费开放 DOTS-MM-0526 多模态数据集，包括音频、视频、文本等信息，希望借此为中国人工智能开放生态建设贡献力量。

海天瑞声 CTO 黄宇凯介绍了公司自研的专为自动驾驶设计的数据标注平台 "DOTS-AD 自动驾驶标注平台 "。该标注平台全面支持 2D、3D、4D 电晕或影像数据标注；支持自动化标注，数据标注效率将提升 8 倍；智能化管理数据，确保客户的商业数据安全合规。

眼下大模型势头正盛，众多科技公司纷纷布局大模型。王晓东认为，由于大模型的出现，" 整个数据服务市场将重新洗牌，集中度也将进一步提升。" 市场将逐步淘汰研发弱、资源差的一些中小玩家。

面对多家巨头下场的激烈竞争，海天瑞声拥有自身的技术壁垒。王晓东以语音数据为例，公司有专门的团队在全球采集各种语言数据，" 我们有我们的语言专家，有大量的资源 "。王晓东表示，目前公司拥有 190 多种语言数据。

大模型也将进一步影响相关的数据服务。黄宇凯告诉 36 氪，大模型的训练主要分为两个阶段，第一阶段叫预训练，对数据采集和数据清洗有很高的要求，" 不是越多越好 "；第二阶段叫微调或对齐阶段，需要高质量的 prompt（指令），" 非常难写 "，prompt 决定了训练效果，因此标注人员的自身素质也很重要。大模型时代，技术更新迭代的速度很快，黄宇凯说，" 我们非常激动，当然这里面也有很多机会。"