今天小编分享的互联网经验:海天瑞声CEO王晓东:大模型时代来临,数据服务市场将重新洗牌,欢迎阅读。
文|林炜鑫
编辑|邓咏仪
5 月 26 日,海天瑞声在北京召开媒体见面会,分享了在多模态数据、数据标注平台方面的新进展。另外,CEO 王晓东宣布品牌更新战略,公司保留中文名称 " 海天瑞声 ",英文名则更改为 "Dataocean AI"。
海天瑞声是国内 AI 训练数据专业提供商,致力于为 AI 产业链的各类机构提供 AI 算法模型开发所需的专业数据。
王晓东表示,海天瑞声靠语音数据业务起家,逐步扩大业务范围,现在已经实现了语音、影像、文本全覆盖,公司的目标是为客户提供高质量数据。" 现在叫数据时代,需要新基建," 王晓东说," 我们公司提供高质量水泥,数据时代新基建建设的基础,都需要数据。"
同时,海天瑞声也将首次免费开放 DOTS-MM-0526 多模态数据集,包括音频、视频、文本等信息,希望借此为中国人工智能开放生态建设贡献力量。
海天瑞声 CTO 黄宇凯介绍了公司自研的专为自动驾驶设计的数据标注平台 "DOTS-AD 自动驾驶标注平台 "。该标注平台全面支持 2D、3D、4D 电晕或影像数据标注;支持自动化标注,数据标注效率将提升 8 倍;智能化管理数据,确保客户的商业数据安全合规。
眼下大模型势头正盛,众多科技公司纷纷布局大模型。王晓东认为,由于大模型的出现," 整个数据服务市场将重新洗牌,集中度也将进一步提升。" 市场将逐步淘汰研发弱、资源差的一些中小玩家。
面对多家巨头下场的激烈竞争,海天瑞声拥有自身的技术壁垒。王晓东以语音数据为例,公司有专门的团队在全球采集各种语言数据," 我们有我们的语言专家,有大量的资源 "。王晓东表示,目前公司拥有 190 多种语言数据。
大模型也将进一步影响相关的数据服务。黄宇凯告诉 36 氪,大模型的训练主要分为两个阶段,第一阶段叫预训练,对数据采集和数据清洗有很高的要求," 不是越多越好 ";第二阶段叫微调或对齐阶段,需要高质量的 prompt(指令)," 非常难写 ",prompt 决定了训练效果,因此标注人员的自身素质也很重要。大模型时代,技术更新迭代的速度很快,黄宇凯说," 我们非常激动,当然这里面也有很多机会。"