今天小编分享的科技经验:网易用AI技术,帮助听障人士说出“人生第一句”,欢迎阅读。
听障人士只需两分钟,就能获得属于自己的声音。
文|林炜鑫
编辑|邓咏仪
近日,网易集团、网易公益联合浙江省残疾人福利基金会发起 " 人生第一句 " 声音复原公益计划,利用网易互娱 AI Lab 的 iSpeech 技术打造首个 AI 复原听障人士原声的工具。
听障人士仅需在「音书 APP」上传 2 分钟没有完整语义的发声片段,之后在产品中输入想要表达的文字,就可以用原本的声音说出来。
目前该产品已向全国听障人士免费开放,帮助他们无障碍、有情感地与外界交流,用自己的声音说出 " 人生第一句 "。
不久前,浙江省残疾人福利基金会面向浙江特殊教育职业学院的学生和「音书 APP」的部分用户开展调研。
调研结果显示,仅有十分之一的受访对象能够通过简单的口语与身边的人进行交流,他们中的大多数,最大的梦想便是能说出 " 人生第一句 "。
网易互娱 AI Lab 技术总监林悦告诉 36 氪,目前市面上绝大多数语音克隆产品,需要比较完整、有一定时长的语段,不适合相对发音困难的听障人士使用。
此次研发历时两个月,网易互娱 AI Lab 研发团队用上了 iSpeech 技术,基于海量数据的预训练模型,加上听障人士极少量的纯语音数据快速微调算法模型,在快速克隆新的说话人音色的同时,保留基础模型的内容发音能力。
来源:网易
林悦表示,这次研发的难点在于,从极短的无语义语音中提取到个人声音特征。正常的语音合成技术往往需要半小时到一个小时的语料建模,而网易团队克服了技术难度,仅需要听障者发出的两分钟简单音节,就取得了效果。
一位听障理发师使用该技术与母亲通话时,母亲听到 " 儿子的声音 " 后非常激动,称从未想过能听到儿子说话。这名理发师说,能用自己的声音与人交流,可以大大提升自信心。
网易宣布,这项技术研发遵循 " 科技向善 " 的理念,供听障人群免费使用,希望能提高他们的生活便利性。
接下来,网易团队希望利用 AI 技术,赋予合成语音以情感表达能力,让听障人士通过语音传递更丰富的情感。
据了解,此次运用的 iSpeech 技术原是由网易互娱 AI Lab 针对游戏场景推出的 AI 创作工具,已落地服务于《大话西游》《一梦江湖》《荒野行动》等 10 余项游戏项目产品之中。
通过这次研发,这项技术在游戏的使用场景也有更多可能性。林悦举例,游戏里会有给 NPC 角色定制语音包的需求,这项技术将减轻研发人员的负担,不再需要严格按照文本录制声音,只需日常的说话语音,就能达到效果。