今天小编分享的科学经验:两大學生自学3个月复刻谷歌爆款产品,开源AI语音新标杆一天揽获5000星标,欢迎阅读。
谷歌现象级产品 NotebookLM,两个大學生自学 3 个月就复刻了?
Nari Labs 刚刚开源的 Dia-1.6B,能够生成关于任何主题的对话,语音音色自然,还会添加语气、咳嗽声、笑声等。
官方演示提供了与热门语音模型 ElevenLabs 和 SeaSame 的对比,先来感受一下:
Dia-1.6B 模型权重与推理代码全开源,在 GitHub 上不到一天就获得近 5000 标星。
目前 Dia 1.6B 在单张英伟达 RTX A4000 上每秒约可生成 40 个 token,而 86 个 token 大约是 1 秒的音频内容。
也就是说,在更强的 GPU 或者多卡配置下可以做到实时生成音频。
官方表示完整版模型需要 10GB 显存运行,未来会添加量化版本,以及 CPU 支持。
不过开源社区已经通过优化 torch 编译进一步提高推理速度和节省显存。
如果没有算力资源,也可以到 HuggingFace 试玩 Demo,不过很可惜,目前版本不支持中文。
真实语气语音生成
使用 Dia-1.6B 非常简单,用 [ s1 ] [ s2 ] 标签带标两个不同的音色,目前模型为针对任何音色微调,每次都会随机得到不同的音色。
如果想保持特定音色,可以添加音色提示词(教程稍后发布)或固定随机种子。
语气会自动适应文字内容,如官方演示中一段与着火了有关的对话,AI 语气就明显紧张起来。
相比之下,Eleven Labs 和 Seasame 模型生成的语气还是不紧不慢的。
只需使用括号可添加咳嗽、吸鼻子、清嗓子、笑声等要素,特别是笑声会与。其他模型暂不支持这个功能。
不过目前版本的在线 Demo 也有一些问题,由于最大生成时长相对固定,输入的文字越多语速就会越快。
如果在参数中调整速度因子,会像调整音频播放速度一样让声音更低沉,没那么自然了。
两位大學生自学 3 个月打造
Nari Lab 创始成员 Toby Kim 与 Jaeyong Sung,来自韩国首尔大学和韩国科学技术院(KAIST),其中还有一人在服兵役兼职工作,整个项目 0 融资启动,自学 3 个月完成。
Toby Kim 透露项目灵感正是来自谷歌去年爆火的 NoteBook LM 自动生成播客对话功能,但他们想要对声音的控制力更强,脚本的自由度更高。
他们尝试了当时市面上所有的文本转语音 API 后,认为没有一个听起来像真实的人类对话。
于是他们靠申请免费的谷歌研究计划 TPU 资源训练模型,并推荐学习入门 TPU 的团队去看 DeepMind 的《How to Scale Your Model》 和 HuggingFace 的《Ultra-Scale Playbook》
未来,他们计划把 Dia 打造成一款完整应用,可以创建有趣的对话、重新组合内容并与好友分享。
在线试玩:
https://huggingface.co/spaces/nari-labs/Dia-1.6B
How to Scale Your Model
https://jax-ml.github.io/scaling-book/
Ultra-Scale Playbook
https://huggingface.co/spaces/nanotron/ultrascale-playbook
参考链接:
[ 1 ] https://x.com/_doyeob_/status/1914464979266449863
[ 2 ] https://techcrunch.com/2025/04/22/two-undergrads-built-an-ai-speech-model-to-rival-notebooklm/
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见