今天小編分享的科學經驗:兩大學生自學3個月復刻谷歌爆款產品,開源AI語音新标杆一天攬獲5000星标,歡迎閱讀。
谷歌現象級產品 NotebookLM,兩個大學生自學 3 個月就復刻了?
Nari Labs 剛剛開源的 Dia-1.6B,能夠生成關于任何主題的對話,語音音色自然,還會添加語氣、咳嗽聲、笑聲等。
官方演示提供了與熱門語音模型 ElevenLabs 和 SeaSame 的對比,先來感受一下:
Dia-1.6B 模型權重與推理代碼全開源,在 GitHub 上不到一天就獲得近 5000 标星。
目前 Dia 1.6B 在單張英偉達 RTX A4000 上每秒約可生成 40 個 token,而 86 個 token 大約是 1 秒的音頻内容。
也就是說,在更強的 GPU 或者多卡配置下可以做到實時生成音頻。
官方表示完整版模型需要 10GB 顯存運行,未來會添加量化版本,以及 CPU 支持。
不過開源社區已經通過優化 torch 編譯進一步提高推理速度和節省顯存。
如果沒有算力資源,也可以到 HuggingFace 試玩 Demo,不過很可惜,目前版本不支持中文。
真實語氣語音生成
使用 Dia-1.6B 非常簡單,用 [ s1 ] [ s2 ] 标籤帶标兩個不同的音色,目前模型為針對任何音色微調,每次都會随機得到不同的音色。
如果想保持特定音色,可以添加音色提示詞(教程稍後發布)或固定随機種子。
語氣會自動适應文字内容,如官方演示中一段與着火了有關的對話,AI 語氣就明顯緊張起來。
相比之下,Eleven Labs 和 Seasame 模型生成的語氣還是不緊不慢的。
只需使用括号可添加咳嗽、吸鼻子、清嗓子、笑聲等要素,特别是笑聲會與。其他模型暫不支持這個功能。
不過目前版本的在線 Demo 也有一些問題,由于最大生成時長相對固定,輸入的文字越多語速就會越快。
如果在參數中調整速度因子,會像調整音頻播放速度一樣讓聲音更低沉,沒那麼自然了。
兩位大學生自學 3 個月打造
Nari Lab 創始成員 Toby Kim 與 Jaeyong Sung,來自韓國首爾大學和韓國科學技術院(KAIST),其中還有一人在服兵役兼職工作,整個項目 0 融資啟動,自學 3 個月完成。
Toby Kim 透露項目靈感正是來自谷歌去年爆火的 NoteBook LM 自動生成播客對話功能,但他們想要對聲音的控制力更強,腳本的自由度更高。
他們嘗試了當時市面上所有的文本轉語音 API 後,認為沒有一個聽起來像真實的人類對話。
于是他們靠申請免費的谷歌研究計劃 TPU 資源訓練模型,并推薦學習入門 TPU 的團隊去看 DeepMind 的《How to Scale Your Model》 和 HuggingFace 的《Ultra-Scale Playbook》
未來,他們計劃把 Dia 打造成一款完整應用,可以創建有趣的對話、重新組合内容并與好友分享。
在線試玩:
https://huggingface.co/spaces/nari-labs/Dia-1.6B
How to Scale Your Model
https://jax-ml.github.io/scaling-book/
Ultra-Scale Playbook
https://huggingface.co/spaces/nanotron/ultrascale-playbook
參考鏈接:
[ 1 ] https://x.com/_doyeob_/status/1914464979266449863
[ 2 ] https://techcrunch.com/2025/04/22/two-undergrads-built-an-ai-speech-model-to-rival-notebooklm/
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
點亮星标
科技前沿進展每日見