今天小編分享的科學經驗:開源版《Her》來了,技術報告已公開!大神Karpathy:它很有個性,歡迎閱讀。
大神 Karpathy 鼎力推薦,開源版「Her」Moshi 再引關注!
(Moshi)的性格非常有趣,它會突然斷斷續續,有時會無緣無故沉默……
就像下面這樣,一位小哥在和 Moshi 聊天時,Moshi 化身打工人,精神狀态十分美麗(doge)。
(一直向小哥抱怨壓力大,導致小哥完全插不進話)
據了解,Moshi 是一款端到端實時音頻模型,
不僅發布後人人免費可玩,而且就在剛剛,Kyutai 将 Moshi 的代碼、技術報告來了個大公開。
這波屬實驚喜了,當初搶先試玩的谷歌 DeepMind 研究員、ViT 作者 Lucas Beyer 聞聲趕來:
(剛好)我最近就想知道這個問題
開源工程師 Sebastian Rojo 原地啟動好學模式。
是時候學起來了!
當然,一直慢騰騰的 OpenAI 再次被 " 當眾處刑 "。(其高級語言模式 7 月底上線後,仍只面向小部分人開放)
驚人的!當我們仍在等待 OpenAI 的高級語音模式時,人們可以開始使用 Moshi 并進行構建。
Moshi 技術細節大公開
話不多說,先來開個箱,看看 Kyutai 這次放出了哪些東西。
一份長篇技術報告。揭露 Moshi 模型背後細節、權重、代碼;
GitHub 官方倉庫;
HuggingFace 模型庫;
首先來看模型。Kyutai 這次發布了3 個模型,分别是 Moshiko、Moshika,以及 Mimi 流語音編解碼器。
Moshi 的參數大約為7.69B,Moshiko/ka 是 Moshi 對合成數據進行微調後的變體,分為男女兩個聲音。
讓它們自行對話, be like:
可以看出,它們都能在一台 MacBook 上運行,且據介紹,這些模型在 L4 GPU 上實現了約 200 毫秒的延遲。
至于變體的内存需求,bf16、8 位和 4 位精度,對應的内存分别為 16GB、8GB 和 4GB VRAM。
另外,Moshi 使用了一個名為 Mimi 的流式神經音頻編解碼器,能夠處理24 kHz音頻(以 1.1kbps 的速度将 24 kHz 音頻壓縮至 12.5Hz),并且支持多種預訓練模型。
Mimi 受 SpeechTokenizer 啟發,通過蒸餾技術聯合建模語義和聲學信息,并且通過對抗性訓練提升了性能,專門用來和大語言模型協同工作。
其次,從官方公布的技術細節來看,Moshi 項目主要由三個組件構成:
Helium 語言模型(擁有 70 億參數并在 2.1 萬億 tokens 上進行訓練)
Mimi 神經音頻編解碼器(能夠建模語義和聲學信息)
一種新的多流架構(能夠在單獨的頻道上分别對用戶和 Moshi 的音頻進行建模)
展開來說,Moshi 團隊對 Helium 進行了增強,采用了 RQ-Transformer 變體架構,這使得 Helium 能夠在不增加序列長度的情況下建模語義和聲學标記的層次結構。
官方自稱,他們對生成音頻的主要貢獻是多流建模技術(multi-stream modeling)。
能夠在每個時間步中堆疊 Moshi 和用戶的 tokens,以模拟全雙工對話的動态,包括重疊、反向通道和中斷等。
還包括内心獨白技術(Inner Monologue),它進一步提高了生成語音的質量,通過預測時間對齊的文本來增強 Moshi 的智能性,同時保持與流媒體的兼容性。
此外," 内心獨白 " 的一個延伸是:通過調整音頻和文本标記的延遲,Moshi 能夠實現流式 TTS 和 ASR 功能。
在大規模音頻預訓練後,官方利用自己的模型創建了20k 小時的合成對話數據,用于評估 Moshi 在質量、音頻語言建模和口語問答方面的表現,以及進行了安全和量化分析。
評估結果顯示,Moshi 在性能上優于之前發布的模型。
OpenAI 版「Her」仍未開放
眼見 Moshi 這次來了個大公開,一眾網友又紛紛想起了 OpenAI。
今年 7 月底,OpenAI高級語音模式面向部分 plus 用戶上線,一些試玩例子也随之流出……
比如讓 ChatGPT 開口講中文,這濃濃的「歪果仁」口音是怎麼回事。
再比如讓它來段繞口令,圍觀網友笑 cry 了。
一番試玩下來,網友們期待值拉滿。
然而,OpenAI 的動作實在有億點慢了,當時曾計劃秋季時讓所有 plus 用戶都能用上高級語音模式。
然而至今沒有更多消息,相關話題的實時頁面下,随處可見一片抱怨。
以至于 Moshi 發布後,再次有網友調侃:
開源總是勝利!
不過也有爆料稱,OpenAI 可能會在9 月 24 日發布高級語音模式。
一周之後咱們見分曉!
技術報告:
https://kyutai.org/Moshi.pdf
GitHub 官方倉庫:
https://github.com/kyutai-labs/moshi
HuggingFace 模型庫:
https://huggingface.co/collections/kyutai/moshi-v01-release-66eaeaf3302bef6bd9ad7acd
參考鏈接:
[ 1 ] https://x.com/karpathy/status/1836476796738670918
[ 2 ] https://x.com/kyutai_labs/status/1836427396959932492