亞馬遜推出全新 AI 語音模型 Nova Sonic，叫板 OpenAI 和谷歌

今天小編分享的科技經驗：亞馬遜推出全新 AI 語音模型 Nova Sonic，叫板 OpenAI 和谷歌，歡迎閱讀。

IT 之家 4 月 9 日消息，亞馬遜發布了名為 Nova Sonic 的新一代生成式 AI 模型，該模型能夠原生處理語音并生成自然流暢的語音。據亞馬遜聲稱，Nova Sonic 在速度、語音識别以及對話質量等關鍵指标的基準測試中，表現可與 OpenAI 和谷歌的前沿語音模型相媲美。

Nova Sonic 的問世是亞馬遜對新興 AI 語音模型的有力回應，例如為 ChatGPT 語音模式提供支持的模型，相較于亞馬遜早期的 Alexa 等較為刻板的模型，這些新模型在語音互動時更加自然。

Nova Sonic 通過亞馬遜的 Bedrock 開發者平台提供給用戶，該平台是用于構建企業級 AI 應用的工具，Nova Sonic 則通過一個全新的雙向流式 API 進行接入。在一份新聞稿中，亞馬遜稱 Nova Sonic 是市場上 " 最具成本效益 " 的 AI 語音模型，其價格比 OpenAI 的 GPT-4o 便宜約 80%。

據亞馬遜高級副總裁兼人工通用智能（AGI）部門首席科學家羅希特・普拉薩德介紹，Nova Sonic 的部分組件已經為亞馬遜更新版數字語音助手 Alexa+ 提供了動力支持。

普拉薩德表示，與競争對手的 AI 語音模型相比，Nova Sonic 在将用戶請求路由到不同 API 方面表現出色。這一能力使得 Nova Sonic 能夠知曉何時需要從互聯網獲取實時信息、解析專有數據源，或者在外部應用程式中采取行動，并使用合适的工具來完成任務。

在雙向對話中，Nova Sonic 會等待 " 合适的時機 " 發言，會考慮到說話者的停頓和打斷等情況。此外，Nova Sonic 還能夠為用戶的語音生成文本記錄，開發者可以将這些文本用于各種應用場景。

據普拉薩德介紹，Nova Sonic 在語音識别錯誤方面比其他 AI 語音模型更少，這意味着該模型即使在用戶咕哝、說錯話或者處于嘈雜環境中時，也相對擅長理解用戶的意圖。在一項衡量跨語言和方言的語音識别基準測試 —— 多語言 LibriSpeech 中，亞馬遜表示 Nova Sonic 在英語、法語、意大利語、德語和西班牙語上的平均單詞錯誤率（WER）僅為 4.2%。也就是說，在這些語言中，該模型每 100 個單詞中大約有 4 個與人工轉錄的結果不同。

IT 之家注意到，在另一項衡量多人參與的高音量互動的基準測試 —— 增強多方互動中，亞馬遜稱 Nova Sonic 在單詞錯誤率方面比 OpenAI 的 GPT-4o-transcribe 模型準确率高出 46.7%。Nova Sonic 還擁有行業領先的速度，其平均感知延遲為 1.09 秒，亞馬遜表示。這一速度比為 OpenAI 的實時 API 提供動力的 GPT-4o 模型更快，後者響應時間為 1.18 秒，這是根據人工分析的基準測試結果得出的。

普拉薩德稱，Nova Sonic 是亞馬遜構建人工通用智能（AGI）這一更廣泛戰略的一部分，公司定義 AGI 為 " 能夠在計算機上完成人類所能做的一切事情的 AI 系統 "。展望未來，普拉薩德表示，亞馬遜計劃推出更多能夠理解不同模态（包括影像、視頻和語音）的 AI 模型，以及 " 其他在将事物引入物理世界時相關的感官數據 "。

由普拉薩德負責的亞馬遜 AGI 部門，如今似乎在公司產品戰略中扮演着越來越重要的角色。就在上周，亞馬遜剛剛推出了 Nova Act 的預覽版，這是一個使用浏覽器的 AI 模型，似乎為 Alexa+ 和亞馬遜的 " 代我購買 " 功能的部分元素提供了支持。普拉薩德表示，從 Nova Sonic 開始，公司希望将更多内部的 AI 模型提供給開發者使用，以助力他們構建各種應用。