今天小編分享的互聯網經驗:至今為止最大!亞馬遜發布文本轉語音模型BASETTS,歡迎閱讀。
瞻觀前沿
亞馬遜 AGI 的人工智能研究人員團隊宣布開發出他們所說的有史以來最大的文本轉語音模型。最大意味着擁有最多的參數并使用最大的訓練數據集。他們在 arXiv 預印本伺服器上發表了一篇論文,描述了模型的開發和訓練方式。在這項新的努力中,研究人員試圖通過增加參數數量并添加訓練庫來提高文本轉語音應用程式的能力。
這個名為 BASE TTS 的新模型擁有 9.8 億個參數,在同類產品中最大,在規模和能力上都超越了之前的迭代版本。它使用了 10 萬個小時的錄音(來自公共網站)來進行訓練,其中大部分為英語語音,但也包括德語、荷蘭語和西班牙語,這使它成為自然語音的新标準。
研究人員表示,盡管遇到了文本轉語音引擎固有的困難,如發音錯誤或語調錯誤,但該模型在處理復雜的語言結構方面表現出了非凡的能力。
研究人員進一步指出,與之前的文本轉語音模型相比,該模型提高了單詞的發音質量。
外媒稱,這一突破标志着文本轉語音技術的發展向前邁出了重要的一步,在不久的将來有可能得到廣泛的應用。
技術價值觀察
——智能語音是人工智能的核心技術之一
智能語音是人工智能技術的重要組成部分,包括語音識别、語義理解、自然語言處理、語音互動等。當前,人工智能的關鍵技術均以實現感知智能和認知智能為目标。語音識别、影像識别和機器人視覺、生物識别等目前最火熱的領網域,主要解決的是感知智能的需求,就是使得人工智能能夠感知周圍的世界,能夠 " 聽見 " 或者 " 看到 "。
——智能語音進入加速應用階段
智能語音技術的關鍵部分主要包括語音識别、語音處理、語音合成等,随着相關技術的不斷成熟,智能語音已經逐漸進入加速應用階段,在車載語音、智慧教育、智能安防、智能家居、智慧醫療等領網域都将出現智能語音技術的身影。
宏觀市場觀察
——中國智能語音市場規模超過 280 億元
2017-2021 年中國智能語音市場規模持續增長。根據德勤估算數據,2021 年中國智能語音市場規模突破 250 億元,達到 285 億元,較 2020 年的 217 億元增長 31%。
——全球智能語音市場高速發展
從全球視角看,智能語音市場規模高速增長,2021 年估算在 264 億美元左右,較 2020 年 203 億美元的市場規模增長 30%。
中國智能語音技術賽道熱力圖
根據前瞻產業熱力圖顯示,與智能語音關鍵技術強關聯的城市集群主要集中在華南地區,并且以深圳市為重點發展區網域,未來布局智能語音技術及其他相關技術的發展路徑,極大可能性在于華南地區優先導入,其中可重點關注廣東省深圳市龍華區、廣東省深圳市龍崗區所處的智能語音相關企業,以及該地方對于智能語音產業發展投資環境、供給市場的潛力空間。
前瞻經濟學人 APP 資訊組
更多本行業研究分析詳見前瞻產業研究院《2024-2029 年中國大模型產業發展前景與投資戰略規劃分析報告》
同時前瞻產業研究院還提供產業大數據、產業研究報告、產業規劃、園區規劃、產業招商、產業圖譜、智慧招商系統、行業地位證明、IPO 咨詢 / 募投可研、IPO 工作底稿咨詢等解決方案。在招股說明書、公司年度報告等任何公開信息披露中引用本篇文章内容,需要獲取前瞻產業研究院的正規授權。
更多深度行業分析盡在【前瞻經濟學人 APP】,還可以與 500+ 經濟學家 / 資深行業研究員交流互動。