OpenAI，再次“炸場”

今天小編分享的财經經驗：OpenAI，再次“炸場”，歡迎閱讀。

作者丨孔海麗

編輯丨駱一帆

圖源丨圖蟲

繼文生視頻大模型 Sora 後，近日，OpenAI 終于将按捺許久的語音引擎模型— Voice Engine 公之于眾。

利用文本輸入和單個 15 秒音頻樣本，Voice Engine 就能生成與原說話者非常相似且情感豐富的自然語音。不過，和文本生成視頻模型 Sora 一樣，目前 OpenAI 只針對少部分内測用戶開放 Voice Engine。

OpenAI 在其官網披露，2022 年底，Voice Engine 就被首次開發，并已經用它來支持文本轉語音 API 以及 ChatGPT 語音和朗讀中可用的預設語音。但考慮到合成語音被濫用的潛在風險，OpenAI 選擇了謹慎有序地推進和發布 Voice Engine。

近兩年，全球生成式 AI 應用規模呈現爆發式增長。據 IDC 預測，全球 AI 軟體市場規模有望從 2022 年的 640 億美元增長至 2027 年的 2790 億美元，復合增長率為 31.4%。

華泰證券分析師認為，随着基礎模型能力優化，多模态應用有望在内容創作、AI 教育、虛拟陪伴等場景加速落地。

Voice Engine 的問世，解鎖了語音模型的更多可能性，例如輔助閱讀、視頻轉譯等，也将在發音障礙人群的語言表達上提供有效幫助。

當 AI 瞄準聲音克隆技術

去年，" 黴黴 " 說地道中文的視頻火上微博熱搜，而這背後的 AI 工具來自 Voice Engine 的采用者之一— AIGC 初創公司 HeyGen，此話題的閱讀量超 600 萬。

通過 Voice Engine 進行實時轉換翻譯，說話者将保留原始口音，原語言不僅能轉換成中文、英文、日文等各類語言，也能讓面部嘴型完美匹配。

除此之外，" 特朗普 " 随口飙一段中文、" 郭德綱 " 用英語說相聲、" 蔡明 " 阿姨講段子的視頻也在各大社交平台上廣為流傳。

Voice Engine 的官宣也有迹可循。2024 年 3 月 19 日，OpenAI 已經為 "Voice Engine" 申請了商标，商标的覆蓋範圍主要是圍繞語音識别、語音合成和語音生成等方面。

谷歌前員工 Jonathan Chavez 也曾在前段時間透露，OpenAI 将在今年推出一款全球最好的個人助理產品，就像鋼鐵俠中的 Jarvis。

果不其然，Voice Engine 如期而至，團隊還公示了多場景下的内測結果與相關音頻。

根據 OpenAI 的介紹，Voice Engine 能夠通過自然、富有感情的聲音為非讀者和兒童提供閱讀幫助；可以翻譯視頻和播客等内容，以便創作者和企業可以用自己的聲音流利地接觸世界各地的更多人；支持非語言人群和幫助患有突發性或退化性言語病症的患者恢復聲音。

OpenAI 語音引擎產品團隊成員傑夫 · 哈裡斯（Jeff Harris）表示，該模型是根據 " 許可數據和公開數據的組合 " 進行訓練的。

對于 Voice Engine 的進展，網友直呼：" 人工智能的發展速度令人興奮，勢不可擋。"

從業人士認為，Voice Engine 将對播客、配音藝術家、口語表演者、有聲書和廣告解說員、遊戲玩家、流媒體主播、客戶服務代理、銷售人員等眾多職業帶來現實影響，這其中也包括就業壓力。

大眾也期待，當 OpenAI 的 Sora 與 Voice Engine 這兩項前沿科技相碰撞，又會擦出什麼樣的火花，真正意義上的有聲 AI 視頻乃至電影短片，是不是也就不遠了。

勒緊 " 深度偽造 " 的缰繩

對于 Voice Engine 技術的使用，除了驚喜與贊嘆聲，也有人提出了質疑，如果這樣的技術用于電信詐騙，後果會很可怕。

有在校大學生告訴 21 世紀經濟報道記者，家長曾接到 AI 偽造學生聲音的詐騙電話。

其實，OpenAI 去年所發布 " 可以說話 " 的 ChatGPT 版本，長期以來一直為各種企業提供根據配音演員的錄音所創建的聲音，并沒有發布從短視頻中復制聲音的技術。OpenAI 產品經理傑夫 · 哈裡斯（Jeff Harris）表示，以這種方式復制任何聲音的能力是有風險的。

2024 年 2 月，美國曾發生利用 AI 生成語音影響選民投票事件。據報道，在大選之際，新罕布什爾州的部分選民接到一個神秘來電，電話中酷似美國總統拜登的聲音号召他們不要在該州初選中投票。後經證實，該來電是機器人語音電話，并非拜登本人錄制。此事件在當時引起了不小的轟動，加劇了人們對競選 " 深度偽造 " 的擔憂。

為加強語音引擎的安全構建，OpenAI 在官方公告中稱，公司正在與來自政府、媒體、娛樂、教育、民間社會等領網域的美國和國際合作夥伴合作，以确保在建設過程中吸收他們的反饋。不過，OpenAI 與這些合作夥伴針對語音引擎的業務進展，需要原始發言者的明确和知情同意，合作夥伴還必須清楚地向觀眾強調，他們聽到的聲音是由 AI 生成的。

OpenAI 将為 AI 生成的語音添加水印，以追蹤并主動監控其使用方式，以确保其透明度和安全度。

OpenAI 官方表示："我們目前不會廣泛發布這項技術，僅小部分開放内測，希望語音引擎的這次内測既能強調其潛力，又能增強潛在問題的抵御能力，以應對越來越逼真的生成模型帶來的挑戰。"

此外，他們還将采取一系列安全措施，包括逐步淘汰基于語音的身份驗證作為訪問銀行賬戶和其他敏感信息的安全措施；探索保護人工智能中個人聲音使用的政策；教育公眾了解人工智能技術的能力和局限性，包括欺騙性人工智能内容的可能性；加速開發和采用追蹤視聽内容來源的技術等。