今天小編分享的科技經驗:谷歌計劃融合 Gemini 與 Veo 模型,打造全能 AI 助手,歡迎閱讀。
IT 之家 4 月 13 日消息,谷歌 DeepMind 首席執行官 Demis Hassabis 在由領英聯合創始人 Reid Hoffman 共同主持的播客節目 Possible 中透露,谷歌計劃将旗下的 Gemini AI 模型與 Veo 視頻生成模型進行融合,以此提升 Gemini 對物理世界的理解能力。
Hassabis 表示:" 我們從一開始就将 Gemini 這一基礎模型打造為多模态模型,因為我們有着構建一個通用數字助手的願景,這個助手能夠在現實世界中真正為你提供幫助。"
目前,整個 AI 行業正逐漸朝着 " 全能 " 模型的方向發展,這些模型能夠理解和整合多種媒體形式。谷歌最新的 Gemini 模型不僅可以生成影像和文本,還能生成音頻;而 OpenAI 在 ChatGPT 中的默認模型如今也能創建影像,包括宮崎駿風格的藝術作品。亞馬遜也宣布計劃在今年晚些時候推出一款 " 任意到任意 " 的模型。
據 IT 之家了解,這些 " 全能 " 模型需要大量的訓練數據,包括影像、視頻、音頻、文本等。Hassabis 暗示,Veo 的視頻數據主要來源于谷歌旗下的 YouTube 平台。他說道:" 通過觀看大量的 YouTube 視頻,Veo 2 能夠了解世界的物理規律。" 此前,谷歌曾向 TechCrunch 表示,其模型可能會根據與 YouTube 創作者達成的協定,使用 " 部分 "YouTube 内容進行訓練。據報道,該公司去年擴大了服務條款的部分内容,以便獲取更多數據來訓練其 AI 模型。