今天小編分享的科技經驗:增強版Sora生圖模型發布:不僅能直接在ChatGPT用,還搶了梗圖作者的飯碗,歡迎閲讀。
在 DeepSeek 24 小時前剛剛發布了 V3 模型 0324 版本更新之後,OpenAI 似乎真的有點「不甘示弱」的較勁感,在北京時間 3 月 26 日凌晨宣布了新產品的發布預告。
雖然在正式開始之前,有一些傳言猜測本次有可能發布 GPT-5,但根據以往 OpenAI 的各種產品發布節奏來看,這次并不會是一次重磅更新,但本次直播中,發布的整合進 ChatGPT 中的新版 Sora,還是給大家帶來的意料之外的「節目效果」。
目前,整合進 ChatGPT 中的 Sora,相比于獨立應用版本,能力暫時被局限在了影像生成,但據 OpenAI 在直播中介紹,該模型比之前的模型有了質的飛躍。
據介紹,開發團隊使用了 GPT-4o「全模态」(或可以生成文本、影像、音頻和視頻等任何類型數據的模型)能力為基礎,來開發這個版本的 Sora。因此用户可以直接説出自己的需求,甚至上傳或者拍一張照片,作為提示詞來使用。
比如直播現場的演示環節,就直接用手機給 Sam Altman 在内的三人來了張自拍,并要求 Sora 生成一張「動漫風格的版本」。
這還沒完,他們三人甚至還現場演示了讓 Sora 在圖片上添加一段文本「Feel The AGI」(感受通用人工智能)。現場畫了第一張新版 Sora 的表情包。
這個現場生成的表情包不僅文本準确清晰,并且準确理解了當代流行梗圖中的包括粗體字等必備元素,已經能直接拿來當梗圖發到各種群裏了。
由于是 OpenAI 官方帶頭整活,評論區也有不少用户也被激發熱情,嘗試着把相同的提示詞喂給 Grok,用相同的提示詞和照片,生成同樣風格的内容 ———— 但顯然效果還是比新版 Sora 差了不少,反而帶來了更喜感的效果。
除了帶頭畫梗圖,OpenAI 還演示了新版本 Sora 在文本渲染方面的改進,可以讓在影像上生成沒有拼寫錯誤的連貫文本的成功率明顯提升。
在另一個演示場景中,OpenAI 團隊讓 Sora 去生成一幅用于理解相對論的漫畫卡片。
不同于以往生圖模型中,在文本生成部分經常容易變得混亂不堪,甚至是「AI 造字」的情況發生,新版 Sora 其原生影像生成,生成的文本,已經沒有任何明顯錯亂,甚至還在漫畫生成了非常自然流暢的日文,意外的讓日文社區的不少日本用户「炸鍋」。
對于圖片生成模型來講,過去正确渲染文本是一個巨大的挑戰。如果小标題或文本元素有拼寫錯誤或錯誤,整個影像都可能變得無法使用。
此外在這個案例中,OpenAI 還演示了類似對相對論這樣「世界上現有知識」的正确引用。
「如果我畫一張影像,我會受到自身技能的限制……以及我積累的所有世界知識的限制,」 ChatGPT 多模态產品負責人 Jackie Shannon 在接受媒體采訪時解釋這個功能的必要性。
「該模型将世界知識代入其中,因此當你要求生成牛頓棱鏡實驗的影像時,你無需解釋「牛頓棱鏡實驗」這件事它本身是什麼,就能得到準确的影像。」
除了上述這些直播中提到的模型能力改進,OpenAI 還表示新版 Sora 大幅提升了在屬性和對象之間保持正确關系的能力。例如,綁定能力較差的模型可能會将要求生成藍色星星和紅色三角形的提示詞,生成為紅色星星而沒有三角形。
據 OpenAI 介紹,現有的大多數影像模型在這方面都很容易「犯錯」,尤其是當被要求渲染多個項目(通常在 5 到 8 個左右)時,經常會混淆顏色和形狀。而新版 Sora 的影像生成功能,可以正确綁定 15 到 20 個對象的屬性,在理解各自的復雜需求的同時,保證不會被誤導,從而大幅提高成功率。
除了這些使用體驗上的改進,還有一個細節是,OpenAI 已經确認,新版 Sora 生成影像的時間比以前更長,但 OpenAI 認為這是一個值得的權衡。
「雖然我們在延遲方面肯定還有改進的空間……但(我們覺得)這些生成圖片的質量、功能和世界知識,确實彌補了用户需要等待的額外幾秒鍾,」Shannon 説。
至于生圖領網域的安全問題 —— 從去年到今年已經出現多次偽造名人不雅影像、熱點事件虛假影像,以及 Google Gemini 去除照片原水印這樣的問題,OpenAI 團隊強調新版 Sora 已經可以去除照片水印,同時阻止生成性深度偽造影像,并拒絕生成相關的内容請求。同時所有生成的影像都将包含标準的 C2PA 元數據,以标記該影像是由 OpenAI 創建的。
目前,新版集成在 ChatGPT 内的 Sora 影像生成模型功能,已經開放給 Pro 和 Plus 訂閲套餐的用户,并且 OpenAI 承諾,新版 Sora 也會在不久的将來,提供給免費版本和 API。
現在我最想做的,就是立即讓它幫我畫自己的梗圖了。