今天小編分享的互聯網經驗:繼續對着OpenAI來,Google發布Veo 2、Imagen 3,Sora和DALL-E不香了,歡迎閱讀。
新的一周,OpenAI 技術直播迎來了第 8 天。今日重點是 ChatGPT Search,從領銜登場的熟面孔、公司首席產品官 Kevin Weil 來看,這次發布仍以優化和完善產品功能為主。
與此同時,Google 卻在發布 Gemini 2.0 Flash 後繼續在模型上發力,一口氣推出新一代視頻生成模型 Veo 2 和圖片生成模型 Imagen 3,還上線了一個可玩性很高的 " 圖生圖 " 實驗項目 Whisk。
即便已近年尾,OpenAI 和 Google 這對老冤家依然打得火熱。而從社區反響來看,今天似乎又成了一個 "Google 主場日 "。
ChatGPT 搜索集成地圖,全球免費開放
OpenAI 今天主要帶來三項 AI 搜索更新:
1. 搜索功能優化
ChatGPT 根據用戶反饋全面提升了搜索體驗,包括提升搜索速度、移動端增強和引入新的地圖功能等。
• 視覺效果更豐富:
搜索結果現在支持更豐富的視覺元素和結構化信息展示。例如搜索 " 舊金山周末有趣的活動 " 時,系統會同時展示活動圖片、來源鏈接及詳細信息,讓結果更加直觀。用戶還能直接在搜索結果中觀看視頻内容,不過這些并不稀奇,在 Perplexity 中早已實現過了。
• 移動端新增地圖功能:
新增「地圖」查看模式,支持用戶通過 ChatGPT 應用直接與地圖互動,也是此次更新的最大亮點。以搜索 Mission 區墨西哥餐廳為例,點擊地圖上的圖示即可查看餐廳圖片、營業時間、露台信息及導航路徑等詳情。
• 默認搜索引擎的快速導航:将 ChatGPT 設為浏覽器默認搜索引擎後,無需打開網站,通過在地址欄直接輸入查詢内容,即可快速調用 ChatGPT 并獲取推薦鏈接。
2. 搜索功能集成高級語音模式
搜索功能已整合至高級語音模式中,支持邊聊天邊搜索的自然互動體驗。
3. 全球免費開放
最後團隊宣布,GPT 搜索功能現已向所有登錄的免費用戶開放。用戶只需登錄賬戶即可在全球範圍内的各種平台上無需付費,享受這一增強搜索體驗。
Veo 2 與 Imagen 3 齊發,加推創意工具 Whisk
來到 Google 這邊,直接給視頻和影像生成技術來了個大更新,推出三款重磅產品:
全新視頻生成模型Veo 2、更新版影像生成模型Imagen 3,以及創意實驗項目Whisk。
Veo 2 重塑 AI 視頻生成:質量與控制力雙突破
Google 最新發布的 Veo 2 在 AI 視頻生成領網域取得突破性進展。無論真實感、運動表現能力,還是鏡頭控制都達到當之無愧的 SOTA 水平。不少人在看過驚豔的官方示例後表示,SORA 瞬間就不香了。
核心亮點有:
1. 高質量與真實感
Veo 2 在細節呈現、視覺風格和減少瑕疵方面表現出色,能夠生成高達4K 分辨率的視頻,且時長可達數分鍾,适用于廣泛的場景和風格。
2. 物理與人類動态理解
Veo 2 對真實世界物理原理以及人類動作與表情的細微之處有着深刻理解,顯著提升了視頻的真實感與自然度。
例如示例中這位穿着暗黃色防護服的科學家。冷白色實驗室燈光下,她神情焦慮地調試顯微鏡,擔憂的神情清晰可見,渲染出沉重壓力的氛圍。
以及下方,楓糖漿緩緩淋在松軟的煎餅上,培根油脂細膩,咖啡倒入玻璃杯中衝出層次豐富的泡沫,都展示出媲美物理世界,真實誘人的畫面細節。
3. 精确的鏡頭控制
Veo 2 深谙電影語言,支持豐富的指令細節:
• 指定風格與鏡頭(如 "18mm 鏡頭 " 生成廣角效果)
• 提供電影效果(如 " 淺景深 " 聚焦主體,虛化背景)
• 精确的動态鏡頭控制,如低角度跟蹤鏡頭、特寫鏡頭等。比如鏡頭跟随下在馬路快速漂移的汽車:
4. 減少 " 幻覺 " 現象
相較于其他視頻生成模型,Veo 2 在生成過程中更少出現多餘的細節或 " 額外的手指 " 這類意外物體,确保輸出結果更加真實可靠。
基準表現:
在實際應用評測中,通過 Meta 發布的 MovieGenBench 基準數據集的 1003 組提示詞測試,Veo 2 在人工評估中全面超越其他領先的視頻生成模型。特别是在以下兩個關鍵指标上表現突出:
• 整體偏好度評分最高
• 提示詞執行準确度領先
現有局限:
盡管表現優異,Veo 2 在處理高度動态或復雜場景時仍面臨挑戰,特别是在整個視頻中保持完全一致性方面還有提升空間。Google 團隊表示将持續優化性能,逐步克服這些難題。
所有 Veo 2 生成的視頻均包含 SynthID 不可見水印,用于标識其為 AI 生成,減少誤導和誤用風險。
目前,Veo 2 的新功能已在 Google Labs 視頻生成工具VideoFX開放,用戶可前往 Google Labs 申請加入候補名單。未來,Veo 2 計劃進一步集成到 YouTube Shorts 等產品中,持續推動 AI 視頻生成技術的發展。
Imagen 3:極致細節與風格多樣性的影像生成革新
更新後的 Imagen 3 在影像質量、細節呈現、風格多樣性和文字渲染方面取得了顯著提升,全面超越前代模型和其他領先競品,成為文本到影像生成領網域的新标杆。
核心技術突破:
1. 高清細節的優質影像
Imagen 3 生成的影像具備豐富的細節、更明亮自然的光影效果和更專業的構圖水平,有效捕捉如皮膚質感、手部細微皺紋、編織玩偶針線等復雜紋理與微小細節,同時減少視覺瑕疵,呈現更加自然精致的高保真體驗。
手部皮膚和陶土質感
動物皮毛紋理細節
2. 風格表現力增強
新版本在藝術風格的駕馭上實現跨越式發展,涵蓋範圍廣泛,能滿足不同創作者的需求:
• 寫實風格:如風景攝影、人物肖像。
人物肖像
空中的千紙鶴
• 各種藝術風格:印象派油畫、動漫、抽象畫、黏土動畫等。
黏土動畫
動漫風格
油畫風格
3. 提示詞理解深化
Imagen 3 對自然語言提示的理解能力大幅提升,無需復雜的提示詞工程即可準确執行用戶意圖。模型通過更豐富的訓練數據标注,能準确理解長提示詞中的復雜細節,并準确呈現指定的鏡頭角度、構圖等元素。
4. 強大的文本渲染能力
AI 作圖此前的一大難點就是亂碼和錯字。如今 Imagen 3 顯著增強了文本渲染的準确性,也為風格化卡片、海報等應用場景提供了更多可能。
在嚴格的人工評估中,Imagen 3 在視覺質量、提示詞執行準确度和用戶偏好度等關鍵指标上均創造新高。
從今天起,Imagen 3 将通過 Google Labs 的影像生成工具 ImageFX 在全球 100 多個國家上線。用戶可訪問 ImageFX 親身體驗。
可以說,Imagen 3 以其卓越的細節呈現、風格多樣性和強大的提示詞理解能力,為創作者提供了前所未有的高質量影像生成工具,重新定義了 AI 在藝術、設計與創意領網域的應用潛力。
Whisk:影像驅動的 AI 創意工具
除了以上兩個主要模型更新,Google Labs 還推出了一個趣味十足的實驗項目 Whisk。
這款工具巧妙結合了 Gemini 和 Imagen 3 技術,為創作者提供通過影像提示生成創意内容的新奇體驗。
不同于傳統需要輸入冗長文字提示的方式,用戶只需拖拽上傳圖片,即可分别指定主題、場景和風格,系統會自動完成元素的創意重組。還能依據興趣選擇樣式,包括個性化的數字藝術品、徽章、貼紙、玩具等。
在技術實現上,Gemini 模型會先對輸入的影像進行智能分析,生成詳細的描述信息,并将這些描述輸入 Google 最新的影像生成模型 Imagen 3,從而創作出全新的作品。
值得注意的是,Whisk 并非簡單復制原圖,而是着重捕捉影像的核心特征進行創意重塑。雖然生成結果可能與原圖有所不同(如人物的身高、發型或細節特征),但用戶可以随時查看并編輯生成的提示詞,靈活調整創意方向。
更清楚的操作過程,請看 VCR:
由于看起來實在好玩,我們也迫不及待試了試,讓水獺做主角,宮崎駿風格的海邊桌面做背景,并且輸入 " 角色抱着皮球玩具 " 的補充提示,選擇徽章樣式。
生成結果如下:
Google 将 Whisk 定位為一款面向快速視覺探索的創意工具,而非傳統的影像編輯器。在早期測試中,藝術家與創意工作者們普遍認為這種全新的創作方式充滿趣味性與創新力。
目前,Whisk 已在美國市場開放測試,手癢的朋友可以馬上去 labs.google/whisk 體驗了。這也标志着 Google 在生成式 AI 創意工具探索上邁出的重要一步。
總結
在 OpenAI 今天的搜索功能直播中,雖然地圖功能的加入收獲了不少好評,但整體内容還是缺乏令人眼前一亮的新意。
相比之下,Google 憑借Veo 2、Imagen 3 以及創意工具 Whisk 的強勢推出,占盡主角光環。也再次彰顯了其在生成式 AI 領網域的強大技術實力。
從高質量的視頻和影像生成到影像提示驅動的創意混合,Google 通過技術創新為創作者提供了更高效、更靈活的工具,讓人不得不服。
連續發布的 OpenAI 有些後勁不足,不過,官方預告明天OpenAI 将迎來一場 mini Dev Day,期待會帶來真正的驚喜。