震撼一夜！OpenAI首個AI視頻模型炸裂登場，谷歌更新Gemini 1.5完爆GPT-4

今天小編分享的互聯網經驗：震撼一夜！OpenAI首個AI視頻模型炸裂登場，谷歌更新Gemini 1.5完爆GPT-4，歡迎閲讀。

人工智能（AI）行業又迎來了瘋狂、震撼的一夜。

北京時間 2 月 16 日凌晨 2 點左右，美國 OpenAI 公司正式發布其首個文本 - 視頻生成模型 Sora。

據悉，通過簡短或詳細的提示詞描述，或一張靜态圖片，Sora 就能生成類似電影的逼真場景，涵蓋多個角色、不同類型動作和背景細節等，最高能生成 1 分鍾左右的 1080P 高清視頻。

這是繼 Runway、Pika、谷歌和 Meta 之後，OpenAI 正式加入到這場 AI 視頻生成領網域 " 戰争 " 當中，同時也是 GPT、DALL · E 之後，2024 年 OpenAI 發布的旗下最新、最重要的 AI 產品系列。

OpenAI 強調，"Sora 是能夠理解和模拟現實世界的模型的基礎，我們相信這一功能将成為實現通用人工智能（AGI）的重要裏程碑。"

更早之前，谷歌昨夜 23 點突然更新了 Gemini 系列模型，并發布用于早期測試的 Gemini 1.5 第一個版本—— Gemini 1.5 Pro，采用稀疏 MOE 架構，配備了 128000 個 token 上下文視窗，性能和長文本都超過了 GPT-4 Turbo。

從 Sora 到 Gemini，所有人都在感嘆：行業真的變天了，AI 快要把人類 KO 了；好萊塢的時代真的要結束了？

OpenAI 視頻生成模型 Sora 誕生：效果炸裂、現實不存在了

OpenAI 今晨公布的首個視頻生成模型 Sora，采用一種名為擴散模型的技術（diffusion probabilistic models）。

而且，與 GPT 模型類似，Sora 也使用了 Transformer 架構，并完美繼承 DALL · E 3 的畫質和遵循指令能力，生成的視頻一開始看起來像靜态噪音，然後通過多個步驟去除噪音，逐步轉換視頻。

對于初學者來説，Sora 可以生成各種風格的視頻（例如，真實感、動畫、黑白），最長可達一分鍾 —— 比大多數文本 - 視頻模型要長得多。

這些視頻保持了合理的連貫性。相比其他 AI 視頻模型，Sora 視頻生成質量好多了，更讓人 " 舒服 " ——沒有出現 " 人工智能怪異 " 類場景。

比如，AI 想象中的 " 龍年春節 "，Sora 能形成緊跟舞龍隊伍抬頭好奇的兒童，也能生成海量人物角色各種行為。

輸入 prompt（提示詞）：一位 24 歲女性眨眼的極端特寫，在魔法時刻站在馬拉喀什，70 毫米拍攝的電影，景深，鮮豔的色彩，電影效果。

輸入 prompt（提示詞）：一朵巨大、高聳的人形雲籠罩着大地。雲人向大地射出閃電。

輸入 prompt（提示詞）：幾只巨大的毛茸茸的猛犸象踏着白雪皚皚的草地走近，它們長長的毛茸茸的皮毛在風中輕輕飄動，遠處覆蓋着積雪的樹木和雄偉的雪山，午後的陽光下有縷縷雲彩，太陽高高地挂在空中距離產生温暖的光芒，低相機視角令人驚嘆地捕捉到大型毛茸茸的哺乳動物，具有美麗的攝影和景深效果。

通過這些動圖來看，Sora 不僅可以在單個視頻中創建多個鏡頭，而且還可以依靠對語言的深入理解準确地解釋提示詞，保留角色和視覺風格。

當然，Sora 也存在一些弱點，OpenAI 表示，它可能難以準确模拟復雜場景的物理原理；可能無法理解因果關系；還可能混淆提示的空間細節；可能難以精确描述随着時間推移發生的事件，例如遵循特定的相機軌迹等。

但瑕不掩瑜，Sora 不僅能模拟真實世界，而且包括學習了攝影師和導演的表達手法，将 AI 視頻惟妙惟肖地展現出來。

因此，Sora 已經成為了目前最強的 AI 視頻生成類模型。

在社交平台上，已經有一些視覺藝術家、設計師和電影制作人（以及 OpenAI 員工）獲得 Sora 訪問權限。他們開始不斷放出新的提示詞，OpenAI CEO 奧爾特曼開始了 " 在線接單 " 模式。

帶上提示詞 @sama，你就有可能收到奧爾特曼 " 親自發布 " 的 AI 視頻回復。

截至發稿前，OpenAI 公布了更多關于 Sora 的技術細節。

技術報告顯示，OpenAI 并不是把 Sora 單純當做一個視頻模型來看待：将視頻生成模型作為 " 世界模拟器 "，不僅可以在不同設備的原生寬高比直接創建内容，而且展示了一些有趣的模拟能力，如 3D 一致性、長期一致性和對象持久性等。

" 我們探索視頻數據生成模型的大規模訓練。具體來説，我們在可變持續時間、分辨率和寬高比的視頻和影像上聯合訓練文本條件擴散模型。我們利用對視頻和影像潛在代碼的時空補丁進行操作的 Transformer 架構。我們最大的模型 Sora 能夠生成一分鍾的高保真視頻。我們的結果表明，擴展視頻生成模型是構建物理世界通用模拟器的一條有前途的途徑。"OpenAI 表示。

整體來看，Sora 生成的視頻噪音比較少，原始的訓練數據比較 " 幹淨 "，而且基于 ChatGPT、DALL · E 文生圖技術能力，Sora 視頻生成技術更加高超。

消息公布後，網友直呼，工作要丢了，視頻素材行業要 RIP。

論文鏈接：https://shrtm.nu/sqr

谷歌 Gemini1.5 火速上線：MoE 架構，100 萬上下文

除了 Sora 之外，今天凌晨，計劃全面超越 GPT 的谷歌，宣布推出 Gemini 1.5。

Gemini 1.5 建立在谷歌基礎模型開發和基礎設施之上，采用包括通過全新稀疏專家混合 ( MoE ) 架構，第一個版本 Gemini 1.5 Pro 配備了 128000 個 token 上下文視窗，可推理 100,000 行代碼，提供有用的解決方案、修改和注釋使 Gemini 1.5 的訓練和服務更加高效。

谷歌稱，Gemini 1.5 Pro 性能水平與谷歌迄今為止最大的模型 1.0 Ultra 類似，并引入了長上下文理解方面的突破性實驗特征，性能、文本長度均超越了 GPT-4 Turbo。

從今天開始，少數開發人員和企業客户可以通過 AI Studio 和 Vertex AI 的私人預覽版在最多 100 萬個 token 的上下文視窗中進行嘗試 1.5 Pro 預覽版。

谷歌表示，其致力于負責任地将每個新一代 Gemini 模型帶給全球數十億人、開發者和企業用户使用。未來，當模型進行更廣泛的發布時，屆時谷歌将推出具有标準 128,000 個 token 的 1.5 Pro 版本，甚至擴展到 100 萬個 token 的定價等級。

One More Thing：AI 行業都 " 卷 " 起來了

有趣的是，截至發稿前，Meta 也公布了一種視頻聯合嵌入預測架構技術 V-JEPA。

這是一種通過觀看視頻教會機器理解和模拟物理世界的方法，V-JEPA 可以通過自己觀看視頻來學習，而不需要人類監督，也不需要對視頻數據集進行标記，甚至根據一張靜止圖片來生成一個動态的視頻。

與其他模型相比，V-JEPA 的靈活性使其在訓練和樣本效率上實現了 1.5 到 6 倍的提升。另外，在影像分類中，它可識别影像中的主要對象或場景；動作分類方面，它識别視頻片段中的特定動作或活動；時空動作檢測方面，可識别視頻中動作的類型及其發生的具體時間和位置。

跑分方面，V-JEPA 在 Kinetics-400 達到了 82.0% 的準确率；Something-Something-v2 達到了 72.2% 的準确率；ImageNet1K 影像分類任務上達到了 77.9% 的準确率。

Meta 稱，這是人工智能模型邁出的又一重要一步利用對世界的學習理解來計劃、推理和完成復雜的任務。而且，V-JEPA 展示了 Meta 在通過視頻理解推進機器智能方面的先進成就，為實現更高級的機器智能和人工通用智能（AGI）奠定基礎。

總結來看，2024 年開年，AI 大模型技術進展全面加速，視頻、影像、文本生成能力比一年前大大增強。

如果説，2023 年還是 "AI 圖文生成元年 " 的話，今年，OpenAI 将推動行業進入 "AI 視頻生成元年 "。

如果按照最近估值超過 800 億美元的 OpenAI 公布新產品的速度來計算，GPT-5 将很快對外發布。

2 月初，被譽為 " 女版巴菲特 " 的方舟投資管理公司 CEO 凱茜 · 伍德（Cathie Wood）最新預測，AI 技術發展速度快于市場預期，AGI 最早将在 2026 年出現，最晚則到 2030 年出現。

（本文首發钛媒體 App，作者｜林志佳）