史上最卷12月：全球15家Top級AI公司瘋狂上新

今天小編分享的互聯網經驗：史上最卷12月：全球15家Top級AI公司瘋狂上新，歡迎閱讀。

本文來自微信公眾号：四木相對論，作者：Lax、Dreamy，題圖來自：AI 生成

2024 年的最後一個月，全球 AI 圈好像約好了，一起開啟年底狂卷模式，批量發布新品。

據 " 四木相對論 " 統計，這場年末上新的 " 戰局 "，至少有 15 家全球 Top 級 AI 公司參與，上新了 20+ 個功能。

在海外，最受關注的無疑是 OpenAI 開啟 12 天大放送，期貨 Sora 終于兌現。

差不多同期，Google、xAI、World Labs、Meta、Amazon、Pika、Runway 等海外名企也都上新了 AI 功能。

國内的 12 月，大廠、六小虎和 AI 鲶魚 DeepSeek，無一不踏入戰局。

" 卷王 " 字節首當其衝。它在豆包和即夢中上新了影像理解能力。

六小虎中的 MiniMax、階躍星辰、智譜 AI，有的卷模型，有的卷 Agent 應用。Deepseek 和騰訊直接上新并開源了模型。

整體來看，各大公司近期的更新呈現以下特點：

視覺能力和生產力場景是兩大主題；

80% 以上的更新都圍繞 " 視覺 "；

可協作、可編輯是產品層更新的方向；

解析理解能力依舊是模型層的重點。

但卷歸卷，不少產品也出于缺乏曝光等因素，發布得 " 悄無聲息 "。

還有些萬眾期待的產品，比如 Sora，收獲了滿屏差評。

在這個轟轟烈烈的 12 月，目前你記住了誰？

海外：OpenAI 擠牙膏，其他家無人 care？

在這個 12 月，已經加入 AI 上新戰局的海外公司至少有 OpenAI、Google、xAI、Meta、Amazon、Pika ……

" 營銷專家 "OpenAI 的聲勢最大。

12 月 6 日，它拉開了 " 雙十二 " 的陣仗，要連做十二場發布會。

目前日程已經進入到第七天，發布成果如下：

Day1：發布 o1 正式版以及 o1 Pro 版本，以及 200 美金的 ChatGPT Pro 會員。

Day2：介紹強化微調（Reinforcement Finetuning）功能，即通過少量數據讓模型在專業領網域到達專家水平。

Day3：Sora 登場，接入了新模型 Sora Turbo 的 Sora，最高上限支持生成 1080p、20 秒視頻，支持橫屏豎屏各種常見尺寸。

Day4：發布生產力工具 Canvas，該功能允許用戶與 ChatGPT 合作寫作和編碼。

Day5：ChatGPT 融入蘋果生态。

Day6：三個功能發布：實時視頻通話、實時理解螢幕、聖誕老人限定語音。

Day7：推出了 Projects In ChatGPT 功能，可以将 ChatGPT 的各種功能整合至一處，便于用戶創建并管理各類項目。

不僅是 OpenAI，Google、Pika、Midjourney、xAI 也在這周有了新動作。

12 月 14 日，Pika 上新模型 2.0，引入場景元素（Scene Ingredients）功能。

這一功能允許用戶自由選擇角色、物品、服裝和場景元素，根據需求構建特點鏡頭。同時， Pika 2.0 支持多人在同一畫布上協作。

12 月 12 日凌晨，谷歌發布了 Gemini2.0，聲稱"Gemini2.0 是我們迄今為止最新、功能最強大的 AI 模型。"

這一模型可以支持圖片、視頻和音頻等多模态的輸入和輸出，速度也是 1.5Pro 的兩倍，還能直接調用 Google Search、代碼執行等工具。

在 Gemini2.0 架構之上，谷歌還推出或更新了三個新的 AI Agent 原型：通用大模型助手 Project Astra、浏覽器助手 Project Mariner、編程助手 Jules。

不過，Gemini2.0 的聲量相較于 Sora 小得多。

幾乎在官宣之後不到半小時，Gemini 2.0 詞條的熱度在 Twitter 上就已經掉到了第 8。在不斷下降的過程中，網友們還在分享 Sora 的鬼畜視頻，以及 Hunyuan、Hailuo、Kling 與 Sora 的能力對比。

這可能也是因為 Gemini 2.0 的更新雖然好評很多，但從表述上看起來很 " 常規 "：更快速的響應、支持聯網搜索、新上線的 " 深度研究 " 功能支持多輪復雜推理、代碼生成增強、第三方工具調用能力補充。

同一天，Midjourney 官宣了 patchwork 功能更新。

這是一個允許多人在線共同創建出一個世界的實驗性功能，所有參與者将在一塊白板畫布上共同創作（有點像 Canva 和 Figma 的共同編輯）。

而且畫布還給每個用戶的世界創建了一個傳送門，可以連接到别人的世界中。

之前 Midjourney 的更新基本都圍繞着圖片生成的能力，比如支持 AI 修圖、支持新畫風的模型等等。

但這次的 Patchwork 讓 MJ 在玩法上有了大不同，從一個只能一個人用的圖片生成工具，變成了一個可以讓大家一起玩起來的 AI 藝術創作產品。

手握巨卡的 xAI，同樣在卷視覺方向。

12 月 10 日，xAI 發布了首款完全自研影像生成模型 Aurora。

Aurora 已經直接集成到了 Grok 中，這是一個自回歸混合專家模型（MoE），在混合文本和影像數據集上完成了訓練。除了圖片生成，Grok 還有編輯能力，用戶可以直接在生成的影像上進行修改，這一功能也将上線 X。

Meta 也在 12 月 7 日發布了 Llama 3.3，在性能上開卷。據說現在 70B 的版本就能實現以前 405B 的性能。

它在指令遵循（IFEval）、數學（MATH）、推理（GPQA Diamond）等領網域的水平都超過了七月份發布的 Llama 3.1 405B。在語言（MMLU）、代碼（HumanEval）、長文本和多語種能力上，它的成績也和 Llama 3.1 405B 比較接近。

官方将 Llama 3.3 的進步歸功于新的對齊過程和在線強化學習技術的進步。

Runway 則在前一天，也就是 12 月 6 日更新了自己的 act-one 功能。這個新功能允許用戶将自己拍攝的表演動作或聲音直接 " 套用 " 到已有的視頻角色上（包括 AI 角色）。

在 12 月最早打響發布 " 競賽 " 的其實是 "AI 教母 " 李飛飛。

12 月 3 日，李飛飛創立的 World Labs 首次官宣了 " 空間智能 " 模型，利用一張圖就能生成一個 3D 世界。

這些 3D 場景都能在浏覽器中實時渲染，還能實現可控的相機效果，可調節的模拟景深。

也是在同一天，亞馬遜對外發布了多模态模型 Nova 系列。

亞馬遜這次直接發了一個大号全家桶，包括：超快速文本生成模型 Amazon Nova Micro，能夠處理文本、影像和視頻并生成文本的多模态模型 Amazon Nova Lite、Amazon Nova Pro 和 Amazon Nova Premier，用于生成高質量影像的 Amazon Nova Canvas 和用于生成高質量視頻的 Amazon Nova Reel。

不管這一波海外的年底上新如何轟轟烈烈，看起來，很多人只關注了 Sora。

好吧，OpenAI 的營銷又赢了。

國内：六小虎大廠混戰視覺

相比海外，國内廠商們的 " 卷 " 勢更早出現。各家的方向從模型卷到產品，離不開視覺和生產力兩個話題。

" 四木相對論 " 也對近半個月的新品進行了匯總：

在大公司裡，字節和騰訊是 12 月最卷的大廠（通義千問在 11 月 28 日發布了 QWQ 模型）。

在這個 12 月，前者在豆包和即夢上先後更新功能，後者一下子開源了視頻生成模型。

先看字節。

12 月 10 日，豆包官方表示，電腦版的視頻生成功能已經開啟内測。

獲得内測資格的賬号每日可免費生成十支視頻。内測申請通過後，選擇 " 視頻生成 " 功能，上傳一張圖片，輸入提示詞，并添加運鏡、分鏡信息，就能生成短視頻。

再往前的 12 月 5 日，豆包增加了 AI 生成文字圖功能。也就是說，用戶現在可以在提示詞中加入文本要求，生成帶有指定文字的圖片，做海報、做表情包都能用。

（四木用豆包做的圖，強調了 " 四木廚房 "）

類似的功能還體現在即夢上。

12 月 2 日晚，即夢上新 2.1 模型。這次的模型突破體現在中文文字可以穩定生成，當然也支持英文。

騰訊混元這個月最大的動作，就是正式上線視頻生成能力。

12 月 3 日，騰訊不僅上線了這個 130 億參數的模型，還把它開源了。

目前，模型已上線騰訊元寶 APP，用戶可在 AI 應用中的 "AI 視頻 " 板塊申請試用。企業客戶通過騰訊雲提供服務接入，API 同步開放内測申請。

" 四木相對論 " 觀察到，騰訊混元系列模型在這兩個月動作比較頻繁。

11 月初，它宣布最新的 MoE 模型 " 混元 Large" 以及混元 3D 生成大模型 "Hunyuan3D-1.0" 正式開源。12 月又上新文生視頻能力，正式加入了卷視頻模型的隊列。

大廠之外，大模型六小虎中的三虎——智譜 AI、MiniMax 和階躍星辰也在本月上新。

先來看智譜。

12 月的智譜在模型和應用兩端發力。首先是多模态模型—— GLM-4V-Flash 上線了智譜的開放平台，可以免費調用。

GLM-4V-Flash 模型擁有影像描述生成、影像分類、視覺推理、視覺問答（VQA）以及影像情感分析等影像處理功能。

多模态 / 視覺類的 API 都非常貴，号稱視覺能力對标 GPT-4o mini 模型的 GLM-4V-FlashAPI 免費，也稱得上是真卷。

產品方面，Auto-GLM 是智譜近期的重點。

首先智譜在 11 月 29 日發布了 Auto-GLM 的手機版和電腦版。半個月之後的 12 月 12 日，Auto-GLM 又更新了一個版本。

用戶打開 AutoGLM 後，可以通過語音發指令，讓智能體接管自己的手機，并在可操作的 App 上自動執行購買外賣，訂高鐵票、目的地導航等任務。

經過 " 四木相對論 " 測試，更新之後，Auto-GLM 支持的應用更穩定。同時它還增加了自定義高頻短口令，快速觸發常用任務等功能。

智譜 CEO 張鵬在發布會現場的 AI 發紅包操作一度刷屏，" 四木相對論 " 也復刻成功了。

Minimax 同樣在這個月卷起了多模态。

12 月 3 日，海螺 AI 圖生視頻模型 I2V-01-Live 上線了。

視頻生成一定是 MiniMax 今年的亮點之一。之前，MiniMax 的亮點幾乎全部集中于 Talkie，但海螺視頻的上線打破了這一印象。

這次的 I2V-01-Live 更新了二維插畫的動态呈現方式，讓動畫穩定性和細膩表現力有了增強。一張圖 + 一句話就能将 2D 插畫轉化為動态視頻。

一直略顯低調的另一只小虎階躍星辰也有模型層的更新。

周五（12 月 13 日）階躍星辰發布了端到端語音大模型—— Step-1o 。

從官方介紹來看，Step-1o 支持語音、文本等混合形式的輸入和輸出，能理解和模仿音色、韻律、方言、個性化的口語表達習慣等聲音特征。它還能夠通過自學和模仿不斷提升回復質量，提供解決問題的專業建議。

從場景上看，它支持包括新聞播報、聊天陪伴、有聲讀物、在線教育、智能硬體、汽車等語音互動技術需求。

近期，Step-1o 還将接入躍問 App 端，實現實時語音通話服務。

國内 AI 圈另一無法忽視的角色—— DeepSeek，在短短半月内進行了兩次上新。

最新開源的 DeepSeek-VL2（12 月 13 日發布）是一個專家混合（MoE）語言模型。

DeepSeek-VL2 比一代 DeepSeek-VL 多一倍優質訓練數據，引入梗圖理解、視覺定位、視覺故事生成等新能力。視覺部分使用切圖策略支持動态分辨率影像，語言部分采用 MoE 架構低成本高性能。

這次，大模型價格 " 卷王 " 更是在視覺模型上開 " 卷 "。

根據 DeepSeek 提供的評測對比，DeepSeek-VL2 在相似或更少的激活參數下實現了最先進的性能。

另外，DeepSeek V2.5 系列的最終版微調模型—— DeepSeek-V2.5-1210 也在 2 月 10 日更新。

據官網介紹，這次更新通過 Post-Training 全面提升了模型各方面能力表現，包括數學、代碼、寫作、角色扮演等。同時，新版模型優化了檔案上傳功能，并且全新支持了聯網搜索，可以服務各類工作生活場景。

不同于某些 AI 公司只強調功能或者模型的偏好，這次 DeepSeekV2.5-1210 模型更新後，它的 Chat 視窗呈現出兩個 Tag —— " 深度思考 " 和 " 聯網搜索 "。

這似乎在告訴外界：產品日常場景和模型推理能力我全都要。真的是卷王了。

12 月才剛剛過半，接下來，AI 圈的上新還會繼續。

畢竟，OpenAI 的年末發布剛剛走過一半。字節也會在下周舉行大會，強調豆包、即夢的更新。

最卷 12 月，AI 永不眠。

本文來自微信公眾号：四木相對論，作者：Lax、Dreamy