今天小編分享的科技經驗:從山姆·奧特曼的聖誕願望清單,看清2024年大模型發展方向,歡迎閲讀。
在平安夜的清晨,就在大家還在熱議 GPT-4.5 是否已經悄悄上線的時候,OpenAI CEO 山姆 · 奧特曼發布了一條推文,直接劍指 GPT-5,給 AI 開發者和用户送了份充滿充滿期待的聖誕禮物。
這份清單其實起源于 12 月 24 日,奧特曼在社交媒體上發布了一條征集帖 " 你希望 OpenAI 在 2024 年能做到哪些事情?" 他的粉絲回復熱情很高,奧特曼梳理了一份 List(如圖片所示),除了在 AGI 旁邊标注了 " 還需要點耐心 " 的字樣外,其它的願望清單都沒有做任何标注,我們有理由相信,也許奧特曼認為其餘目标都有可能在 2024 年做到。
這份清單包括:
AGI(還需要些耐心)GPT-5 更好的語音模式更高的使用頻率限制更好的 GPTs 更好的推理能力控制覺醒程度 / 行為視頻功能個性化部署更好的浏覽體驗可以使用 OpenAI 賬号登錄開源項目推進
其中最引人注目的是四項内容:GPT-5、視頻、開源、更好的 GPTs / 個性化部署,這幾項内容可能帶來 AI 開發生态、用户體驗、及產品能力上質的躍遷。" 控制覺醒程度 / 行為 ",不出意外的也出現在這個清單之中,可以看出大眾對這家公司的責任擔當的期待。那麼,如果要完成這份清單,OpenAI 可能需要解決的難題及突破重點有哪些呢?
01 想要在 2024 年完成 GPT-5 的訓練,OpenAI 要做的不少
OpenAI 正在訓練 GPT-5 這件事已經越來越明晰了。早在 7 月 18 日,他們已經向美國專利商标局提交了 GPT-5 的商标申請。到了 11 月 14 日,奧特曼接受金融時報采訪時也終于承認 GPT-5 已經在路上了,雖然可能僅僅是開發的準備階段。奧特曼在采訪中的表述是 " 在我們訓練這個模型之前,這對我們來説就像是一個有趣的猜謎遊戲 ",這説明 OpenAI 應該還沒開始訓練模型。在準備階段他們在做的可能涉及建立訓練方法、組織注釋器,以及最關鍵的數據集管理。
數據瓶頸
數據問題一直被認為是 OpenAI 發布下一代大模型的主要瓶頸。因為縮放效應這種 " 喂的越多模型就越強 " 的邏輯仍然是 AI 能力進步的主要主導思想。但在訓練 GPT-4 時,OpenAI 已經有些捉襟見肘了。傳聞稱,GPT-4 的訓練數據共 13T(13 萬億個)token。這一數據量級基本耗盡了現有數據:CommonCrawl 和 RefinedWeb 兩個公開數據集都是 5T 個 token;據説餘下部分來源 Twitter、Reddit 和 YouTube;最近沸沸揚揚的争論中,馬斯克還指控 OpenAI 使用了來自 LibGen、SciHub 等盜版電子圖書網站中的數據。
但這一問題當下也有一定的解決方法。
第一個方法就是買:對于私人或公司領網域的數據,OpenAI 在之前的訓練中少有涉及,但這部分需付費的内容在互聯網中占比是非常大的。今年 OpenAI 就曾表示願意每年支付高達八位數的費用,用以獲取美國媒體自有的歷史和持續的金融檔案數據訪問權限。雖然美國媒體沒答應,而是自己搞了個 Bloomberg GPT,但高價之下,總是可以買來一部分數據的。
第二個就是合成數據訓練,微軟開發的高質量小模型 Phi-1 就已經實踐了利用合成數據訓練模型的嘗試,在 3T 的訓練集中用了大概 1.5B GPT-3.5 生成的高質量合成數據,并取得了模型能力的提升。雖然 1.5B 看起來占比很小,但考慮到微軟是用這些數據做教程用的,并非基礎能力構建。如果 GPT-5 把遵循一定的條件限制的高質量合成數據應用在更多領網域,那這一合成數據占比肯定能提升不少。
訓練周期
按照 Dylan Patel 泄漏的 GPT-4 的訓練周期看,在完成訓練準備後,OpenAI 在大約 25000 個 A100 上訓練了 90 到 100 天才完成,之後又經過了長達 6 個月的對齊工作才發布。整體周期需要 9 個月時間。考慮到 GPT-5 更大,更復雜這一時間長度完全有可能更長,那在 2024 年發布 GPT-5 似乎并不樂觀。
但奧特曼的自信并非全無道理。GPT-4 之所以訓練了這麼久的原因是故障過多導致 GPU 利用率較低,利用率僅為 32% 到 36% 之間。而每次故障都需要重新從之前的檢查點開始訓練。考慮到今年 Gemini 在訓練過程中 TPU 的利用率應該大于 50%,而且當谷歌使用模型狀态的冗餘内存副本,并且在任何計劃外的硬體故障時,可以直接從完整的模型副本中快速恢復。有着英偉達 H200 加成及微軟從 2019 年就啓動的名為雅典娜的類 TPU 項目加持,GPT-5 在訓練利用率上應該會較 GPT-4 有很大的提升。
而對齊工作在今年的進展就更大了。首先是 AI 輔助自動進行對齊工作的可能性被驗證有效(RLAIF),這衍生出了很多在 AI 參與乃至主導下的對齊研究。通過這種方式,可以大大縮短之前最費人力和時間的 RLHF 這一對齊步驟,提升對齊效率。但之前這種方法主要适用于用能力強的模型對齊能力弱的模型,提高其能力。但 OpenAI 在 12 月剛剛發布的弱到強泛化論文,提供了較弱 AI 仍然可以對齊能力更強 AI 的證據和方法。兩種技術相結合,用 GPT-4 自動對齊 GPT-5 的邏輯和方法都有了,因此對齊時間有望被大幅縮短。
在以上條件下,有理由相信 GPT-5 的全部訓練周期可能會短于 GPT-4,這樣它在 2024 年發布就不成問題了。
02 多模态還是必争之地,OpenAI 劍指文生視頻爆發元年
在這個願望清單上,另一個值得注意的點是視頻功能的支持。這一點 OpenAI 的競争對手 Google 已經處于領先地位了。在訓練 Gemini 的過程中,谷歌使用了多模态原生的數據,其中就包括視頻。這説明 Gemini 已經有了對于視頻的理解能力。但具體能理解到什麼程度,因為 Google 用力過猛的演示讓大家都疑慮重重。而且它還缺了生成式 AI 的重要一環,生成視頻的能力。
實際上,在文生圖,ChatBot 齊頭并進吸引走大家的主要注意力之時,文生視頻類軟體在今年也獲得了巨大的進步。11 月 PIKA 1.0 的發布就引發了相當的關注,利用這個工具我們可以随意用新的生成替換原視頻,或生成視頻中的任意内容。這些新進展主要歸功于 Animatediff 這個框架,它使得一部分運鏡限制下,生成視頻的閃爍和連貫性都得到了有效控制。
但目前文生視頻系統有三個相對重要的短板:1. 高連貫性内容長度難以超過 3 秒 2. 穩定内容對運鏡和動作仍然限制很大 3. 生成現實性内容的能力不強,需要用 Midjourney 等工具輔助。
但其中部分問題已經能看到被解決的曙光了。比如説時長問題,近期 Google Mind 發布的新建模方法 VideoPoet,它從本質上是利用支持視頻的多模态,将文字和視頻進行令牌化(tokenized),從而用大語言模型擅長的自回歸模式去預測下一段視頻的内容。這與傳統的基于 Diffusion(擴散)模型的文生圖框架并不相同,理論上它可以生成無限長、具有高度時間一致性的視頻。而在生成影像真實度方面,李飛飛的團隊近期發表的模型 W.A.L.T 在生成拟真度上有了比較高的提升,已接近照片水準。
在 Gemini 發布時,業界基本預測下一代 GPT-5 也會是一個大一統的原生多模态模型,這就意味着用類似 VideoPoet 的技術 GPT-5 也可以實現視頻生成的能力,補齊這一短板。考慮到 OpenAI 自身在 Diffusion 方面的積累和 GPT-5 潛在的超強能力,生成視頻的質量應該也相對有保障。文生視頻按目前的技術積累看,就在爆發前夜。而 GPT-5 也許就是引爆這一領網域的產品。
03 個性化水平再提升,從知識庫到工具的核心路徑
在 OpenAI 首屆開發者日上,真正的主角其實并非 GPT-4 Turbo,而是 GPTs。因為它第一次把個人化 AI 這一過去門檻頗高的產品落到個體層面,這樣才能真正實現個人化的 AI。而只有個人化的 AI 才能滿足每個人最個性化的需求,成為私人助理。
但現在這個產品還存在着諸多問題,比如提供了個人數據庫後,GPT 的回應還是會經常呈現出它原始的表達模式,在風格模仿上能力有限。另外出于隐私保護邏輯,GPTs 只支持上傳内容和接入公共網絡工具 API,無法完全利用本地數據。這些都在很大程度上限制了個性化 AI 的足夠 " 個性化 "。另外 GPTs 目前的互動也非常依賴 Prompt,缺乏 UI 類的支持。這類問題如果在新的一年解決,ChatGPT 對于大多數人來講可能就不再是一個只有在搜索知識時好用的產品,而是一個真正可用的萬能工具了。
這條路上目前沒有其他的大玩家,因為決定個性化水平的基本上是模型能力。只要 OpenAI 保持着模型水平的領先,這一工具化領網域的優先權他們就能随時把控。對于一般用户而言,如果能在原生模型軟體上完成任務,誰還會去用其他個性化工具呢?
在這篇文章發布的時候,奧特曼收集粉絲 2024 年願望清單的活動還在持續:" 我們将繼續收集粉絲們的意見,并盡可能多地将它們納入考慮,當然也包括許多其他讓我們感到興奮不已但尚未提及的内容。" 正如奧特曼在 11 月接受《時代》雜志采訪時所説:" 這将是一個截然不同的世界。這是科幻小説長期以來向我們展示的世界。我想這是第一次,我們可以開始看到它的雛形。" 在聖誕夜,我們可以一起期待,AI 将在 2024 給我們帶來什麼樣的驚喜。