10M上下文，僅靠提示就掌握一門語言，Google Gemini 1.5被OpenAI搶頭條是真冤

今天小編分享的互聯網經驗：10M上下文，僅靠提示就掌握一門語言，Google Gemini 1.5被OpenAI搶頭條是真冤，歡迎閱讀。

這兩天，幾乎整個 AI 圈的目光都被 OpenAI 發布 Sora 模型的新聞吸引了去。其實還有件事也值得關注，那就是 Google 繼上周官宣 Gemini 1.0 Ultra 後，火速推出下一代人工智能模型 Gemini 1.5。

公司首席執行官 Sundar Pichai 攜首席科學家 Jeff Dean 等眾高管在推特同時宣布了這一重大更新。

其中最亮眼的當屬它在跨模态超長文本理解能力上的大幅突破。Gemini 1.5 能夠穩定處理的信息量高達 100 萬個 tokens。更直觀去感受，這相當于 1 小時的視頻、11 小時的音頻、超過 3 萬行代碼或 70 萬個單詞。

在此之前，世界上公開可用的 LLM 中，最大的上下文視窗來自 Claude 2.1 的 20 萬 tokens。同時 GPT-4 是 12.8 萬 tokens， Gemini 1.0 Pro 是 3.2 萬 tokens ——此次 Gemini 1.5 已在視窗長度上成功碾壓所有大模型。

Google 還表示，他們在研究中已成功測試了高達 1000 萬 tokens，相當于一次将整個《指環王》三部曲放進去。

Sundar Pichai 認為更大的查詢視窗對企業來說會非常有用， " 電影制作人可能會上傳他們的整部電影，詢問 Gemini 評論家是什麼意見，公司還能使用 Gemini 審查大量的财務記錄。這是我們實現的重大突破之一。"

更高效的 MoE 架構

作為目前 Google 公開的最先進 LLM，Gemini 1.5 采用時下流行的混合專家（MoE）架構來提高效率，響應更快、質量更高。

與傳統 Transformer 作為一個大型神經網絡運行不同， MoE 模型被劃分為較小的專家模塊。執行任務時會根據信息類型，選擇性地激活最相關的專家路徑，從而大大提升模型的效率和準确性。不僅更适應處理大規模數據集的復雜任務，還有更強的可擴展性和靈活性。

我們熟知的 Mistral 8x7B、MiniMax abab6 都是使用了 Moe 架構，更有爆料稱 GPT-4 也是由 8 個或 16 個專家模型構成。

根據 Google 數據，此次供早期測試的 Gemini 1.5 Pro 在使用更少計算資源的同時，對數學、科學、推理、多語言和視頻等任務的執行水平已逼近 1.0 Ultra。

在官方演示和 58 頁的技術論文中， Google 還針對新模型的強大性能給出了以下幾個用例：

大量信息的復雜推理和多模态分析

Gemini 1.5 Pro 可以無縫分析、分類和總結給定的長篇復雜文檔。例如，上傳阿波羅 11 号登月任務的 402 頁 pdf 記錄，讓它根據要求列出 3 個有意思的瞬間，并引用原始對話細節。

給出維克多 · 雨果的五卷本小說《悲慘世界》（1382 頁，73.2 萬 tokens），粗略勾勒一個場景，并提問 " 看看這幅畫中的事件是在哪一頁上？" 模型準确給出了頁碼，并标識出關鍵情節。

在超長視頻理解上同樣出色，能夠快速準确地分析各種事件和情節點。比如給定一部相當于 68.4 萬 tokens、時長為 44 分鍾的無聲電影 Sherlock Jr.，要求一句話總結電影情節：

繼續詢問一個 " 紙張從口袋取出的關鍵信息和時間 "。Gemini 1.5 Pro 用時 57 秒給出詳細答案。

另外，Gemini 1.5 Pro 超大的上下文視窗還能夠深入分析整個代碼庫。當發出一個 81.6 萬 tokens、超過 10 萬行代碼的提示時，它可以根據提問快速找到特定 demo 的代碼，還能提出有用的修改建議并進行解釋。

一本語法書，自學翻譯新語言

另一項讓人耳目一新的是 Gemini 1.5 Pro 的 "上下文學習（in-context learning）" 技能，意味着它能從一個長提示中給出的信息裡學習新技能，而無需額外微調。

為此，Google 使用 " 對一本書進行機器翻譯 ( MTOB ) " 進行測試，并選用新幾内亞西部不到 200 名使用者的 Kalamang 語。由于該語言幾乎沒有任何網絡信息，模型只能依賴于給定的上下文數據，而非訓練權重中儲存的知識來進行翻譯。

在測試中，工作人員向 Gemini 1.5 Pro 提供了 500 頁參考語法、2000 條雙語詞條和 400 個額外的平行句子——總計約 25 萬 tokens 信息作為其輸入上下文，要求從中學習并完成 Kalamang 語和英語的互譯。

從測試結果可見，Gemini 1.5 Pro 對整本書的翻譯得分接近人類學習者，在半本書的表現中遠超 GPT-4 Turbo 與 Claude 2.1。

對于一門在模型訓練過程中幾乎完全沒接觸過的語言來說，這一成就尤為突出。不僅支持瀕危語言的保護和復興，也為其它低資源教育領網域開辟了新的可能性。

從今天開始，Google 将通過 AI Studio 和 Vertex AI 向開發者和企業客戶提供 Gemini 1.5 Pro 的有限預覽權限。最終在完成所有安全部署和測試後取代 Gemini 1.0。免費使用的 Gemini 1.5 Pro 标準版将采用 12.8 萬個 tokens 上下文視窗，普通用戶需要額外支付費用獲得 100 萬 tokens 使用權。

被 OpenAI" 夾心 "，但仍不可小觑

此次 Gemini 1.5 的發布時間再次 " 不湊巧 "，前有 OpenAI 放話開發網絡搜索產品和推出 GPT 記憶功能，後面緊跟着兩小時後又橫空殺出個 Sora。奧特曼武器庫豐富且擅長針鋒相對，每當 Google 有新動作，剛要炸起水花就被摁下去。

網友們形容當天的場面就如同：

但是，依然有不少聲音站出來提醒大家切莫小看了 Gemini 1.5 Pro，它對超長文本強大的分析推理能力是其它大模型做不到的。

NVIDIA 高級科學家 Jim Fan 更是發表評論盛贊。表示盡管 Gemini-1.5 Pro 被搶走了風頭，被人們拿梗圖來開玩笑，但這仍是 LLM 能力的巨大躍升。測試中達到的 1000 萬 tokens 上下文、擅長檢索、在零樣本情況下對極長指令進行泛化、多模态工作能力都是驚人的。

" 重要的不是聲明中實現多少上下文長度的神話，而是模型實際上如何使用上下文來解決現實世界的問題。" 他認為 1.5 Pro 不通過微調而自主實現對 Kalamang 語的學習和應用，就展現出了這種神經激活中的復雜技能，超越了現有的技術水平。

如今 OpenAI 的急速擴張和 Gemini 逐步加快的更新速度，已經标志着生成式 AI 底層技術的狂熱步伐。Google DeepMind 負責人 Demis Hassabis 表示，可以期待未來幾個月會有更多的進步。

" 這是一種新的節奏 "，他說，" 我正試圖帶來一種類似初創公司的心态。"