趕超GPT-4！谷歌發布最新大模型Gemini，主打三大“殺手锏”

今天小編分享的科技經驗：趕超GPT-4！谷歌發布最新大模型Gemini，主打三大“殺手锏”，歡迎閱讀。

外界期待已久的谷歌大語言模型 Gemini 在美國時間 12 月 6 日早間正式對外發布，谷歌首席執行官皮查伊表示，Gemini 1.0 是目前為止谷歌能力最強的通用人工智能模型。

“ Gemini 是原生多模态打造，是（谷歌）通往 Gemini 模型時代的第一步。”皮查伊在當天的聲明中說。

谷歌當天發布的 Gemini 1.0 共分為 Ultra, Pro 和 Nano 三個版本，其中 Ultra 的能力最強，復雜度最高，能夠處理最為困難的任務，Pro 能力稍弱，可以用來處理多任務，Nano 則更注重于端側的處理能力。

目前谷歌旗下的基于大語言模型對标 ChatGPT 的人工智能語言對話機器人 Bard 已經啟用 Gemini Pro 作為底層大模型驅動，能夠實現比過去由 Palm 大模型驅動的更為高級的推理、規劃、理解等能力，同時繼續保持免費。谷歌預計在明年初将推出“ Bard Advanced ” ，計劃使用 Gemini 最強版本 Ultra。

主打三大“殺手锏” 能力超越 GPT-4

在當天發布的博客文章中，谷歌表示，對 Gemini 模型進行了嚴格的測試，并評估了它們在各種任務中的表現。

從自然影像、音頻和視頻理解，到數學推理等任務，Gemini Ultra 在大型語言模型研發被廣泛使用的 32 個學術基準測試集中，在其中 30 個測試集的性能超過當前 SOTA 結果。

另外，Gemini Ultra 在 MMLU（大規模多任務語言理解數據集）中的得分率高達 90.0%，首次超越了人類專家。MMLU 數據集包含數學、物理、歷史、法律、醫學和倫理等 57 個科目，用于測試大模型的知識儲備和解決問題能力。

針對 MMLU 測試集的新方法使得 Gemini 能夠在回答難題之前利用其推理能力進行更仔細的思考，相比僅僅根據問題的第一印象作答，Gemini 的表現有顯著改進。

谷歌還專門公布了在各方面能力上與 OnpeAI 目前最強的大語言模型 GPT-4 進行的對比，結果顯示，在文本處理方面，除了在 MMLU 得分 90% 超過 GPT-4 的 86.4% 以外，Gemini Ultra 在推理、數學、代碼等方面能力的得分均高過 GPT-4。

在多模态方面，Gemini 也在包括影像、視頻、音頻等各個方面全面超越了 GPT-4 的能力。

根據谷歌首席科學家、人工智能負責人 Jeff Dean 的描述，Gemini 模型在多模态模型推理能力方面已經達到驚人的程度。

在上述例子中，當用戶給一份有學生手寫的計算滑雪者滑到山下速度的解題内容提示後，Gemini 能夠在讀懂題目的同時，指出正确的解答方法應該是怎樣。Dean 表示，多模态模型能力僅僅在教育方面體現出的各種可能性就讓人非常興奮，而這樣的多模态能力能夠在許多不同的領網域發揮巨大作用。

在模型架構方面，Gemini 依然采用 Transformer 架構，采用了高效的 Attention 機制，支持 32k 的上下文長度。

在當天的發布中，谷歌方面并沒有透露 Gemini Ultra 和 Gemini Pro 的具體參數大小，只是明确稱規模最小的 Gemini Nano 的參數分别為 18 億（Nano-1 ) 和 32.5 億 ( Nano-2 ) 。

目前外界有傳言稱，Gemini Ultra 的參數規模達到萬億級别，訓練動用的算力是 GPT-4 的 5 倍以上。

在當天同時發布的 Gemini 技術報告中，谷歌稱，Gemini 的訓練動用了大規模的 TPU 資源，使用 TPU-v5e 和 TPU v4 進行訓練，訓練使用了跨多個數據中心的大量 TPU v4，這也在某種程度上印證了 Gemini 的訓練參數規模十分龐大，此前谷歌的 PaLM 的訓練參數規模為 3400 億。

谷歌 Gemini 的首個“殺手锏”，在于其打造時是“原生的多模态”，這區别于目前主流的其他多模态模型，大多數是通過訓練不同的組件，最終将這些組件拼接在一起實現所謂的“多模态”。

因此通過“拼接”的多模态模型雖然能夠完成一些特定任務，例如影像識别，但在更為復雜的多模态任務方面可能就有些力不從心。

但谷歌原生多模态的 Gemini，是從預訓練就用不同的模态進行，并不斷進行微調，谷歌方面表示，這樣的訓練方法，有助于讓 Gemini 從頭開始無縫理解和推理各種輸入，遠遠優于現有的多模态模型，而且它的功能在幾乎每個領網域都是最先進的。

Gemini 的第二大“殺手锏”，在于其使用自家設計的、針對人工智能訓練進行優化的 Tensor Processing Units ( TPUs ) 的 v4 和 v5e，谷歌稱，将其 TPU 設計為自己最穩定、可擴展以及最有效率的服務。

谷歌表示，目前 Gemini 在 TPU 上運行，比過去規模更小、能力更小的模型的運行速度更快，這些定制的 AI 加速器是谷歌 AI 產品驅動面向數十億用戶的搜索、Youtube、Gmail、谷歌地圖等服務的核心。TPU 也讓企業能夠以更優的成本效率方式訓練大規模 AI 模型。

當天，谷歌還宣布了目前為止最強大、最高效、可擴展的 TPU 系統 —Cloud TPU v5p，專為訓練尖端的人工智能模型而設計。新一代 TPU 将加速 Gemini 的發展，幫助開發人員和企業客戶更快地訓練大規模生成式 AI 模型，讓新產品和新功能更快地與客戶見面。

谷歌 Gemini 的第三大“殺手锏”，在于與谷歌旗下生态的融合，除了發布 Gemini 以外，谷歌在當天也強調，Gemini 将通過谷歌產品推向數十億用戶。

最早上線的便是與 ChatGPT 直接對标的谷歌人工智能語言助手 Bard，谷歌宣布，目前 Bard 将由 Gemini Pro 微調版本驅動，谷歌表示，這是 Bard 推出以來最大的更新。

谷歌還考慮到了端上直接運行大模型，當天同步推出的 Gemini Nano 版本就是針對此推出的适用于移動端的大語言模型版本，谷歌旗下的 Pixel 8 将是第一款直接在端上運行 Gemini 的智能手機。

除此以外，谷歌還計劃在未來逐步将 Gemini 的底層人工智能能力推向旗下全線產品，包括核心業務廣告、搜索、Chrome 浏覽器等。

谷歌稱，目前已經在試驗用 Gemini 驅動的搜索，已經讓 Serach Generative Experience ( SGE ) 在美國英語搜索的延遲降低了 40%，并提高搜索質量。

業界反應熱烈與 OpenAI 競争進入白熱化

谷歌當天發布 Gemini 多少讓外界有些意外，在今年 5 月份谷歌的開發者大會上，谷歌便高調對外宣布了下一代大語言模型 Gemini，引發外界的巨大期待。按照原計劃，谷歌将在 12 月份對外正式發布 Gemini，但上周有消息稱，谷歌将推遲發布 Gemini 至明年 1 月，谷歌方面給出的理由是“在某些非英語任務方面的表現不佳”，這在一定程度上引發外界對于谷歌在 Gemini 研發方面遇到困難和阻力的猜想。

或許是迫于外界的壓力和期待，谷歌最終還是在 12 月 6 日按照原計劃對外發布了 Gemini。Gemini 一經推出，便引發了業内外廣泛關注和讨論，關注最為集中的是 Gemini 所公布的模型能力對 GPT-4 的全面超越。

有人在社交媒體上評論稱，谷歌的 Gemini 和 OpenAI 的 GPT-4 正拼的頭破血流。

毫無疑問，自從 ChatGPT 在去年底誕生以來 1 年多的時間，行業内又掀起了一輪以生成式人工智能為核心的熱潮。ChatGPT 背後公司 OpenAI 成為這一輪人工智能熱潮中的領軍公司，其與微軟的深度合作，也讓原先在人工智能領網域處于領先地位的谷歌危機感十足。

為了對抗 OpenAI 和微軟這一強大聯盟，谷歌在内部迅速進行了調整，包括将旗下人工智能部門與谷歌大腦部門進行合并，集中優勢資源進行大模型領網域的研發以及旗下產品應用的全面更新。

值得一提的是，當天 Gemini 的發布，博客文章的署名人是谷歌首席執行官皮柴和 Deep Mind 創始人兼首席執行官 Demis Hassabis，并且在 Gemini 的詳細介紹說明部分，則是 Hassabis 單獨署名，可見 Gemini 的研發工作主要由 Deep Mind 主導，而谷歌旗下的 Deep Mind，正是當年推出震驚世界、在圍棋界擊敗人類頂尖選手的 Alpha Go 的背後公司。

前不久，OpenAI 剛剛經歷了非常戲劇性的“董事會内亂”，首席執行官 Sam Altman 突遭董事會罷免，但最終迅速回歸，經此意外後，OpenAI 的未來發展也萌生了許多新的不确定性，這也意外給了包括谷歌在内其他行業内競争者更多追趕的時間和機會。

當天谷歌發布的 Gemini，特意将很多項能力直接與 OpenAI 的 GPT-4 進行逐一對比，也彰顯了谷歌與 OpenAI 之間在大語言模型領網域的競争已經進入到白熱化的程度。

毫無疑問，OpenAI 方面也在密切關注谷歌方面的動作并做出相應的應對，在上個月進行的 OpenAI 歷史上首個開發者大會上，OpenAI 已經公布了一系列更新，包括 GPT-4 模型的更新版、以及将打造專屬 GPT 的能力賦予每個用戶的功能、未來開放 GPT 應用商店等，OpenAI 目前的開放重點在于下一代 GPT-5 上，由于谷歌的 Gemini 已經在很多能力上顯示出對 GPT-4 的全面超越，外界對 GPT-5 也增加了更多的期待。