優等生歸來，谷歌最強大模型Gemini能否打敗GPT4？

今天小編分享的互聯網經驗：優等生歸來，谷歌最強大模型Gemini能否打敗GPT4？，歡迎閱讀。

圖片來源 @視覺中國

文｜甲子光年，作者｜蘇霍伊，編輯｜王博‍‍

" 沉寂 " 已久的谷歌終于放大招了。

美國當地時間 12 月 6 日，谷歌發布多模态大模型 Gemini。谷歌 DeepMind 直接宣布，Gemini 是 " 谷歌最大、最強的人工智能模型 "。

Google Deepmind 的官方賬号截圖，來源：谷歌 DeepMind

Gemini 谷歌是從頭開始構建的多模态模型，這也是更接近人類認識世界的方式。

作為谷歌用來應對 GPT-4 的 " 殺手锏 "。Gemini 在 32 個多模态基準測試中取得了 30 個 SOTA（State Of The Art，即當前最優效果）的記錄，是第一個在 MMLU（大規模多任務語言理解）測評上超過人類專家的模型。Gemini 在此項取得的成績是 90.0%，作為對比，人類專家的成績為 89.8%，GPT-4 為 86.4%。

Gemini 共有三個版本：

Gemini Ultra：适用于高度復雜的任務； Gemini Pro：适用于擴展至各種任務的 Gemini 模型； Gemini Nano：體量較小，适用于特定任務和移動設備。

Gemini 的三個版本，圖片來源：谷歌

"Gemini 的多樣性讓它能夠在從移動設備到大型數據中心的所有設備上運行。" 谷歌 DeepMind 產品副總裁 Eli Collins 說，" 我們離新一代人工智能模型的願景越來越近了。"

" 有了人工智能，我們将有機會以更大規模做一些重要的事情。" 谷歌 CEO Sundar Pichai 在谷歌成立 25 周年公開信中就特意提到了人工智能。面對強勢的 OpenAI，優等生谷歌需要一款現象級產品，證明自己在人工智能領網域的實力。

Gemini 就是谷歌交出的答卷。

" 打的就是精銳 "

谷歌的 Gemini 模型的核心優勢在于其原生多模态（natively multimodal）的特性。

以往的多模态大模型往往是通過分别針對不同模态訓練單獨的組件，再将這些組件組合起來以模拟多模态功能的方法構建的。雖然在某些任務（比如影像描述）上表現良好，但在處理需要更深層次概念理解和復雜推理的任務時，它們的表現往往不盡人意。

而谷歌的 Gemini 模型從一開始就在不同模态上進行預訓練，再通過使用額外的多模态數據進行微調，進一步提升了模型的有效性。這種原生的多模态訓練方法使得 Gemini 在處理多種類型的數據和復雜任務時更為高效和精準，從而在多模态人工智能領網域樹立了新的标準。

并且，Gemini 的推出主要是 " 瞄準 OpenAI 的 GPT-4" 而來。用《亮劍》裡李雲龍的話來說就是—— " 打的就是精銳 "。

在運算效能方面，Gemini 幾乎 " 全面吊打 "GPT-4。Gemini Ultra 在大模型研發被廣泛使用的 32 個學術基準測試集中，在其中 30 個測試集的性能超過此前 SOTA 結果。其中，在多選問題、數學問題、Python 代碼任務、閱讀等方面，Gemini 的性能都超過了此前最先進的水平。

谷歌稱，他們對 MMLU 采用了新的基準方法，使 Gemini 能夠利用推理能力在回答難題之前進行更仔細的思考，相比僅僅根據問題的第一印象作答，Gemini 的表現有顯著改進。

Gemini Ultra 在多個編碼基準測試中表現出色，包括 HumanEval 和 Natural2Code。其中僅 Gemini 僅在 HellaSWAG 數據集上的測試遜色于 GPT-4。

HellaSWAG 數據集主要用于研究扎根的常識推理能力，但是一位 NLP 領網域的研究專家向「甲子光年」表示：" 這并不能說明 GPT4 的常識推理性能更好，因為不能排除 ChatGPT 的模型在 HellaSWAG 數據集上訓練過。"

Gemini 模型與 GPT-4 部分測試評分對比，圖片來源：谷歌

此外，在多模态方面，Gemini Ultra 在新的 MMMU 基準測試中取得了 59.4% 的最先進得分，突顯了其多模态性和復雜推理能力。

在影像基準方面的測試中，Gemini Ultra不需要從影像中提取文本就能進行 OCR 處理，表現優于之前最先進的模型。

Gemini 模型在多模态方面的與 GPT-4V 的測試對比，圖片來源：谷歌

Gemini 1.0 被訓練用于同時識别和理解文本、影像、音頻等，因此它能更好地理解具有細微差别的信息，回答與復雜主題相關的問題，尤其擅長解釋數學和物理等復雜科目中的推理。

" 推理缺陷 " 也是 GPT 系列存在的問題。著名語言模型批評者 Gary Marcus 博士曾銳評道：" 大語言模型沒法做一些有嚴格定義的工作：遵守國際象棋規則、五位數字相乘、在家譜中進行可靠的推理、比較不同物體的重量等等。"

Gemini 解答物理題演示案例，圖片來源：谷歌

盡管技術進步顯著，但 AI 生成的虛假或捏造信息的問題依然存在。Eli Collins 指出，這仍是一個未被完全解決的研究難題。

但他同時也強調，Gemini 接受了谷歌迄今最為全面的安全評估，以确保其可靠性和安全性。谷歌對 Gemini 進行了一系列對抗性測試，模拟惡意用戶使用模型，并輸入各種提示詞，以檢測模型是否會產生仇恨言論或表現出政治偏見。這些測試包括了 " 真實毒性提示詞 "，由網絡收集的超過 10 萬個提示詞組成，用以全面檢驗模型的反應。

值得注意的是，Gemini 是在谷歌自研的雲芯片 Tensor Processing Units（TPU）上完成訓練的。特别是 TPU v5p 版本，在性能上有了顯著提升，使得模型訓練速度相比前一代提高了 2.8 倍。據悉，TPU v5p 芯片是專為數據中心訓練及大型模型運行而設計。

從 12 月 13 日起，開發人員和企業客戶可以通過 Google AI Studio 或 Google Cloud Vertex AI 來訪問 Gemini Pro 模型。Google AI Studio 是一個基于網絡的免費開發工具，為開發人員提供 API 密鑰，從而快速創建原型并啟動應用程式。Vertex AI 提供了定制化的 Gemini 以提供更為全面和管理的人工智能平台，并具有完整的數據控制功能，能利用谷歌雲的額外功能，包括企業級的安全性、隐私保護以及數據治理和合規性。

此外，從 Pixel 8 Pro 設備開始，Android 開發人員還可以通過 Android 14 中的新系統功能 AICore 來使用 Gemini Nano。Gemini Nano 是專為設備端任務設計的高效模型，通過注冊 AICore 的早期預覽版，開發人員可以深入探索其潛力，更便捷地利用 Gemini 的先進技術，并在 Android 生态系統的應用開發中迸發更多可能性。

到 2024 年，谷歌計劃推出 Bard Advanced，它與 AI agent 的初級形态十分相似。Bard Advanced 将借助 Gemini Ultra 提供支持，可以迅速理解多模态輸入，包括文本、影像、音頻和視頻，并作出相應的響應。

谷歌 VS OpenAI

在 OpenAI 的 GPTs 大放異彩時，谷歌似乎過于沉寂了。

今年 2 月，谷歌在巴黎舉行活動時，因其聊天機器人 Bard 的一處失誤，市值蒸發了 1000 億美元，也引發了外界對于 Bard 準确性的擔憂。

随着 OpenAI 推出了 ChatGPT，尤其是在必應搜索中整合了 GPT 技術，并首次在應用程式下載量上超越了谷歌後，人們開始思考谷歌是否在已人工智能領網域落後于競争對手。

事實上，谷歌才是在 2017 年提出的 Transformer 模型、為今天這場遊戲制定規則的先行者。

谷歌對大模型 " 高地 " 的競争意識并不比 OpenAI 晚。2021 年，谷歌便推出了 1.6 萬億參數的 Switch Transformer，強調稀疏多模态結構的潛力。同時，谷歌還提出了 Flan-T5 模型，通過更多監督數據降低了模型規模，比 GPT-3 模型參數更少但性能更佳。

對于技術上的評估，《經濟學人》在今年 1 月曾進行了一項比較測試，向 ChatGPT 和谷歌基于 Lamda 的機器人 Bard 提出了數學、閱讀和約會建議等問題。

測試結果顯示，谷歌 AI 在數學問題上表現更佳，但 ChatGPT 在常識問題上更準确。幾天後 OpenAI 更新了 ChatGPT，再次測試中在數學問題上與谷歌 AI 持平。盡管 ChatGPT 作為一個大型語言模型訓練成本高、迭代難，但也顯示了它持續進化的巨大潛力。值得注意的是，谷歌的語言模型與 ChatGPT 在性能上是旗鼓相當的。

在這場對決中，谷歌和微軟都需要成本效益更高的解決方案。谷歌在 AI 領網域取得了不少研究進展，但尚未将這些成果部署和變現，類似于微軟在過去的某些時期。這可能是因為谷歌低估了微軟和 OpenAI 的競争實力，或者過于自信于自己在搜索引擎領網域的主導地位。

「甲子光年」綜合多方觀點分析得出，谷歌在技術前瞻性上領先，OpenAI 更專注于產品的打磨。

在 Sam Altman 領導下的 OpenAI 專注于產品為導向的工作，致力于擴展和優化模型，主要關注細節精調方法。

谷歌則在技術發展的方向上始終保持着積極和前瞻的态度，不過在整體戰略規劃上卻屢次調整。

谷歌在稀疏模型架構上進行了深入探索。只是兩年後的，萬億級别的 Switch Transformer 幾乎沒產生任何水花，而千億參數級别的 GPTs 系列卻風生水起。同樣，被反復改進的 Flan-T5 模型雖然在性能上超越了 GPT-3，但其優化進展相對緩慢。

在谷歌 " 選擇困難症 " 期間，OpenAI 已經完成了對 ChatGPT 的訓練。

在 2022 年 9 月，谷歌旗下的 DeepMind 推出了麻雀（Sparrow）模型，和 ChatGPT 一樣，采取了基于人類反饋的強化學習（RL）框架。該模型采用了小型參數設定，與谷歌看重的 LaMDA 和 PaLM 模型的思路有明顯不同。只是谷歌并未能迅速确定麻雀模型是否是最優選擇，這也導致了麻雀模型的產品化滞緩，最終未能 " 飛上枝頭變鳳凰 "。

" 猶豫不決 " 似乎一直是谷歌的宿疾。" 但遲到總比不做好！終于有了 OpenAI 王座的有力競争者。" 在 Google 公布消息後，英偉達 AI 科學家 Jim Fan 評論道。

今年 4 月，谷歌将 Google Brain 和 DeepMind 團隊合并，成立 Google DeepMind。有人将這一團隊戲稱為 "AI 復仇者聯盟 "。原 Google AI 產品負責人 Eli Collins 被委以重任，擔任新團隊的產品副總裁。

目前，Gemini Pro 和 Gemini Nano 已在聊天機器人 Bard 和智能手機 Pixel 8 Pro 上集成，實現了更為高級的推理、規劃、理解等能力。而更為強大的 Gemini Ultra 将在明年發布。

不知 OpenAI 會如何 " 應戰 " 呢？或許我們很快便可以等到 GPT-5 的發布了。

不過，優等生谷歌并不完全在意這一時之戰，而是在着眼未來。

" 我們對答案的探索将在未來 25 年推動非凡的技術進步。到 2048 年時，如果有一位青少年在世界上的某個地方，看着我們用人工智能建造的一切聳聳肩，我們就知道我們成功了。然後，我們就回去工作。"

谷歌 CEO Sundar Pichai 在谷歌成立 25 周年公開信中如是說。

參考資料：

《Introducing Gemini: our largest and most capable AI model》，谷歌《ChatGPT 大熱，谷歌為何在自己的地盤輸給 OpenAI？》，界 / 面新聞