今天小編分享的科技經驗:優等生歸來,谷歌最強大模型Gemini能否打敗GPT4?,歡迎閲讀。
圖片來源 @視覺中國
文|甲子光年,作者|蘇霍伊,編輯|王博
" 沉寂 " 已久的谷歌終于放大招了。
美國當地時間 12 月 6 日,谷歌發布多模态大模型 Gemini。谷歌 DeepMind 直接宣布,Gemini 是 " 谷歌最大、最強的人工智能模型 "。
Google Deepmind 的官方賬号截圖,來源:谷歌 DeepMind
Gemini 谷歌是從頭開始構建的多模态模型,這也是更接近人類認識世界的方式。
作為谷歌用來應對 GPT-4 的 " 殺手锏 "。Gemini 在 32 個多模态基準測試中取得了 30 個 SOTA(State Of The Art,即當前最優效果)的記錄,是第一個在 MMLU(大規模多任務語言理解)測評上超過人類專家的模型。Gemini 在此項取得的成績是 90.0%,作為對比,人類專家的成績為 89.8%,GPT-4 為 86.4%。
Gemini 共有三個版本:
Gemini Ultra:适用于高度復雜的任務; Gemini Pro:适用于擴展至各種任務的 Gemini 模型; Gemini Nano:體量較小,适用于特定任務和移動設備。
Gemini 的三個版本,圖片來源:谷歌
"Gemini 的多樣性讓它能夠在從移動設備到大型數據中心的所有設備上運行。" 谷歌 DeepMind 產品副總裁 Eli Collins 説," 我們離新一代人工智能模型的願景越來越近了。"
" 有了人工智能,我們将有機會以更大規模做一些重要的事情。" 谷歌 CEO Sundar Pichai 在谷歌成立 25 周年公開信中就特意提到了人工智能。面對強勢的 OpenAI,優等生谷歌需要一款現象級產品,證明自己在人工智能領網域的實力。
Gemini 就是谷歌交出的答卷。
" 打的就是精鋭 "
谷歌的 Gemini 模型的核心優勢在于其原生多模态(natively multimodal)的特性。
以往的多模态大模型往往是通過分别針對不同模态訓練單獨的組件,再将這些組件組合起來以模拟多模态功能的方法構建的。雖然在某些任務(比如影像描述)上表現良好,但在處理需要更深層次概念理解和復雜推理的任務時,它們的表現往往不盡人意。
而谷歌的 Gemini 模型從一開始就在不同模态上進行預訓練,再通過使用額外的多模态數據進行微調,進一步提升了模型的有效性。這種原生的多模态訓練方法使得 Gemini 在處理多種類型的數據和復雜任務時更為高效和精準,從而在多模态人工智能領網域樹立了新的标準。
并且,Gemini 的推出主要是 " 瞄準 OpenAI 的 GPT-4" 而來。用《亮劍》裏李雲龍的話來説就是—— " 打的就是精鋭 "。
在運算效能方面,Gemini 幾乎 " 全面吊打 "GPT-4。Gemini Ultra 在大模型研發被廣泛使用的 32 個學術基準測試集中,在其中 30 個測試集的性能超過此前 SOTA 結果。其中,在多選問題、數學問題、Python 代碼任務、閲讀等方面,Gemini 的性能都超過了此前最先進的水平。
谷歌稱,他們對 MMLU 采用了新的基準方法,使 Gemini 能夠利用推理能力在回答難題之前進行更仔細的思考,相比僅僅根據問題的第一印象作答,Gemini 的表現有顯著改進。
Gemini Ultra 在多個編碼基準測試中表現出色,包括 HumanEval 和 Natural2Code。其中僅 Gemini 僅在 HellaSWAG 數據集上的測試遜色于 GPT-4。
HellaSWAG 數據集主要用于研究扎根的常識推理能力,但是一位 NLP 領網域的研究專家向「甲子光年」表示:" 這并不能説明 GPT4 的常識推理性能更好,因為不能排除 ChatGPT 的模型在 HellaSWAG 數據集上訓練過。"
Gemini 模型與 GPT-4 部分測試評分對比,圖片來源:谷歌
此外,在多模态方面,Gemini Ultra 在新的 MMMU 基準測試中取得了 59.4% 的最先進得分,突顯了其多模态性和復雜推理能力。
在影像基準方面的測試中,Gemini Ultra不需要從影像中提取文本就能進行 OCR 處理,表現優于之前最先進的模型。
Gemini 模型在多模态方面的與 GPT-4V 的測試對比,圖片來源:谷歌
Gemini 1.0 被訓練用于同時識别和理解文本、影像、音頻等,因此它能更好地理解具有細微差别的信息,回答與復雜主題相關的問題,尤其擅長解釋數學和物理等復雜科目中的推理。
" 推理缺陷 " 也是 GPT 系列存在的問題。著名語言模型批評者 Gary Marcus 博士曾鋭評道:" 大語言模型沒法做一些有嚴格定義的工作:遵守國際象棋規則、五位數字相乘、在家譜中進行可靠的推理、比較不同物體的重量等等。"
Gemini 解答物理題演示案例,圖片來源:谷歌
盡管技術進步顯著,但 AI 生成的虛假或捏造信息的問題依然存在。Eli Collins 指出,這仍是一個未被完全解決的研究難題。
但他同時也強調,Gemini 接受了谷歌迄今最為全面的安全評估,以确保其可靠性和安全性。谷歌對 Gemini 進行了一系列對抗性測試,模拟惡意用户使用模型,并輸入各種提示詞,以檢測模型是否會產生仇恨言論或表現出政治偏見。這些測試包括了 " 真實毒性提示詞 ",由網絡收集的超過 10 萬個提示詞組成,用以全面檢驗模型的反應。
值得注意的是,Gemini 是在谷歌自研的雲芯片 Tensor Processing Units(TPU)上完成訓練的。特别是 TPU v5p 版本,在性能上有了顯著提升,使得模型訓練速度相比前一代提高了 2.8 倍。據悉,TPU v5p 芯片是專為數據中心訓練及大型模型運行而設計。
從 12 月 13 日起,開發人員和企業客户可以通過 Google AI Studio 或 Google Cloud Vertex AI 來訪問 Gemini Pro 模型。Google AI Studio 是一個基于網絡的免費開發工具,為開發人員提供 API 密鑰,從而快速創建原型并啓動應用程式。Vertex AI 提供了定制化的 Gemini 以提供更為全面和管理的人工智能平台,并具有完整的數據控制功能,能利用谷歌雲的額外功能,包括企業級的安全性、隐私保護以及數據治理和合規性。
此外,從 Pixel 8 Pro 設備開始,Android 開發人員還可以通過 Android 14 中的新系統功能 AICore 來使用 Gemini Nano。Gemini Nano 是專為設備端任務設計的高效模型,通過注冊 AICore 的早期預覽版,開發人員可以深入探索其潛力,更便捷地利用 Gemini 的先進技術,并在 Android 生态系統的應用開發中迸發更多可能性。
到 2024 年,谷歌計劃推出 Bard Advanced,它與 AI agent 的初級形态十分相似。Bard Advanced 将借助 Gemini Ultra 提供支持,可以迅速理解多模态輸入,包括文本、影像、音頻和視頻,并作出相應的響應。
谷歌 VS OpenAI
在 OpenAI 的 GPTs 大放異彩時,谷歌似乎過于沉寂了。
今年 2 月,谷歌在巴黎舉行活動時,因其聊天機器人 Bard 的一處失誤,市值蒸發了 1000 億美元,也引發了外界對于 Bard 準确性的擔憂。
随着 OpenAI 推出了 ChatGPT,尤其是在必應搜索中整合了 GPT 技術,并首次在應用程式下載量上超越了谷歌後,人們開始思考谷歌是否在已人工智能領網域落後于競争對手。
事實上,谷歌才是在 2017 年提出的 Transformer 模型、為今天這場遊戲制定規則的先行者。
谷歌對大模型 " 高地 " 的競争意識并不比 OpenAI 晚。2021 年,谷歌便推出了 1.6 萬億參數的 Switch Transformer,強調稀疏多模态結構的潛力。同時,谷歌還提出了 Flan-T5 模型,通過更多監督數據降低了模型規模,比 GPT-3 模型參數更少但性能更佳。
對于技術上的評估,《經濟學人》在今年 1 月曾進行了一項比較測試,向 ChatGPT 和谷歌基于 Lamda 的機器人 Bard 提出了數學、閲讀和約會建議等問題。
測試結果顯示,谷歌 AI 在數學問題上表現更佳,但 ChatGPT 在常識問題上更準确。幾天後 OpenAI 更新了 ChatGPT,再次測試中在數學問題上與谷歌 AI 持平。盡管 ChatGPT 作為一個大型語言模型訓練成本高、迭代難,但也顯示了它持續進化的巨大潛力。值得注意的是,谷歌的語言模型與 ChatGPT 在性能上是旗鼓相當的。
在這場對決中,谷歌和微軟都需要成本效益更高的解決方案。谷歌在 AI 領網域取得了不少研究進展,但尚未将這些成果部署和變現,類似于微軟在過去的某些時期。這可能是因為谷歌低估了微軟和 OpenAI 的競争實力,或者過于自信于自己在搜索引擎領網域的主導地位。
「甲子光年」綜合多方觀點分析得出,谷歌在技術前瞻性上領先,OpenAI 更專注于產品的打磨。
在 Sam Altman 領導下的 OpenAI 專注于產品為導向的工作,致力于擴展和優化模型,主要關注細節精調方法。
谷歌則在技術發展的方向上始終保持着積極和前瞻的态度,不過在整體戰略規劃上卻屢次調整。
谷歌在稀疏模型架構上進行了深入探索。只是兩年後的,萬億級别的 Switch Transformer 幾乎沒產生任何水花,而千億參數級别的 GPTs 系列卻風生水起。同樣,被反復改進的 Flan-T5 模型雖然在性能上超越了 GPT-3,但其優化進展相對緩慢。
在谷歌 " 選擇困難症 " 期間,OpenAI 已經完成了對 ChatGPT 的訓練。
在 2022 年 9 月,谷歌旗下的 DeepMind 推出了麻雀(Sparrow)模型,和 ChatGPT 一樣,采取了基于人類反饋的強化學習(RL)框架。該模型采用了小型參數設定,與谷歌看重的 LaMDA 和 PaLM 模型的思路有明顯不同。只是谷歌并未能迅速确定麻雀模型是否是最優選擇,這也導致了麻雀模型的產品化滞緩,最終未能 " 飛上枝頭變鳳凰 "。
" 猶豫不決 " 似乎一直是谷歌的宿疾。" 但遲到總比不做好!終于有了 OpenAI 王座的有力競争者。" 在 Google 公布消息後,英偉達 AI 科學家 Jim Fan 評論道。
今年 4 月,谷歌将 Google Brain 和 DeepMind 團隊合并,成立 Google DeepMind。有人将這一團隊戲稱為 "AI 復仇者聯盟 "。原 Google AI 產品負責人 Eli Collins 被委以重任,擔任新團隊的產品副總裁。
目前,Gemini Pro 和 Gemini Nano 已在聊天機器人 Bard 和智能手機 Pixel 8 Pro 上集成,實現了更為高級的推理、規劃、理解等能力。而更為強大的 Gemini Ultra 将在明年發布。
不知 OpenAI 會如何 " 應戰 " 呢?或許我們很快便可以等到 GPT-5 的發布了。
不過,優等生谷歌并不完全在意這一時之戰,而是在着眼未來。
" 我們對答案的探索将在未來 25 年推動非凡的技術進步。到 2048 年時,如果有一位青少年在世界上的某個地方,看着我們用人工智能建造的一切聳聳肩,我們就知道我們成功了。然後,我們就回去工作。"
谷歌 CEO Sundar Pichai 在谷歌成立 25 周年公開信中如是説。
參考資料:
《Introducing Gemini: our largest and most capable AI model》,谷歌 《ChatGPT 大熱,谷歌為何在自己的地盤輸給 OpenAI?》,界 / 面新聞