新大模型能超GPT-4，Bard全面更新，谷歌反擊ChatGPT

今天小編分享的科技經驗：新大模型能超GPT-4，Bard全面更新，谷歌反擊ChatGPT，歡迎閲讀。

機器之心報道

機器之心編輯部

連今年的安卓 14 上都有生成式 AI，還不止一種。

一年一度的谷歌 I/O 總是吸引着全球開發者的眼球，今年 AI 技術有重大突破，大家的關注度更高了。

當地時間 5 月 10 日上午，加州山景城的海岸圓形劇場座無虛席，今年的大會正式開幕。

‍

「AI 正在度過忙碌的一年，而谷歌作為人工智能優先公司的旅程已經七年了，我們正處于一個轉捩點，」谷歌首席執行官桑達爾・皮查伊（Sundar Pichai）説道。「通過生成式 AI 技術，我們正在邁出下一步。」

在 ChatGPT 推出之後，人們都很關心谷歌的「反擊策略」。在今天凌晨長達兩個小時的演講中，谷歌從算法、軟體講到硬體，又通篇都在講人工智能，最新的大模型技術，已經應用在了谷歌產品體系的方方面面。

PaLM 二代模型

支持多語言、更強的數學、代碼能力

首先，谷歌給出了自己對标 GPT-4 的大模型 PaLM 2。

要説這一波 AI 技術突破的源頭，或許可以追溯到 2017 年谷歌提出的 transformer 架構，它已成為絕大多數現代大語言模型的基石。

在過去的幾年裏，谷歌除了在大模型上不斷進步之外，也采用了許多創造性的新技術來構建功能更強大、用途更廣的模型。這些技術是新一代語言模型 PaLM 2 的核心。PaLM 基于谷歌 Pathways 架構，其第一個版本的模型于 2022 年 4 月發布。

谷歌 I/O 大會上，皮查伊宣布推出 PaLM 2 預覽版本，改進了數學、代碼、推理、多語言翻譯和自然語言生成能力，利用谷歌最新的 TPU 算力基礎設施提升了訓練速度。由于它的構建方式是将計算、優化擴展、改進的數據集混合以及模型架構改進結合在一起，因此服務效率更高，同時整體表現更好。

會上，谷歌并沒有給出有關 PaLM 2 的具體技術細節，只説明了它是構建在谷歌最新 JAX 和 TPU v4 之上。PaLM 2 模型提供了不同尺寸規模的四個版本，從小到大依次為 Gecko、Otter、Bison 和 Unicorn，更易于針對各種用例進行部署。其中輕量級的 Gecko 模型可以在移動設備上運行，速度非常快，不聯網也能在設備上運行出色的互動式應用程式。

皮查伊表示，PaLM 2 模型在常識推理、數學和邏輯領網域表現更好。為此，谷歌在大量包含數學表達式的科學論文和網頁上進行了訓練，可以輕松解決數學難題、推理文本甚至可以輸出圖表。

從基準測試上可以看到，對于具有思維鏈 prompt 或自洽性的 MATH、GSM8K 和 MGSM 基準評估，PaLM 2 的部分結果超越了 GPT-4。

PaLM 2 是在具有 100 + 語言的語料庫上進行訓練的，因此它更擅長多語言任務，能夠理解、生成和翻譯比以往模型更細致多樣化的文本（包括習語、詩歌和謎語等）。PaLM 2 通過了「精通」（mastery）級别的高級語言能力考試。

與此同時，PaLM 2 改進了對代碼編寫和調試的支持，在 20 種編程語言上進行了訓練，包括 Python 和 JavaScript 等流行語言以及 Prolog、Verilog 和 Fortran 等其他更專業的語言。PaLM 2 構成了 Codey 的基礎，它是谷歌用于編碼和調試的專用模型，作為代碼補全和生成衣務的一部分推出。

皮查伊現場演示了 PaLM 2 的代碼調試功能，輸入指令「你能修復這段代碼的一個 bug，并添加一行一行的韓文注釋嗎？」，結果如下動圖所示。

谷歌内部已經有超過 70 個產品團隊正在使用 PaLM 2 構建產品，包括分别針對安全知識和醫療知識微調而成的 Sec-PaLM 和 Med-PaLM 2。

其中 Sec-PaLM 是專注于安全用例的版本，使用 AI 幫助分析和解釋具有潛在惡意腳本的行為，并檢測哪些腳本對個人或組織構成威脅。Med-PaLM 2 可以檢索醫學知識、回答問題、生成有用的模板和解碼醫學術語，甚至還可以從影像中合成患者信息，例如胸部 X 光檢查或乳房 X 光檢查。值得強調的是，Med-PaLM 2 是首個達到專家水平的大語言模型。

皮查伊在會上展示了 Med-PaLM 2 的醫療内容生成效果。

目前，開發者可以通過谷歌的 PaLM API、Firebase 以及 Colab 訪問 PaLM 2。皮查伊還表示，PaLM 2 将繼續為谷歌最新的 Bard 提供支持。

在皮查伊演講的同時，谷歌放出了 PaLM 2 的論文，整整 91 頁。但令人失望的是，PaLM 2 論文遠沒初代 PaLM 有誠意，和 GPT-4 一樣，更像是技術報告。

論文地址：https://ai.google/static/documents/palm2techreport.pdf

另外，在 Google Brain 和 DeepMind 合并之後，新的大模型也在研制過程當中。皮查伊表示現在谷歌的研究重心正在轉向 Gemini，這是一種多模态和高效的機器學習工具。

谷歌并未透露 Gemini 的更多信息，我們只知道該模型是在今年才開始研發的，将具有像 GPT-4 一樣的萬億參數。目前 Gemini 仍在訓練中，但已經展示出了以往模型中從未見過的多模态能力。一旦經過微調和嚴格的安全性測試，谷歌同樣将提供不同尺寸和功能的 Gemini 版本，以确保部署在不同的產品、應用和設備上。

多模态版 Bard，能用 Adobe Firefly 畫圖

皮查伊表示，現在的谷歌 Bard 已經完全運行在了新一代模型 PaLM 2 上。在 I/O 大會上，ChatGPT 和新必應的競争對手 Bard 經歷了大幅更新，包括影像功能、編碼功能和應用程式集成。

「PaLM 2 模型在邏輯和推理方面比以往的模型更加強大，這要歸功于對邏輯和推理的廣泛訓練，」皮查伊表示。「它還接受了跨越 100 多種語言的多語言文本訓練。」

Bard 将在回復和你給更復雜提示後給出更加直觀的内容。你可以問它諸如「新奧爾良有哪些必看景點？」之類的問題，除了文本之外，你可以獲得更有意義的回復，以及豐富的視覺内容。

和 GPT-4 一樣，你還可以在自己的要求中附加影像和文本。比如像這樣，為這張照片想一個有趣的标題：

Bard 作為生產力工具和搜索引擎之間的工具，最新版的改進有關易用性。首先是加入了引用，現在 AI 生成的回答将通過展示特定代碼塊的來源（也是鏈接）來确保代碼引用更加準确，這也适用于從網絡上引用叙述性内容。

其次是導出按鈕。如果 AI 生成的内容接近于實用化，我們肯定會希望能夠更快捷地使用這些結果。現在，人們能把内容快速導出到 Colab 和 Replit 上，進一步構建和迭代自己的想法。當然文字也是可以的，如果你讓 Bard 寫郵件，那麼它也可以一鍵直接用 Gmail 發送，或新建一個 Docs 檔案。

未來，谷歌還計劃集成的應用還包括 Sheets、Slides、Calendar、Keep、Tasks、Maps、Photos、Messages、Flights、YouTube、YT Music、Google Images、Imagen、OpenTable、Replit，以及 Adobe 的 Firefly。

谷歌表示，Bard 很快就會支持各種第三方擴展，例如 AI 可以自動根據你輸入的文本生成影像，使用的還是 Adobe 那個神奇的 Firefly：