今天小編分享的科技經驗:新大模型能超GPT-4,Bard全面更新,谷歌反擊ChatGPT,歡迎閲讀。
機器之心報道
機器之心編輯部
連今年的安卓 14 上都有生成式 AI,還不止一種。
一年一度的谷歌 I/O 總是吸引着全球開發者的眼球,今年 AI 技術有重大突破,大家的關注度更高了。
當地時間 5 月 10 日上午,加州山景城的海岸圓形劇場座無虛席,今年的大會正式開幕。
「AI 正在度過忙碌的一年,而谷歌作為人工智能優先公司的旅程已經七年了,我們正處于一個轉捩點,」谷歌首席執行官桑達爾・皮查伊(Sundar Pichai)説道。「通過生成式 AI 技術,我們正在邁出下一步。」
在 ChatGPT 推出之後,人們都很關心谷歌的「反擊策略」。在今天凌晨長達兩個小時的演講中,谷歌從算法、軟體講到硬體,又通篇都在講人工智能,最新的大模型技術,已經應用在了谷歌產品體系的方方面面。
PaLM 二代模型
支持多語言、更強的數學、代碼能力
首先,谷歌給出了自己對标 GPT-4 的大模型 PaLM 2。
要説這一波 AI 技術突破的源頭,或許可以追溯到 2017 年谷歌提出的 transformer 架構,它已成為絕大多數現代大語言模型的基石。
在過去的幾年裏,谷歌除了在大模型上不斷進步之外,也采用了許多創造性的新技術來構建功能更強大、用途更廣的模型。這些技術是新一代語言模型 PaLM 2 的核心。PaLM 基于谷歌 Pathways 架構,其第一個版本的模型于 2022 年 4 月發布。
谷歌 I/O 大會上,皮查伊宣布推出 PaLM 2 預覽版本,改進了數學、代碼、推理、多語言翻譯和自然語言生成能力,利用谷歌最新的 TPU 算力基礎設施提升了訓練速度。由于它的構建方式是将計算、優化擴展、改進的數據集混合以及模型架構改進結合在一起,因此服務效率更高,同時整體表現更好。
會上,谷歌并沒有給出有關 PaLM 2 的具體技術細節,只説明了它是構建在谷歌最新 JAX 和 TPU v4 之上。PaLM 2 模型提供了不同尺寸規模的四個版本,從小到大依次為 Gecko、Otter、Bison 和 Unicorn,更易于針對各種用例進行部署。其中輕量級的 Gecko 模型可以在移動設備上運行,速度非常快,不聯網也能在設備上運行出色的互動式應用程式。
皮查伊表示,PaLM 2 模型在常識推理、數學和邏輯領網域表現更好。為此,谷歌在大量包含數學表達式的科學論文和網頁上進行了訓練,可以輕松解決數學難題、推理文本甚至可以輸出圖表。
從基準測試上可以看到,對于具有思維鏈 prompt 或自洽性的 MATH、GSM8K 和 MGSM 基準評估,PaLM 2 的部分結果超越了 GPT-4。
PaLM 2 是在具有 100 + 語言的語料庫上進行訓練的,因此它更擅長多語言任務,能夠理解、生成和翻譯比以往模型更細致多樣化的文本(包括習語、詩歌和謎語等)。PaLM 2 通過了「精通」(mastery)級别的高級語言能力考試。
與此同時,PaLM 2 改進了對代碼編寫和調試的支持,在 20 種編程語言上進行了訓練,包括 Python 和 JavaScript 等流行語言以及 Prolog、Verilog 和 Fortran 等其他更專業的語言。PaLM 2 構成了 Codey 的基礎,它是谷歌用于編碼和調試的專用模型,作為代碼補全和生成衣務的一部分推出。
皮查伊現場演示了 PaLM 2 的代碼調試功能,輸入指令「你能修復這段代碼的一個 bug,并添加一行一行的韓文注釋嗎?」,結果如下動圖所示。
谷歌内部已經有超過 70 個產品團隊正在使用 PaLM 2 構建產品,包括分别針對安全知識和醫療知識微調而成的 Sec-PaLM 和 Med-PaLM 2。
其中 Sec-PaLM 是專注于安全用例的版本,使用 AI 幫助分析和解釋具有潛在惡意腳本的行為,并檢測哪些腳本對個人或組織構成威脅。Med-PaLM 2 可以檢索醫學知識、回答問題、生成有用的模板和解碼醫學術語,甚至還可以從影像中合成患者信息,例如胸部 X 光檢查或乳房 X 光檢查。值得強調的是,Med-PaLM 2 是首個達到專家水平的大語言模型。
皮查伊在會上展示了 Med-PaLM 2 的醫療内容生成效果。
目前,開發者可以通過谷歌的 PaLM API、Firebase 以及 Colab 訪問 PaLM 2。皮查伊還表示,PaLM 2 将繼續為谷歌最新的 Bard 提供支持。
在皮查伊演講的同時,谷歌放出了 PaLM 2 的論文,整整 91 頁。但令人失望的是,PaLM 2 論文遠沒初代 PaLM 有誠意,和 GPT-4 一樣,更像是技術報告。
論文地址:https://ai.google/static/documents/palm2techreport.pdf
另外,在 Google Brain 和 DeepMind 合并之後,新的大模型也在研制過程當中。皮查伊表示現在谷歌的研究重心正在轉向 Gemini,這是一種多模态和高效的機器學習工具。
谷歌并未透露 Gemini 的更多信息,我們只知道該模型是在今年才開始研發的,将具有像 GPT-4 一樣的萬億參數。目前 Gemini 仍在訓練中,但已經展示出了以往模型中從未見過的多模态能力。一旦經過微調和嚴格的安全性測試,谷歌同樣将提供不同尺寸和功能的 Gemini 版本,以确保部署在不同的產品、應用和設備上。
多模态版 Bard,能用 Adobe Firefly 畫圖
皮查伊表示,現在的谷歌 Bard 已經完全運行在了新一代模型 PaLM 2 上。在 I/O 大會上,ChatGPT 和新必應的競争對手 Bard 經歷了大幅更新,包括影像功能、編碼功能和應用程式集成。
「PaLM 2 模型在邏輯和推理方面比以往的模型更加強大,這要歸功于對邏輯和推理的廣泛訓練,」皮查伊表示。「它還接受了跨越 100 多種語言的多語言文本訓練。」
Bard 将在回復和你給更復雜提示後給出更加直觀的内容。你可以問它諸如「新奧爾良有哪些必看景點?」之類的問題,除了文本之外,你可以獲得更有意義的回復,以及豐富的視覺内容。
和 GPT-4 一樣,你還可以在自己的要求中附加影像和文本。比如像這樣,為這張照片想一個有趣的标題:
Bard 作為生產力工具和搜索引擎之間的工具,最新版的改進有關易用性。首先是加入了引用,現在 AI 生成的回答将通過展示特定代碼塊的來源(也是鏈接)來确保代碼引用更加準确,這也适用于從網絡上引用叙述性内容。
其次是導出按鈕。如果 AI 生成的内容接近于實用化,我們肯定會希望能夠更快捷地使用這些結果。現在,人們能把内容快速導出到 Colab 和 Replit 上,進一步構建和迭代自己的想法。當然文字也是可以的,如果你讓 Bard 寫郵件,那麼它也可以一鍵直接用 Gmail 發送,或新建一個 Docs 檔案。
未來,谷歌還計劃集成的應用還包括 Sheets、Slides、Calendar、Keep、Tasks、Maps、Photos、Messages、Flights、YouTube、YT Music、Google Images、Imagen、OpenTable、Replit,以及 Adobe 的 Firefly。
谷歌表示,Bard 很快就會支持各種第三方擴展,例如 AI 可以自動根據你輸入的文本生成影像,使用的還是 Adobe 那個神奇的 Firefly:
人們反映最多的問題是:Bard 一直僅限于英國和美國使用。谷歌這次直接宣布 Bard 覆蓋全球 180 個國家和地區,并取消了候選名單,現在立即人人可用。在語言方面,谷歌這次增加了日語和韓語,預計會在今年 7 月讓 Bard 支持全球「使用量排名前 40」的語言。
下一代安卓,AI 可以幫你回短信
I/O 大會上,谷歌還展示了下一代移動作業系統 Android 14 的新能力。
Magic Compose 将于今年夏天在谷歌的默認短信應用 Message 中推出測試版,它是一種基于 AI 生成模型的工具,讓你在回短信的時候根據聊天内容獲得大量提示。它會學習你的説話方式,你也可以讓自己的回復内容看起來有不同的語氣,或者用莎士比亞的風格來寫。
谷歌還使用生成式 AI 來幫你制作獨一無二的手機桌面,和 AI 畫圖一樣使用語言提示完成:
你可以 AI 建議的提示來描述你的最終創意願景,這要歸功于谷歌的文本到影像擴散模型。在該功能上,谷歌使用了公共領網域的訓練數據,應該可以保證系統不會創建受版權保護的影像。
另外,谷歌也發布了 Pixel 7a、Pixel Tablet,還有自己的首款折疊屏手機 Pixel Fold,售價 1799 美元,新的硬體将于夏天正式開賣。
随着新模型 PaLM 2 的引入,全系列工具的 AI 化更新,谷歌在大語言模型的應用上可謂來到了和微軟同一個身位,甚至還再次領先了。在 I/O 大會進行的同時,谷歌的股價也大漲了 5%。但現在真的可以説 Bard 能和 ChatGPT 媲美了嗎?等我們用上了新版本,或許就有答案了。
© THE END
轉載請聯系本公眾号獲得授權
投稿或尋求報道:[email protected]