谷歌AI春晚宣告Gemini時代将至，10倍能效10倍上下文碾壓OpenAI？

今天小編分享的互聯網經驗：谷歌AI春晚宣告Gemini時代将至，10倍能效10倍上下文碾壓OpenAI？，歡迎閲讀。

文｜李然虞景霖

編輯｜李然

封面來源｜官方視頻截圖

看過了昨天 OpenAI 雖然短但是科幻感極強的發布會，相信所有人都在期待一天後的谷歌将會給出怎樣的回應。

如果説前一天 OpenAI 的發布會是一道精致的法餐，谷歌的 I/O 大會絕對算得上是一道量大管飽，誠意滿滿的滿漢全席——谷歌端出了最新的大模型，全模态 AI 助手，開源視覺模型，視頻生成模型，再到算力芯片等等一系列 AI 行業中最頂級的產品和技術前來應對。

整場發布會看下來，谷歌一洗前兩年發布會結束都會給自己造成公關危機的 " 前恥 "，通過自己深厚的技術積累，強大的工程能力和豐富的產品生态，向世人展現了一個自信且目标遠大的 AI 大廠應該有的樣子。

具體來説，谷歌是唯一一家同時擁有自己的原生支持從文字到視頻的多模态大模型，觸及全球幾十億用户的 AI 應用場景，完全自主的 AI 算力芯片的科技大廠。谷歌在 AI 領網域中提前下的這些 " 硬功夫 "，一定會在未來繼續奔湧的 AI 大潮中結出豐碩的果實。

被 OpenAI 截胡的 Project Astra，不夠驚喜但足夠驚豔

縱觀整個發布會，最讓人眼前一亮的發布就是這個幾乎和 OpenAI 提前一天發布的基于 GPT-4o 的 AI 個人助理一樣的 Project Astra。不過可惜的是，因為 OpenAI 的搶跑，它成為了世界上第二個多模态 AI 助手。

官方視頻截圖

我們先來看看谷歌放出的 Project Astra 演示效果。注意，DeepMind Hassabis 專門介紹，這個視頻是在真實環境中一次拍攝完成的效果。

可以看到，Project Astra 也能實時的感知外部環境，并根據用户提出的問題進行非常智能的反饋。視頻中，它向用户提供了包括代碼編寫，生活常識建議，周圍環境的理解和識别，甚至能記住之前看到過的物品擺放位置。

可以説，相比 OpenAI 強調的自然人機互動，Project Astra 的宣傳視頻看起來真的更智能，更加科幻。如果説 OpenAI 的 GPT-4o 是把電影《Her》中的 Samantha 搬進了現實，那麼 Project Astra 真的有鋼鐵俠 Javis 那味了。

根據 DeepMind CEO Hassabis 的説法，Project Astra 可以理解空間，處理視頻輸入，并且能夠記憶之前處理過的内容。

基于 Gemini 強大的原生多模态能力和超長的上下文，對于視頻的理解和記憶确實讓人看到了科幻電影中那種無所不能的智能助手的影子了。

不過稍顯可惜的是，Project Astra 依然還只是一個原型，實際的產品可能短期之内還難以上線，但是詳細在技術層面厚積薄發，在產品層面又能集中力量辦大事的谷歌，希望未來不會讓用户們失望。

Gemini 時代到來，10 倍上下文 10 倍能效碾壓 OpenAI？

作為谷歌 AI 的拳頭產品，Gemini 從去年底發布之後，其長達 100 萬 token 的上下文長度已經吸引了全世界超過 100 萬開發者用户。

用户憑借它超強的上下文能力，可以将大量的文檔和數據一次性處理，讓 Geimini 輸出復雜的結果。

而且因為 Gemini 原生的多模态能力，它能除了使用文字之外，在輸出中還可以包括圖片等多模态的結果和代碼。

從 5 月 15 日起，Gemini 1.5 Pro 的 100 萬 token 上下文能力通過谷歌的 Gemini Advanced 服務向全球的普通用户開放。

而未來，Gemini 1.5 Pro 将陸續開放 200 萬 token 的上下文能力。

而作為像谷歌這樣產品眾多的大公司，Gemini 的除了直接服務用户，它與現有的谷歌應用結合在一起，将會迸發出更大的能量。

Gemini Flash ——輕量版的 Gemini Pro，價格直接打骨折

谷歌針對 Gemini 依然還在不斷做出優化，此次推出的 Gemini Flash 可以看做是類似 GPT-4 向 GPT-4Turbo 的更新。

而在支持的功能上，Gemini 1.5 Flash 也和 Gemini 1.5 Pro 一樣，是一個原生多模态的大模型，而且也支持 100 萬 token 的上下文。

相比與 Gemini Pro， Gemini Flash 有着更高的推理性能和低得多的價格，但是性能幾乎沒有太大的下降。

在谷歌官披露的價格，Gemini Flash 的價格基本上只有 Gemini Pro 和其他主流大模型 API 價格的 1/10。

從這個 API 的定價能看出，谷歌通過自己在能耗和效率上非常有優勢的 TPU，把大模型推理的成本降到了一個令人發指的程度。相信在如此低廉價格的吸引之下，未來會有越來越多的開發者轉向谷歌的模型。

為了幫助用户能更加自然的與 Gemini 對話，谷歌将會上線 Gemini Live。用户可以通過手機和 Gemini 直接進行語音互動。它可以幫助用户練習面試，直接回答生活中的難題。而且在今年年底，Live 還将支持視頻攝像功能。

計劃行程這種頭疼的差事兒，也可以甩給 Gemini Live。你只需告訴它你的時間、目的地、興趣愛好等，它就能幫你制定一份個性化行程，包括景點、餐廳、活動，連路線時長都安排得明明白白。有變動還能自動更新，簡直是旅行規劃小能手。

此外，Gemini Live 還能與谷歌日歷、任務、備忘錄等應用無縫連接。拍張課程大綱，它就能自動為每項作業創建日歷提醒；或者把新 get 的菜譜拍下來，食材清單就自動同步到備忘錄裏了。

未來，借助 Gemini Live 作為入口，Gemini 的能力将和谷歌生态中的各項應用深度融合，真正将大模型能力匯入我們的生活當中。

谷歌同時也在 Gemini 平台上推出 Gems ——谷歌版 GPTs。用户可以根據自己的需求創建專屬于自己的 AI 助手：為你指定日常鍛煉計劃，用積極向上、充滿激情的語氣鼓勵你堅持的健身夥伴 Gem, 又或者是烹饪助手 Gem、編程搭檔 Gem ……

谷歌 AI 帝國的硬體基石—— Trillium

谷歌作為唯一一家擁有 AI 算力芯片的大模型公司，也發布了他們第 6 代 TPU —— Trillium。谷歌宣稱，在今天 I/O 大會上發布的幾乎所有 AI 產品，背後都有 TPU 的支持。

和上一代 TPU v5e 相比，Trillium TPU 的每芯片峰值計算性能提高了 4.7 倍，高帶寬内存 ( HBM ) 容量和帶寬提高了一倍，芯片間互聯 ( ICI ) 帶寬也提高了一倍，能效提高了 67%。

此外，Trillium 配備了第三代 SparseCore，這是一種專門用于處理高級排名和推薦工作負載中常見的超大嵌入的專業加速器。Trillium TPU 使谷歌能夠更快地訓練下一代基礎模型，并以更短的延遲和更低的成本為這些模型提供服務。

Trillium 可以在單個高帶寬、低延遲的 Pod 中擴展到最多 256 個 TPU。除了這種 Pod 級别的可擴展性外，通過多切片技術和钛智能處理單元 ( IPU ) ，Trillium TPU 可以擴展到數百個 Pod，通過每秒數 PB 的數據中心網絡連接大樓規模的超級計算機中的數萬個芯片。

可以説，正是因為谷歌牢牢的掌握了自己的 " 算力自由 "，才能在全世界都被英偉達割韭菜的 AI 浪潮中獨享低成本高效率帶來的優勢，按照自己的節奏一步一步建立起 AI 帝國。

開源社區狂歡，谷歌發布首個開源視覺大模型

而面對開源社區的期待，谷歌這次也是誠意滿滿，發布了新的開源大模型 Gema 2。

官網截屏

而且還發布首個開源的視覺大模型 PaliGemma！

網頁截屏

Hugging Face：https://huggingface.co/google

Gema 2 按照谷歌的説法，是目前開源模型中效率和性能結合得最好的模型。

Gema 2 27B 以不到 Llama 3 70B 一半的體量提供了與 Llama 3 70B 相當的性能，為開源模型設立的新的性能标杆。

而且 Gema 2 的 S 高效設計使其适合的計算量不到同類模型的一半。27B 機型經過優化，可以在英偉達的 GPU 或者 Vertex AI 中的單個 TPU 主機上高效運行，讓用户更容易進行部署，并且更具成本效益。

而且 Gema 2 将為開發人員提供跨不同平台和工具生态系統的強大微調能力。從像 Google Cloud 這樣的基于雲的解決方案到像 Axolotl 這樣的流行社區工具，Gema 2 的微調将比以往任何時候都更加容易。此外，與 Hugging Face 和英偉達 TensorRT-LLM 的無縫合作夥伴集成，再加上谷歌自己的 JAX 和 KERAS，确保用户可以優化性能并在各種硬體配置中高效部署。