今天小編分享的互聯網經驗:谷歌AI春晚宣告Gemini時代将至,10倍能效10倍上下文碾壓OpenAI?,歡迎閱讀。
文|李然 虞景霖
編輯|李然
封面來源|官方視頻截圖
看過了昨天 OpenAI 雖然短但是科幻感極強的發布會,相信所有人都在期待一天後的谷歌将會給出怎樣的回應。
如果說前一天 OpenAI 的發布會是一道精致的法餐,谷歌的 I/O 大會絕對算得上是一道量大管飽,誠意滿滿的滿漢全席——谷歌端出了最新的大模型,全模态 AI 助手,開源視覺模型,視頻生成模型,再到算力芯片等等一系列 AI 行業中最頂級的產品和技術前來應對。
整場發布會看下來,谷歌一洗前兩年發布會結束都會給自己造成公關危機的 " 前恥 ",通過自己深厚的技術積累,強大的工程能力和豐富的產品生态,向世人展現了一個自信且目标遠大的 AI 大廠應該有的樣子。
具體來說,谷歌是唯一一家同時擁有自己的原生支持從文字到視頻的多模态大模型,觸及全球幾十億用戶的 AI 應用場景,完全自主的 AI 算力芯片的科技大廠。谷歌在 AI 領網域中提前下的這些 " 硬功夫 ",一定會在未來繼續奔湧的 AI 大潮中結出豐碩的果實。
被 OpenAI 截胡的 Project Astra,不夠驚喜但足夠驚豔
縱觀整個發布會,最讓人眼前一亮的發布就是這個幾乎和 OpenAI 提前一天發布的基于 GPT-4o 的 AI 個人助理一樣的 Project Astra。不過可惜的是,因為 OpenAI 的搶跑,它成為了世界上第二個多模态 AI 助手。
官方視頻截圖
我們先來看看谷歌放出的 Project Astra 演示效果。注意,DeepMind Hassabis 專門介紹,這個視頻是在真實環境中一次拍攝完成的效果。
可以看到,Project Astra 也能實時的感知外部環境,并根據用戶提出的問題進行非常智能的反饋。視頻中,它向用戶提供了包括代碼編寫,生活常識建議,周圍環境的理解和識别,甚至能記住之前看到過的物品擺放位置。
可以說,相比 OpenAI 強調的自然人機互動,Project Astra 的宣傳視頻看起來真的更智能,更加科幻。如果說 OpenAI 的 GPT-4o 是把電影《Her》中的 Samantha 搬進了現實,那麼 Project Astra 真的有鋼鐵俠 Javis 那味了。
根據 DeepMind CEO Hassabis 的說法,Project Astra 可以理解空間,處理視頻輸入,并且能夠記憶之前處理過的内容。
基于 Gemini 強大的原生多模态能力和超長的上下文,對于視頻的理解和記憶确實讓人看到了科幻電影中那種無所不能的智能助手的影子了。
不過稍顯可惜的是,Project Astra 依然還只是一個原型,實際的產品可能短期之内還難以上線,但是詳細在技術層面厚積薄發,在產品層面又能集中力量辦大事的谷歌,希望未來不會讓用戶們失望。
Gemini 時代到來,10 倍上下文 10 倍能效碾壓 OpenAI?
作為谷歌 AI 的拳頭產品,Gemini 從去年底發布之後,其長達 100 萬 token 的上下文長度已經吸引了全世界超過 100 萬開發者用戶。
用戶憑借它超強的上下文能力,可以将大量的文檔和數據一次性處理,讓 Geimini 輸出復雜的結果。
而且因為 Gemini 原生的多模态能力,它能除了使用文字之外,在輸出中還可以包括圖片等多模态的結果和代碼。
從 5 月 15 日起,Gemini 1.5 Pro 的 100 萬 token 上下文能力通過谷歌的 Gemini Advanced 服務向全球的普通用戶開放。
而未來,Gemini 1.5 Pro 将陸續開放 200 萬 token 的上下文能力。
而作為像谷歌這樣產品眾多的大公司,Gemini 的除了直接服務用戶,它與現有的谷歌應用結合在一起,将會迸發出更大的能量。
Gemini Flash ——輕量版的 Gemini Pro,價格直接打骨折
谷歌針對 Gemini 依然還在不斷做出優化,此次推出的 Gemini Flash 可以看做是類似 GPT-4 向 GPT-4Turbo 的更新。
而在支持的功能上,Gemini 1.5 Flash 也和 Gemini 1.5 Pro 一樣,是一個原生多模态的大模型,而且也支持 100 萬 token 的上下文。
相比與 Gemini Pro, Gemini Flash 有着更高的推理性能和低得多的價格,但是性能幾乎沒有太大的下降。
在谷歌官披露的價格,Gemini Flash 的價格基本上只有 Gemini Pro 和其他主流大模型 API 價格的 1/10。
從這個 API 的定價能看出,谷歌通過自己在能耗和效率上非常有優勢的 TPU,把大模型推理的成本降到了一個令人發指的程度。相信在如此低廉價格的吸引之下,未來會有越來越多的開發者轉向谷歌的模型。
為了幫助用戶能更加自然的與 Gemini 對話,谷歌将會上線 Gemini Live。用戶可以通過手機和 Gemini 直接進行語音互動。它可以幫助用戶練習面試,直接回答生活中的難題。而且在今年年底,Live 還将支持視頻攝像功能。
計劃行程這種頭疼的差事兒,也可以甩給 Gemini Live。你只需告訴它你的時間、目的地、興趣愛好等,它就能幫你制定一份個性化行程,包括景點、餐廳、活動,連路線時長都安排得明明白白。有變動還能自動更新,簡直是旅行規劃小能手。
此外,Gemini Live 還能與谷歌日歷、任務、備忘錄等應用無縫連接。拍張課程大綱,它就能自動為每項作業創建日歷提醒;或者把新 get 的菜譜拍下來,食材清單就自動同步到備忘錄裡了。
未來,借助 Gemini Live 作為入口,Gemini 的能力将和谷歌生态中的各項應用深度融合,真正将大模型能力匯入我們的生活當中。
谷歌同時也在 Gemini 平台上推出 Gems ——谷歌版 GPTs。用戶可以根據自己的需求創建專屬于自己的 AI 助手:為你指定日常鍛煉計劃,用積極向上、充滿激情的語氣鼓勵你堅持的健身夥伴 Gem, 又或者是烹饪助手 Gem、編程搭檔 Gem ……
谷歌 AI 帝國的硬體基石—— Trillium
谷歌作為唯一一家擁有 AI 算力芯片的大模型公司,也發布了他們第 6 代 TPU —— Trillium。谷歌宣稱,在今天 I/O 大會上發布的幾乎所有 AI 產品,背後都有 TPU 的支持。
和上一代 TPU v5e 相比,Trillium TPU 的每芯片峰值計算性能提高了 4.7 倍,高帶寬内存 ( HBM ) 容量和帶寬提高了一倍,芯片間互聯 ( ICI ) 帶寬也提高了一倍,能效提高了 67%。
此外,Trillium 配備了第三代 SparseCore,這是一種專門用于處理高級排名和推薦工作負載中常見的超大嵌入的專業加速器。Trillium TPU 使谷歌能夠更快地訓練下一代基礎模型,并以更短的延遲和更低的成本為這些模型提供服務。
Trillium 可以在單個高帶寬、低延遲的 Pod 中擴展到最多 256 個 TPU。除了這種 Pod 級别的可擴展性外,通過多切片技術和钛智能處理單元 ( IPU ) ,Trillium TPU 可以擴展到數百個 Pod,通過每秒數 PB 的數據中心網絡連接大樓規模的超級計算機中的數萬個芯片。
可以說,正是因為谷歌牢牢的掌握了自己的 " 算力自由 ",才能在全世界都被英偉達割韭菜的 AI 浪潮中獨享低成本高效率帶來的優勢,按照自己的節奏一步一步建立起 AI 帝國。
開源社區狂歡,谷歌發布首個開源視覺大模型
而面對開源社區的期待,谷歌這次也是誠意滿滿,發布了新的開源大模型 Gema 2。
官網截屏
而且還發布首個開源的視覺大模型 PaliGemma!
網頁截屏
Hugging Face:https://huggingface.co/google
Gema 2 按照谷歌的說法,是目前開源模型中效率和性能結合得最好的模型。
Gema 2 27B 以不到 Llama 3 70B 一半的體量提供了與 Llama 3 70B 相當的性能,為開源模型設立的新的性能标杆。
而且 Gema 2 的 S 高效設計使其适合的計算量不到同類模型的一半。27B 機型經過優化,可以在英偉達的 GPU 或者 Vertex AI 中的單個 TPU 主機上高效運行,讓用戶更容易進行部署,并且更具成本效益。
而且 Gema 2 将為開發人員提供跨不同平台和工具生态系統的強大微調能力。從像 Google Cloud 這樣的基于雲的解決方案到像 Axolotl 這樣的流行社區工具,Gema 2 的微調将比以往任何時候都更加容易。此外,與 Hugging Face 和英偉達 TensorRT-LLM 的無縫合作夥伴集成,再加上谷歌自己的 JAX 和 KERAS,确保用戶可以優化性能并在各種硬體配置中高效部署。
而 PaliGema 是一個受 Pali-3 啟發的強大的開源 VLM。PaliGema 專為在各種視覺語言任務上進行了微調,能完成包括影像和短視頻字幕、視覺問題回答、理解影像中的文本、對象檢測和對象分割等任務。
OpenAI 的 AI 搜索沒有等來,谷歌的讓人驚喜不已
谷歌正在從頭到尾将 AI 全面融入它的搜索引擎,可謂一場全方位的 AI 革命。谷歌 CEO 劈柴在前幾天的專訪中,專門提到了 AI 搜索,對于谷歌來說是不允許失敗的一仗。
當你需要一個快速答案卻沒時間自己拼湊信息時,就可以讓 "AI 概覽 "(AI Overview)來代勞。用谷歌搜索新任掌門人 Liz Reid 的話說就是:生成式 AI 讓谷歌可以 " 帶你完成更多搜索工作 ",專注于用戶真正想做的事。
這項功能已開始在美國上線,陸續将登陸更多國家。谷歌預計,到今年年底,将有超過 10 億人獲得訪問權限。
數據顯示,AI 概覽中的鏈接較傳統網頁列表更容易獲得點擊。未來,随着這一功能的拓展,谷歌将持續關注為出版商和創作者帶來有價值的流量。
多步推理,一次到位,解決復雜問題
借助 Gemini 模型的多步推理能力,AI 概覽将幫助用戶更復雜問題。用戶可以一次性提出包含所有細節和注意事項的問題,而不用将問題拆解進行多次搜索。
舉例而言,你想找一家受當地人歡迎、通勤方便且為新客提供優惠的瑜伽或者普拉提工作室,你只需要在搜索框輸入:
找到波士頓最好的瑜伽或普拉提工作室,并展示店鋪的新客優惠及其到 Beacon Hill 步行所需要的時間。
此外還可以讓 AI 概覽為你提供膳食和獨家規劃幫助,例如 " 為一群人制定一個易于準備的 3 天膳食計劃 ",你就可以得到一個包含各種食譜的方案。如果想做出些調整,如将晚餐替換成素食,只需簡單說明,搜索就會自動修改計劃。你還可以快速将計劃導出到 Google Docs 或者 Gmail 中。
當你尋找靈感時,AI 搜索也能和你一起頭腦風暴,創建一個 AI 組織的頁面。你可以看到有用的搜索結果被歸類在不同的标題下面,涵蓋了多種視角。
得益于 Gemini 多模态能力的進步,用戶不僅可以用聲音直接搜歌曲,還可以用 " 圈選搜索 "(Circle to Search)功能圈出圖片中的一部分進行圖片搜索,甚至可以利用視頻查找信息。
例如在舊貨商店買了一台唱片機,但打開開關後卻發現它無法工作,唱針也出現了異常漂移。這時,你可以直接用進行視頻搜索,從而免去了費時費力找合适詞語來描述問題的麻煩,并能獲得一份包含故障排除步驟和資源的 AI 概覽。
目前,以上功能都指向美國地區使用英文搜索的實驗室用戶開放,其他地區還需耐心等待。
視頻、圖片、音樂三管齊下:谷歌多模态進展更新
谷歌在多模态 AI 領網域又有新動作:不僅發布了新的文生視頻生成模型Veo,并更新了文生圖模型Imagen 3。
先說說 Veo,它可以生成各種電影和視覺風格的 1080p 分辨率的高質量視頻,時長還能超過一分鍾。它對自然語言和視覺語義有着深刻的理解,當創作者提到 " 延時攝影 "" 全景航拍 " 這些專業術語,它能準确捕捉你的創意,生成與構想高度匹配的視頻内容。
這樣的 " 懂你 " 的能力,得益于谷歌此前在 GQN、DVD-GAN、Imagen-Video 等領網域的深厚積累。Veo 的推出,意味着谷歌在視頻内容理解、高清渲染、物理模拟等方面都有了質的飛躍。
從這個視頻的效果來看,視頻的長度,變化的多樣性,視頻内容的一致性,與 OpenAI 放出的 Sora 生成的視頻相比一點也不差。
再來看看 Imagen 3,這是是谷歌迄今為止最先進的文本到影像生成模型。與上一代相比,Imagen 3 生成的影像少了許多視覺偽影,質量更上一層樓。不僅如此,它還具備高水平的語義理解能力,可以完美融合長文本提示中的各種細節,并輕松駕馭不同的藝術風格。
作為文本渲染能力的 " 一哥 ",Imagen 3 有望在賀卡、PPT 标題頁等個性化圖文生成任務中大顯身手。
最後,谷歌和 YouTube 聯合推出的Music AI Sandbox也很有看點。他們為音樂人提供了一系列智能工具,并與 Wyclef Jean、Marc Rebillet 等大咖展開合作,持續拓展 Gemini AI 在音樂創作領網域的應用邊界。
作為在 AI 浪潮中起得最早,投入最大的玩家,谷歌正在用自己的實際行動告訴世人,只要趕上了集,不分早晚,都有可能是最後的赢家。