今天小編分享的科技經驗:Google 發布「AI 全家桶」反擊 GPT-4o !搜索引擎罕見大更新, 121 句「AI」道盡焦慮,歡迎閱讀。
昨晚 OpenAI 發布了 ChatGPT-4o 後,壓力就給到了 Google I/O ,仿佛 Google 無論如何也擺脫不了「AI 界的汪峰」這一稱号。
而 Google 則通過近 2 個小時的發布會,提了 121 次 AI ,推出了十餘種新品及更新,可謂「量大管飽」,火力全面覆蓋,但給人的驚喜卻并不多。
我們先給大家一次性總結這場發布會的亮點,更多功能解析請接着往下看。
發布會要點:
Google Search AI:發布了 AI Overviews,加強版 AI 搜索概要功能,多步推理能力上架。
Gemini 大模型:Gemini 1.5 Flash(100 萬上下文);Gemini Pro(200 萬上下文)。
Gemma 大模型:發布開源多模态大模型 Pali Gemma 和 Gemma2。
AI in Google Workspace:用 Gemini 的能力和 Side Panel 的形式,将 Google 系列產品串在一起。
Gemini App:手機版的 Gemini 應用程式,即将支持和 AI 視頻對話,近幾周發布。
Project Astra:最新的多模态 AI 項目,包含 Imagen3、 Music AI Sandbox 和 Veo 等針對影像、音樂、視頻的生成式 AI。
做搜索起家,用搜索王炸
Google Search 是 Google 最大的投資和創新領網域之一,更是它們的創始產品。
25 年前,Google 開啟了搜索功能,今晚 Google 再次拓展了搜索的邊界。
簡單來說,有了 AIGC 的 Google Search,可以做到更多事情:
無論你在想什麼,無論你需要完成什麼,只要問問(它),Google Search 就能找到。
而 Google Search 的一切進化,都是建立在專為其定制的 Gemini 模型上。
Google 在發布會上介紹,「與眾不同」的 Google Search,主要有三個獨特的優勢:
Google 的實時信息包括超過一萬億個關于人、地點和事物的事實
名列前茅的產品,和最好的網絡服務之一
Gemini 的力量
把将這三件事結合在一起,就解鎖了 Google 在搜索領網域的全新能力。
第一個新功能是 AI Review,用戶可以通過在搜索結果的頂部,獲取由 AI 大模型生成的摘要,以此簡化整個搜索過程,讓復雜問題的檢索過程,變得簡單。
Google 稱,到今年年底,将有超過十億人使用 Google Search 中的 AI Review 功能,而且 Google 宣稱,這也将會是其搜索引擎 25 年以來最大的更新之一。
Multi-step reasoning 是 Google Search 中的另一個重磅功能。
通過全新的多步推理,以後我們做一些生活、工作和出行的計劃,會變得非常簡單。
比如你可以通過搜索欄來找到「附近最好的瑜伽館」,随後附近所有關于瑜伽館的評價評分、課程推薦、距離等重要信息,都會被分類成塊,十分清楚地在搜索結果中顯示。
依靠 Google 自有的龐大數據庫,AI 在搜索過程當中可以調用最新、最全的高質量信息,所以搜索結果的準确性和可信性也就有了更多的保障。
目前,Google 在全球包含了超過 2.5 億個地點,并實時更新,當中還包括評分、評論、營業時間等重要信息。
Planning in Search 是另一個幫你減少負擔的更新。
比如你現在正在重新調整膳食結構、從頭安排飲食計劃,不想在早餐、午餐和晚餐時吃通心粉和奶酪。
直接把需求抛給搜索框,Google Search 就能還給你一份按照要求,且合理安排的全新一周食譜。
而且,你還可以随時改變條件和細節,搜索的結果也會根據最新的提示實時更新。
如果說上述的功能,我們已經在其他公司的產品中見過,甚至用過,那 Ask with Video ,一定會給你一些驚喜。
生活當中有很多物件,都有着各自的專屬名稱,有些器械出現一些小問題時,也都有着對應的修理方式。但很多時候只有專業人士才能叫得出,也只有他們能「對症下藥」。
現在通過 Google Search 的 Ask with Video,每個人都能稱為專家,它相當于一本裝在手機裡的百科全書。
唱片的零部件不起作用了不知道從何下手,相機的快門突然失靈 ...... 以前可能要大費周折地寄回廠家售後,但現在用 Google 設備的鏡頭拍下問題所在,Google Search 就能根據你所遇到的問題初步診斷,一些小故障還能當場給出解決方案。
在發布會的實時演示裡,AI 還把整個的修理步驟一一列出,按照螢幕上的指示,演示者很快就能解決小麻煩。
這個功能,是通過 AI 逐幀分解視頻,把每一幀的關鍵信息導入 Gemini 的長觸點視窗挨個分析,并梳理網絡中相關的文章、論壇、視頻等,從中找到見解,以此實現了 Ask with Video 的智能建議。
比起傳統的文字輸入,視頻最大的好處在于,我們和 AI 的互動過程變得更加直觀,用「這裡」「這個」等模糊的詞語,也能使大模型知道我們指代到底是什麼。
Google 稱,這些最新的 AI 功能,将會在未來幾周内于實驗室功能推出,這也意味着更強大的 Google Search 離落地已經不遠了。
後續版本中,它甚至還将能基于頁面中視頻的自動字幕來尋找答案,不知道會不會搶了那些「1 分鍾看完 XX 電影」博主的飯碗。
圖 · 歌 · 片,瞄着 OpenAI 打
如果說前兩天的 GPT-4o 是 AI 再一次給世界帶來了一點震撼,那今晚 Google 官宣的 Project Astra 則是震撼的延續。
Project Astra 是 GoogleMind 的原型——一個通用人工智能助手。
和 GPT-4o 的使用效果類似,用戶可以通過它和 AI 實時對話,以及視頻聊天。
發布會的演示可以很好地表現這個新功能,工作人員在演示視頻中将手機鏡頭對準身邊的物品,并向 Project Astra 提出一些疑問,它幾乎能做到零延時地準确回答。
例如 Project Astra 能說出音響上半部分的是高音喇叭,對電腦螢幕上顯示的代碼也能輕松識别其具體作用。
Google 稱:
我們的新項目專注于構建一個未來的人工智能助手,它可以在日常生活中真正提供幫助。
基于更強大的 AI 性能,Google 在 I/O 上還宣布了另外三個實用功能,它們分别在「影像」「音樂」「視頻」領網域,體現着先進技術的「未來感」。
Imagen 3 是 Google 發布的最新的影像生成模型。
它可以更加理解我們的提示詞,并以此創建更加逼真的影像。
發布會上展示的「狼」的生成圖片,就是 Imagen 3 在一段叙述中,準确提取了 8 個細節信息,并且在圖片中都有體現。
不難發現,生成圖片不僅細節準确,而且十分逼真。
Imagen 3 還能應對一些更加抽象的圖片創作,例如根據「彩虹色」「羽毛組成的 light」「黑色背景」的提示,生成的創意圖片。
就像是它很清楚你想要什麼。
發言人甚至在發布會上開玩笑式地炫耀「你可以用它來數别人臉上的胡須」。
在音樂生成方面,Google 也有了新的突破。
Music AI Sandbox 是最新推出的音樂生成模型,Google 這次在 I/O 現場還請來了 Marc Rebillet 坐鎮分享。
根據藝人創作的一小段音樂 demo,Music AI Sandbox 能在此基礎上拓展延長,還可以進一步按照用戶輸入的提示詞,如音樂風格和種類等,進行樂曲的二度創作。
Google 稱,它們和 YouTube 一起構建了 Music AI Sandbox:
這是一套專業的 AI 音樂工具,可以從頭開始創建新的樂器部分,在軌道之間轉換風格等,以幫助我們設計和測試它們。
另一個實用模型名為 Veo,專注于生成視頻。
用戶只需輸入相關的文本、影像或視頻提示,Veo 就能創建高質量的 1080p 規格的視頻,時長也達到了 60 秒之久。
它能以不同的視覺和電影風格捕捉指令中的詳細信息。
例如,我們可以在提示中輸入事物、橫向或延時的航拍照片,并使用其他提示進一步編輯視頻。
一直以來,視頻生成 AI 「只在理論上成立」其實有諸多阻礙,其中走向「能用」的最大門檻是:視頻生成時間只有短短幾秒,一般只能在一兩個動作裡反復橫跳。
所以 Sora 發布之初才會引起非常大的讨論,而今晚開始,Google 的 Veo 也成了大家重點關注的對象,從照片寫實主義到超現實主義和動畫,大部分的影視風格,它都能處理。
除了 Project Astra 以外,Google 還為我們提供了一個可私人定制的 Gemini —— Gems。
Google 表示,它能在保留指定特征的情況下完成任務,成為千人千面的私人助手,用戶可以通過調整定位,使其成為瑜伽好友、虛拟的流行人物、健身夥伴、創意寫作指導甚至是微積分導師等,都不在話下。
Gemini 狂卷長文本,Gemini 家族再添新成員
Gemini 項目自曝光以來,一直備受關注。起初也曾存在一定争議,但後來也憑借自身實力挽回了口碑,而今也越來越成熟。
據皮查伊介紹,目前有超過 150 萬開發人員使用 Gemini 模型,用戶數量已經達到 20 億,如今皮查伊再提「Gemini 時代」,目标是将其集成到所有產品中,為用戶帶來全新體驗,也為創造者、開發者、創業公司創造新的機會。
目前最新的 Gemini 1.5 Pro 支持 100 萬 token 文本量,今年晚些時候據稱這個數字将會達到 200 萬,能夠同時處理 2 小時的視頻、22 小時的音頻、超過 60,000 行代碼或超過 140 萬個單詞。
此外,大會還宣布了基于 Gemini 1.5 Pro 的 Gemini Advanced,據稱它可以處理「多個大型文檔,總計最多 1500 頁,或匯總 100 封電子郵件」,還支持 35 種語言和 150 多個國家 / 地區。
不得不說,在文本量方面,Gemini 确實很卷,「朝着将任何輸入轉為任何輸出的目标邁出了一大步」。
安全永遠是重中之重
自 AI 誕生之初以來,關于如何辨别 AI 生成内容的争論就一直沒有停止。Google 的對策是通過 SynthID,為 AI 生成的影像和音頻添加不可見的水印,使其更易于區分,
未來 Google 将會把這一範圍推廣到文本及視頻中,并在接下來的幾個月裡,通過更新生成式 AI 工具包開源 SynthID 文本水印,幫助更多開發人員更輕松地負責任地構建 AI。
Gemini 融入其中後,Android 會在通話過程中,檢測到可疑活動時發出警告,例如被要求提供您的社會安全号碼和銀行信息,屬于是直接把「反詐中心」裝手機上了。
還有無障礙功能 TalkBack 也将通過 Gemini Nano 增強,影像描述将更加清晰和豐富,幫助視力不佳的用戶通過語音反饋更好地操作手機,體現出 Google 一貫的人文關懷。
而對于 Google 今晚的表現,英偉達 NVIDIA 研究經理 Jim Fan 的評價,十分中肯。
Google 新發布的模型似乎是多模态輸入,但不是多模态輸出的 Imagen3 和 Music AI Sandbox 仍然作為獨立組件與 Gemini 分離。将所有模态 I/O 原生合并是不可避免的未來。
它可以執行任務,如「使用更機器人化的聲音」「編輯這幅影像」「生成一致的漫畫條帶」。
而且還不會在模态邊界上丢失信息,例如情感和背景聲音,全新模型打開了新的上下文能力,用戶也能通過少量示例教導模型,并以新穎的方式結合不同的意義。
GPT-4o 并不完美,但它正确地掌握了形式因素,用安德烈的 LLM- 作為作業系統的比喻來說:
我們需要模型本地支持盡可能多的檔案擴展名。
Google 做對了一件事:他們終于在将人工智能整合到搜索框中做出了認真的努力。
Gemini 不必是最好的那一個,但卻可以成為最廣泛使用的一個。