今天小編分享的科技經驗:谷歌狙擊OpenAI,歡迎閱讀。
12 月 12 日,在 OpenAI 宣布 ChatGPT 全面接入蘋果之際,谷歌發布新一代大模型 Gemini 2.0,值得注意的是,Gemini 2.0 專為 AI 智能體(AI Agent)而生。
谷歌首席執行官 Sundar Pichai 在公開信中稱," 在過去一年中,我們一直在投資開發更具 " 代理性 " 的模型,即這些模型能更深入地理解你周圍的世界,提前多步思考,并在你的監督下為你執行任務。今天,我們很高興迎來新一代的模型—— Gemini 2.0,它是我們迄今為止最強大的模型。通過多模态的新進展——如原生影像和音頻輸出——以及原生工具使用,我們能夠構建新的 AI 智能體,使我們更接近普遍 AI 助手的願景。"
谷歌 DeepMind CEO Demis Hassabis 也表示,2025 年将是 AI 智能體的時代,Gemini 2.0 将是支撐我們基于智能體工作的最新一代模型。
目前 Gemini 2.0 版本尚未正式上線,谷歌表示已經将其提供給了一些開發者内測。第一時間上線的是比 Gemini 1.5 Pro 更強的 Gemini 2.0 Flash 實驗版,實驗版已在網頁端開放,Gemini 用戶可以通過 PC 端訪問 Gemini 2.0 Flash,移動端即将推出。
根據谷歌發布的基準測試結果,不論是在多模态的圖片、視頻能力上,還是編碼、數學等能力上,僅是 Flash 實驗版的 Gemini 2.0 表現幾乎全面超越 Gemini 1.5 Pro,且響應速度提升了 2 倍。
谷歌集中火力猛攻 AI 智能體
通過谷歌的本次更新,我們已經可以窺見其 AI 布局的冰川一角——一切為了智能體。
更強大的多模态能力:
Gemini 2.0 Flash 實驗版除了支持影像、視頻和音頻等多模态輸入,還支持多模态輸出,比如原生生成的影像與文本結合,以及可操控的多語言文本轉語音(TTS)音頻。
更專業的 AI 搜索:
谷歌在 Gemini Advanced 中推出了一項名為深度研究(Deep Research)的智能體新功能。該功能結合了谷歌的搜索專長和 Gemini 的高級推理能力,可以圍繞一個復雜主題生成研究報告,相當于一個私人研究助手。
多款智能體更新、上線:
更新了基于 Gemini 2.0 構建的智能體 Project Astra :Astra 的新功能包括支持多語言混合對話;能夠在 Gemini 應用中直接調用 Google Lens 和地圖功能;記憶能力提升,具備最多 10 分鍾的會話内記憶,對話更連貫;借助新的流式處理技術和原生音頻理解能力,該智能體能夠以近于人類對話的延遲來理解語言。值得注意的是,Astra 是谷歌為眼鏡項目所做的前瞻項目。谷歌提到,正在将 Project Astra 移植到眼鏡等更多移動終端中。
發布适用于浏覽器的智能體 Project Mariner(海員項目):該智能體能夠理解并推理浏覽器螢幕上的信息,包括像素和網頁元素(如文本、代碼和圖片),然後通過 Chrome 擴展程式來利用這些信息幫你完成任務。
發布專為開發者打造的 AI 編程智能體 Jules:Jules 支持直接集成到 GitHub 工作流中,用戶使用自然語言描述問題,就能直接生成可以合并到 GitHub 項目中的代碼;
發布遊戲智能體:能夠實時解讀螢幕畫面,通過用戶遊戲螢幕上的動作給出下一步操作建議,或直接在你打遊戲的時候通過和你語音交流。
谷歌表示,明年年初,會将 Gemini 2.0 擴展到更多旗下產品中。此前推出的 AI Overviews 将集成 Gemini 2.0,從而提升復雜問題處理能力,包括高級數學公式、多模态查詢和編程。本周已經進行有限測試,預計明年推廣,并擴展至更多國家和語言。