谷歌發布新一代大模型Gemini 2.0，備戰智能體時代

今天小編分享的科技經驗：谷歌發布新一代大模型Gemini 2.0，備戰智能體時代，歡迎閱讀。

經濟觀察網陳奇傑任曉寧 / 文 12 月 12 日，谷歌推出大模型 Gemini 2.0，谷歌 CEO 桑達爾 · 皮查伊（Sundar Pichai）稱，這是谷歌為新智能體時代構建的下一代模型，也是谷歌迄今為止最強的大模型。

Gemini 2.0 Flash 是谷歌此次發布的 Gemini 2.0 系列模型中的第一個模型。相比上一代模型 Gemini 1.5 Flash，Gemini 2.0 Flash 除了支持圖片、視頻和音頻等多模态輸入，還支持多模态輸出，例如其可以直接生成影像與文本混合的内容，以及原生生成可控的多語言文本轉語音（TTS）音頻。Gemini 2.0 Flash 還可以原生調用谷歌搜索、代碼執行以及第三方用戶定義的函數等工具。

皮查伊表示，如果說 Gemini 1.0 的作用是整合和理解信息，那麼 Gemini 2.0 能夠做到讓信息更加有用。

基于 Gemini 2.0 模型，谷歌能夠構建新的 AI 智能體，從而離構建通用助手的願景更進一步。智能體（Agent）是指能夠感知環境并采取行動以實現特定目标的代理體，也被視為大模型落地的 " 最後一公裡 "。

過去一年裡，谷歌持續開發了更多智能體模型。在發布 Gemini 2.0 的同時，谷歌也介紹了多個智能體。例如，Project Astra 是通過多模态理解現實世界的智能體，它可以在多種語言和混合語言之間進行對話，能夠理解不同口音和生僻單詞，并以接近人類對話的延遲來理解語言。Project Astra 最多可以記住長達 10 分鍾的會話内容，并且可以回憶起過去與它進行的多輪對話，以便為用戶提供更好的個性化服務。Project Astra 還能使用谷歌搜索、谷歌地圖等工具。Project Astra 被應用于谷歌的 AI 助手 Gemini app 以及智能眼鏡等其他設備及產品中。

除此之外，谷歌還開發了可以幫助用戶完成復雜任務的智能體、面向開發者的智能體，以及面向遊戲和其他領網域的智能體。

在 Gemini 2.0 發布當天，新加坡科研局資深科研工程師黃佳就體驗了該模型，并将其與 OpenAI 最新發布的 o1 模型進行對比。他的測試方式是提供一系列參考文檔，給出復雜邏輯，讓大模型進行自主編程，并提供詳細文案解釋。

黃佳表示，在一般情況下，ChatGPT o1 的邏輯推理還是更強。具體而言，兩個模型都體現出了很強的分析推理能力，但 ChatGPT o1 可以接受的文檔輸入長度較長，Gemini 2.0 會截斷部分太長的參考文檔；此外，ChatGPT o1 給出的代碼，質量較高，缺陷（bug）較少，ChatGPT o1 的代碼解釋更詳盡，更接近黃佳想要的寫作風格，Gemini 2.0 的解釋文案較為簡略。

黃佳感覺到，雖然目前大模型仍不可能僅靠簡單的提示詞，就自主幹活，滿足需求，還需要在人的驅動之下，在精準的業務場景中，經過設計、編程、整合等過程，才能夠成為智能體，但是大模型能力在進步，人們對大模型能力邊界的認識也越來越清晰，這帶來了智能體發展的加速，周圍同事也在更多地用智能體做實際項目。