今天小編分享的科技經驗:谷歌發布新一代大模型Gemini 2.0,備戰智能體時代,歡迎閱讀。
經濟觀察網 陳奇傑 任曉寧 / 文 12 月 12 日,谷歌推出大模型 Gemini 2.0,谷歌 CEO 桑達爾 · 皮查伊(Sundar Pichai)稱,這是谷歌為新智能體時代構建的下一代模型,也是谷歌迄今為止最強的大模型。
Gemini 2.0 Flash 是谷歌此次發布的 Gemini 2.0 系列模型中的第一個模型。相比上一代模型 Gemini 1.5 Flash,Gemini 2.0 Flash 除了支持圖片、視頻和音頻等多模态輸入,還支持多模态輸出,例如其可以直接生成影像與文本混合的内容,以及原生生成可控的多語言文本轉語音(TTS)音頻。Gemini 2.0 Flash 還可以原生調用谷歌搜索、代碼執行以及第三方用戶定義的函數等工具。
皮查伊表示,如果說 Gemini 1.0 的作用是整合和理解信息,那麼 Gemini 2.0 能夠做到讓信息更加有用。
基于 Gemini 2.0 模型,谷歌能夠構建新的 AI 智能體,從而離構建通用助手的願景更進一步。智能體(Agent)是指能夠感知環境并采取行動以實現特定目标的代理體,也被視為大模型落地的 " 最後一公裡 "。
過去一年裡,谷歌持續開發了更多智能體模型。在發布 Gemini 2.0 的同時,谷歌也介紹了多個智能體。例如,Project Astra 是通過多模态理解現實世界的智能體,它可以在多種語言和混合語言之間進行對話,能夠理解不同口音和生僻單詞,并以接近人類對話的延遲來理解語言。Project Astra 最多可以記住長達 10 分鍾的會話内容,并且可以回憶起過去與它進行的多輪對話,以便為用戶提供更好的個性化服務。Project Astra 還能使用谷歌搜索、谷歌地圖等工具。Project Astra 被應用于谷歌的 AI 助手 Gemini app 以及智能眼鏡等其他設備及產品中。
除此之外,谷歌還開發了可以幫助用戶完成復雜任務的智能體、面向開發者的智能體,以及面向遊戲和其他領網域的智能體。
在 Gemini 2.0 發布當天,新加坡科研局資深科研工程師黃佳就體驗了該模型,并将其與 OpenAI 最新發布的 o1 模型進行對比。他的測試方式是提供一系列參考文檔,給出復雜邏輯,讓大模型進行自主編程,并提供詳細文案解釋。
黃佳表示,在一般情況下,ChatGPT o1 的邏輯推理還是更強。具體而言,兩個模型都體現出了很強的分析推理能力,但 ChatGPT o1 可以接受的文檔輸入長度較長,Gemini 2.0 會截斷部分太長的參考文檔;此外,ChatGPT o1 給出的代碼,質量較高,缺陷(bug)較少,ChatGPT o1 的代碼解釋更詳盡,更接近黃佳想要的寫作風格,Gemini 2.0 的解釋文案較為簡略。
黃佳感覺到,雖然目前大模型仍不可能僅靠簡單的提示詞,就自主幹活,滿足需求,還需要在人的驅動之下,在精準的業務場景中,經過設計、編程、整合等過程,才能夠成為智能體,但是大模型能力在進步,人們對大模型能力邊界的認識也越來越清晰,這帶來了智能體發展的加速,周圍同事也在更多地用智能體做實際項目。