今天小編分享的科技經驗:谷歌發布全新PaliGemma 2視覺模型 能識别人們的情緒,歡迎閲讀。
【CNMO 科技消息】在眾多為人工智能(AI)賦予 " 視覺 " 能力的模型中,谷歌的 PaliGemma 模型占據一席之地。作為谷歌的視覺語言模型,它能夠識别影像中的物體和文字。近日,谷歌正式推出了全新的 PaliGemma 2 模型,并已投入使用。
PaliGemma 初代模型已是一款實用的工具,能夠識别影像中的物體,并為影像添加字幕,甚至還能為短視頻添加字幕。PaliGemma 的一個更為實用的功能是能夠回答關于影像的問題。因此,它是一款功能強大的綜合模型。
谷歌于今年 5 月正式向公眾介紹了 PaliGemma 模型。谷歌希望 PaliGemma 2 能夠成為初代模型的直接替代品。谷歌提供了多個版本的 PaliGemma 2,包括 30 億、100 億和 280 億參數變體,以及 224 像素、448 像素和 896 像素分辨率版本。
在其他規格方面,PaliGemma 2 支持長文本字幕生成。谷歌表示,它将不僅僅局限于識别物體,還能識别人物并解讀其情緒。因此,如果某人感到高興、悲傷等情緒,PaliGemma 2 都能捕捉到。
此外,該模型似乎還能識别場景中發生的更多内容,以講述完整的故事。谷歌稱,PaliGemma 在識别樂譜、化學公式、識别深度以及制作胸部 X 光片報告方面表現更佳。谷歌為 PaliGemma 帶來了相當顯著的更新。如果你想使用它,可以在 Hugging Face、Kaggle 和 Ollama 平台上獲取其代碼。
谷歌還發布了其視頻生成模型 Veo 的私有預覽版。該公司在今年的谷歌 I/O 大會上宣布了這一消息。如果你正在使用谷歌的 Vertex 雲平台,那麼你将有機會進行嘗鮮。你可以生成最高達 1080p 分辨率的視頻。