今天小编分享的科技经验:谷歌发布全新PaliGemma 2视觉模型 能识别人们的情绪,欢迎阅读。
【CNMO 科技消息】在众多为人工智能(AI)赋予 " 视觉 " 能力的模型中,谷歌的 PaliGemma 模型占据一席之地。作为谷歌的视觉语言模型,它能够识别影像中的物体和文字。近日,谷歌正式推出了全新的 PaliGemma 2 模型,并已投入使用。
PaliGemma 初代模型已是一款实用的工具,能够识别影像中的物体,并为影像添加字幕,甚至还能为短视频添加字幕。PaliGemma 的一个更为实用的功能是能够回答关于影像的问题。因此,它是一款功能强大的综合模型。
谷歌于今年 5 月正式向公众介绍了 PaliGemma 模型。谷歌希望 PaliGemma 2 能够成为初代模型的直接替代品。谷歌提供了多个版本的 PaliGemma 2,包括 30 亿、100 亿和 280 亿参数变体,以及 224 像素、448 像素和 896 像素分辨率版本。
在其他规格方面,PaliGemma 2 支持长文本字幕生成。谷歌表示,它将不仅仅局限于识别物体,还能识别人物并解读其情绪。因此,如果某人感到高兴、悲伤等情绪,PaliGemma 2 都能捕捉到。
此外,该模型似乎还能识别场景中发生的更多内容,以讲述完整的故事。谷歌称,PaliGemma 在识别乐谱、化学公式、识别深度以及制作胸部 X 光片报告方面表现更佳。谷歌为 PaliGemma 带来了相当显著的更新。如果你想使用它,可以在 Hugging Face、Kaggle 和 Ollama 平台上获取其代码。
谷歌还发布了其视频生成模型 Veo 的私有预览版。该公司在今年的谷歌 I/O 大会上宣布了这一消息。如果你正在使用谷歌的 Vertex 云平台,那么你将有机会进行尝鲜。你可以生成最高达 1080p 分辨率的视频。