今天小编分享的互联网经验:刷屏的Gemini“强大多模态能力”视频,谷歌“造假”了?,欢迎阅读。
周四,谷歌 YouTube 官方账号发布的一个名为 " 与 Gemini 亲密互动:与多模态 AI 互動 " 的视频引发了网友围观,一天之内观看次数达到 140 万次。
这个视频之所以能吸引这么多目光,是因为它展示了谷歌史上最强 Gemini 多模态模型在互動方面令人印象深刻的表现。
在这段时长 6 分 22 秒的视频中,Gemini 对输入的语音、影像等提示做出了灵活、流畅的响应和理解,展现出强大的多模态理解和互動能力。
然而,据科技媒体 TechCrunch 最新报道,有用户仔细研究该视频后,发现 Gemini 的惊艳表现几乎都是 " 伪造 " 的。
视频中 Gemini 对画面的描述、对玩具识别和提问的回答等互动都是人为設定的,视频跳过了部分提示以及模型的推理过程,给观众营造一种 Gemini 智能又敏捷的假象。
Gemini 可能没有那么智能
Gemini 在视频中展示了多种互動技能,比如识别玩具鸭、跟踪杯子戏法中的球、识别手势、重排星球顺序等。
比如,在第一个演示中,Gemini 识别了一个鸭子素描从一条线到完整画面的演变过程。当演示者将鸭子素描填满蓝色颜料时,Gemini 指出鸭子通常是棕色、白色或黑色的,不会是蓝色的。
然后,当 Gemini 看到一个蓝色玩具鸭时,它惊讶地说道:" 这是什么玩意!" 接下来它回答了关于这个玩具鸭的各种语音提问。
整段视频中,Gemini 的反应都很快,回答纵享丝滑,但问题在于,它的反应不够真实。
媒体通过捕捉素材来测试 Gemini 在各种场景下的反应能力,重新制作了一个演示视频。然后,用视频素材中的静态画面框提示 Gemini,并通过文字输入进行提示。
结果显示, Gemini 确实具备视频中展示的某些能力,但并没有真正如视频所示的那样快速、流畅地完成所有互动任务。
但据 TechCrunch 称,视频中展示的互動效果,其实并不是真实的即时互動,而是事先設定好的。
视频用的是一系列特意准备的文本提示,以及配套的静态图片,通过挑选和剪裁这些预设素材,制作成真实互動的效果。
这样做其实是为了误导观众,让人们相信视频中展示的是 Gemini 真正的即时互動能力。但很可能的是,Gemini 在互動速度、准确性等方面均没有视频中展示的那样强大。
视频和文档展示的提示,差别很大
值得注意的是,当 TechCrunch 对比视频和谷歌发布的文档演示时,发现两者的提示存在差异。
比如,在视频的 2 点 45 分处,一只手做出了一系列手势,没有配合语音提示。Gemini 很快回应道:" 我知道你在做什么!你在玩石头、剪刀、布!"
但谷歌的 Gemini 能力文档一开始就明确指出,该模型不能通过识别单个手势来推理,提示必须同时展示全部 3 个手势,并给提示词 " 这是什么游戏 ",只有这样它才能识别出 " 石头、剪刀、布 "。
所以视频中的表现完全不符合文档所述的提示限制,无法展示出 Gemini 的真正识别能力。
另外,Gemini 识别星球顺序的场景也可能具有欺骗性。
演示者展示了贴有太阳、土星和地球涂鸦的便利贴,询问 Gemini 行星顺序是否正确,Gemini 给出了正确的太阳、地球、土星顺序。
但文档显示真正的提示是," 这是正确的顺序吗?思考离太阳的距离并解释你的推理 "。
这两种互動感觉上完全不同,视频演示看起来像智能的及时评估,而在真正的互動中,Gemini 需要暗示性很强的提示。
另外,在追踪杯子中纸团的演示中,也出现了不同于文档记录的提示的情况。
值得注意的是,如果一开始视频就明确表示 " 这是对我们研究人员测试过的互動的艺术化呈现 ",大家都不会有异议,因为这类视频本来就兼具事实和理想色彩。
但是这个视频叫做 " 与 Gemini 亲密互动 ",并标榜是 " 我们最喜欢的互動 ",这实际就是说,视频中的互動就是真实互動的意思,但实际上并不是。
谷歌甚至没有说明,视频中展示的模型是已经上市的 Gemini Pro 版本,还是预计明年发布的 Gemini Ultra。