今天小编分享的科技经验:谷歌大语言模型Gemini正式发布,它具备哪些能力?Gemini和GPT谁更强?,欢迎阅读。
按照网上发布的视频来看,这次谷歌 Gemini 超越 GPT 的地方在多模态。多模态不是大家想象中的文生图。现在我们和 GPT 交流还需要打字,但多模态是说它可以接受语音、视频甚至音乐。我看了 Gemini 演示视频,尽管谷歌自己承认视频经过剪辑,但是它描述出来的场景是:你可以放一段视频、拍一张照片、手绘一张草图给它看,也可以直接拿语音跟它说话,还可以把这些方式综合起来。这就非常符合人类的交流习惯。
这次 Gemini 正式发布,我觉得谷歌有以下几个优势:
第一是人才优势。谷歌这一次大概用了近 1000 人的队伍,人才密度非常高。
第二,场景和流量的优势。谷歌是美国乃至全世界最大的互联网入口,有 Gmail 、search、 Chrome 浏览器、安卓作業系統等。今天我们谈大模型的标准,好不好用是一方面,关键它一定要跟流量、跟用户相结合。在 ToC 方面,谷歌的这些场景都可以和 Gemini 结合,马上 Gemini 就会获得很多用户的使用和反馈,这对它的改进有很大帮助。
第三,谷歌做搜索出身,最不缺的就是数据和知识。在数据训练上,谷歌至少不比 OpenAI 逊色。
第四,我认为谷歌包括国内的百度 360 这种搜索公司有独特的优势。大模型有幻觉,Hinton 称它为杜撰能力。另外大模型受制于训练的节点,知识更新不及时,人类每天都会产生新的知识,总会有一些知识忘了训进去。但是谷歌未来把搜索和大模型融为一体,大模型会让搜索变得更智能,搜索也会让大模型变得更 live、更实时、知识更全面。搜索没有的智能性可以通过大模型来弥补,大模型缺乏的时效性和准确性,可以通过搜索来弥补,这两个充分结合,我认为就会产生革命性的机会。
第五,谷歌还有一个很大的优势是优质语料。大家可能没有意识到为什么谷歌要做多模态,不仅是为了跟 ChatGPT 竞争,还有个重要原因,大模型训练有可能很快会把书籍和网页的知识用完。接下来的学习靠什么?我记得在今年年初我就预言过,大模型未来要接全人类的摄像头。谷歌手里有个 YouTube,拥有人类最多最全的视频,同时有很多知识标签。当前视频已经成了人类重要的知识积累阵地,我们可以想一想这些视频数据一旦通过多模态打通了会怎样?所以我觉得谷歌肯定会远远超越 OpenAI。
第六,谷歌还有个大家可能不知道的优势,拥有自己的人工智能芯片 TPU。Gemini 使用的就是 TPU,而非英伟达的 GPU。TPU 我了解不多,但我理解它是一种专门做训练和推理的专用芯片,将在大模型训练速度和训练成本上给谷歌带来一定帮助。
谷歌和 OpenAI 之后的竞争,可能会围绕争夺开发者展开。那么,这些对创业者来说,意味着什么?我认为,未来人工智能巨大的机会不是做一个超级 APP,而是在已有的传统产品和业务中去找各个垂直细分的场景。创业者在宏观上认可大模型带来的这场工业级革命,但在实操上一定要把业务流程和产品功能打开,看一看哪个细节,能够用 AI 去改造。