谷歌大语言模型Gemini正式发布，它具备哪些能力？Gemini和GPT谁更强？

今天小编分享的科技经验：谷歌大语言模型Gemini正式发布，它具备哪些能力？Gemini和GPT谁更强？，欢迎阅读。

按照网上发布的视频来看，这次谷歌 Gemini 超越 GPT 的地方在多模态。多模态不是大家想象中的文生图。现在我们和 GPT 交流还需要打字，但多模态是说它可以接受语音、视频甚至音乐。我看了 Gemini 演示视频，尽管谷歌自己承认视频经过剪辑，但是它描述出来的场景是：你可以放一段视频、拍一张照片、手绘一张草图给它看，也可以直接拿语音跟它说话，还可以把这些方式综合起来。这就非常符合人类的交流习惯。

这次 Gemini 正式发布，我觉得谷歌有以下几个优势：

第一是人才优势。谷歌这一次大概用了近 1000 人的队伍，人才密度非常高。

第二，场景和流量的优势。谷歌是美国乃至全世界最大的互联网入口，有 Gmail 、search、 Chrome 浏览器、安卓作業系統等。今天我们谈大模型的标准，好不好用是一方面，关键它一定要跟流量、跟用户相结合。在 ToC 方面，谷歌的这些场景都可以和 Gemini 结合，马上 Gemini 就会获得很多用户的使用和反馈，这对它的改进有很大帮助。

第三，谷歌做搜索出身，最不缺的就是数据和知识。在数据训练上，谷歌至少不比 OpenAI 逊色。

第四，我认为谷歌包括国内的百度 360 这种搜索公司有独特的优势。大模型有幻觉，Hinton 称它为杜撰能力。另外大模型受制于训练的节点，知识更新不及时，人类每天都会产生新的知识，总会有一些知识忘了训进去。但是谷歌未来把搜索和大模型融为一体，大模型会让搜索变得更智能，搜索也会让大模型变得更 live、更实时、知识更全面。搜索没有的智能性可以通过大模型来弥补，大模型缺乏的时效性和准确性，可以通过搜索来弥补，这两个充分结合，我认为就会产生革命性的机会。

第五，谷歌还有一个很大的优势是优质语料。大家可能没有意识到为什么谷歌要做多模态，不仅是为了跟 ChatGPT 竞争，还有个重要原因，大模型训练有可能很快会把书籍和网页的知识用完。接下来的学习靠什么？我记得在今年年初我就预言过，大模型未来要接全人类的摄像头。谷歌手里有个 YouTube，拥有人类最多最全的视频，同时有很多知识标签。当前视频已经成了人类重要的知识积累阵地，我们可以想一想这些视频数据一旦通过多模态打通了会怎样？所以我觉得谷歌肯定会远远超越 OpenAI。

第六，谷歌还有个大家可能不知道的优势，拥有自己的人工智能芯片 TPU。Gemini 使用的就是 TPU，而非英伟达的 GPU。TPU 我了解不多，但我理解它是一种专门做训练和推理的专用芯片，将在大模型训练速度和训练成本上给谷歌带来一定帮助。

谷歌和 OpenAI 之后的竞争，可能会围绕争夺开发者展开。那么，这些对创业者来说，意味着什么？我认为，未来人工智能巨大的机会不是做一个超级 APP，而是在已有的传统产品和业务中去找各个垂直细分的场景。创业者在宏观上认可大模型带来的这场工业级革命，但在实操上一定要把业务流程和产品功能打开，看一看哪个细节，能够用 AI 去改造。