谷歌大語言模型Gemini正式發布，它具備哪些能力？Gemini和GPT誰更強？

今天小編分享的科技經驗：谷歌大語言模型Gemini正式發布，它具備哪些能力？Gemini和GPT誰更強？，歡迎閲讀。

按照網上發布的視頻來看，這次谷歌 Gemini 超越 GPT 的地方在多模态。多模态不是大家想象中的文生圖。現在我們和 GPT 交流還需要打字，但多模态是説它可以接受語音、視頻甚至音樂。我看了 Gemini 演示視頻，盡管谷歌自己承認視頻經過剪輯，但是它描述出來的場景是：你可以放一段視頻、拍一張照片、手繪一張草圖給它看，也可以直接拿語音跟它説話，還可以把這些方式綜合起來。這就非常符合人類的交流習慣。

這次 Gemini 正式發布，我覺得谷歌有以下幾個優勢：

第一是人才優勢。谷歌這一次大概用了近 1000 人的隊伍，人才密度非常高。

第二，場景和流量的優勢。谷歌是美國乃至全世界最大的互聯網入口，有 Gmail 、search、 Chrome 浏覽器、安卓作業系統等。今天我們談大模型的标準，好不好用是一方面，關鍵它一定要跟流量、跟用户相結合。在 ToC 方面，谷歌的這些場景都可以和 Gemini 結合，馬上 Gemini 就會獲得很多用户的使用和反饋，這對它的改進有很大幫助。

第三，谷歌做搜索出身，最不缺的就是數據和知識。在數據訓練上，谷歌至少不比 OpenAI 遜色。

第四，我認為谷歌包括國内的百度 360 這種搜索公司有獨特的優勢。大模型有幻覺，Hinton 稱它為杜撰能力。另外大模型受制于訓練的節點，知識更新不及時，人類每天都會產生新的知識，總會有一些知識忘了訓進去。但是谷歌未來把搜索和大模型融為一體，大模型會讓搜索變得更智能，搜索也會讓大模型變得更 live、更實時、知識更全面。搜索沒有的智能性可以通過大模型來彌補，大模型缺乏的時效性和準确性，可以通過搜索來彌補，這兩個充分結合，我認為就會產生革命性的機會。

第五，谷歌還有一個很大的優勢是優質語料。大家可能沒有意識到為什麼谷歌要做多模态，不僅是為了跟 ChatGPT 競争，還有個重要原因，大模型訓練有可能很快會把書籍和網頁的知識用完。接下來的學習靠什麼？我記得在今年年初我就預言過，大模型未來要接全人類的攝像頭。谷歌手裏有個 YouTube，擁有人類最多最全的視頻，同時有很多知識标籤。當前視頻已經成了人類重要的知識積累陣地，我們可以想一想這些視頻數據一旦通過多模态打通了會怎樣？所以我覺得谷歌肯定會遠遠超越 OpenAI。

第六，谷歌還有個大家可能不知道的優勢，擁有自己的人工智能芯片 TPU。Gemini 使用的就是 TPU，而非英偉達的 GPU。TPU 我了解不多，但我理解它是一種專門做訓練和推理的專用芯片，将在大模型訓練速度和訓練成本上給谷歌帶來一定幫助。

谷歌和 OpenAI 之後的競争，可能會圍繞争奪開發者展開。那麼，這些對創業者來説，意味着什麼？我認為，未來人工智能巨大的機會不是做一個超級 APP，而是在已有的傳統產品和業務中去找各個垂直細分的場景。創業者在宏觀上認可大模型帶來的這場工業級革命，但在實操上一定要把業務流程和產品功能打開，看一看哪個細節，能夠用 AI 去改造。