今天小編分享的科技經驗:谷歌大語言模型Gemini正式發布,它具備哪些能力?Gemini和GPT誰更強?,歡迎閲讀。
按照網上發布的視頻來看,這次谷歌 Gemini 超越 GPT 的地方在多模态。多模态不是大家想象中的文生圖。現在我們和 GPT 交流還需要打字,但多模态是説它可以接受語音、視頻甚至音樂。我看了 Gemini 演示視頻,盡管谷歌自己承認視頻經過剪輯,但是它描述出來的場景是:你可以放一段視頻、拍一張照片、手繪一張草圖給它看,也可以直接拿語音跟它説話,還可以把這些方式綜合起來。這就非常符合人類的交流習慣。
這次 Gemini 正式發布,我覺得谷歌有以下幾個優勢:
第一是人才優勢。谷歌這一次大概用了近 1000 人的隊伍,人才密度非常高。
第二,場景和流量的優勢。谷歌是美國乃至全世界最大的互聯網入口,有 Gmail 、search、 Chrome 浏覽器、安卓作業系統等。今天我們談大模型的标準,好不好用是一方面,關鍵它一定要跟流量、跟用户相結合。在 ToC 方面,谷歌的這些場景都可以和 Gemini 結合,馬上 Gemini 就會獲得很多用户的使用和反饋,這對它的改進有很大幫助。
第三,谷歌做搜索出身,最不缺的就是數據和知識。在數據訓練上,谷歌至少不比 OpenAI 遜色。
第四,我認為谷歌包括國内的百度 360 這種搜索公司有獨特的優勢。大模型有幻覺,Hinton 稱它為杜撰能力。另外大模型受制于訓練的節點,知識更新不及時,人類每天都會產生新的知識,總會有一些知識忘了訓進去。但是谷歌未來把搜索和大模型融為一體,大模型會讓搜索變得更智能,搜索也會讓大模型變得更 live、更實時、知識更全面。搜索沒有的智能性可以通過大模型來彌補,大模型缺乏的時效性和準确性,可以通過搜索來彌補,這兩個充分結合,我認為就會產生革命性的機會。
第五,谷歌還有一個很大的優勢是優質語料。大家可能沒有意識到為什麼谷歌要做多模态,不僅是為了跟 ChatGPT 競争,還有個重要原因,大模型訓練有可能很快會把書籍和網頁的知識用完。接下來的學習靠什麼?我記得在今年年初我就預言過,大模型未來要接全人類的攝像頭。谷歌手裏有個 YouTube,擁有人類最多最全的視頻,同時有很多知識标籤。當前視頻已經成了人類重要的知識積累陣地,我們可以想一想這些視頻數據一旦通過多模态打通了會怎樣?所以我覺得谷歌肯定會遠遠超越 OpenAI。
第六,谷歌還有個大家可能不知道的優勢,擁有自己的人工智能芯片 TPU。Gemini 使用的就是 TPU,而非英偉達的 GPU。TPU 我了解不多,但我理解它是一種專門做訓練和推理的專用芯片,将在大模型訓練速度和訓練成本上給谷歌帶來一定幫助。
谷歌和 OpenAI 之後的競争,可能會圍繞争奪開發者展開。那麼,這些對創業者來説,意味着什麼?我認為,未來人工智能巨大的機會不是做一個超級 APP,而是在已有的傳統產品和業務中去找各個垂直細分的場景。創業者在宏觀上認可大模型帶來的這場工業級革命,但在實操上一定要把業務流程和產品功能打開,看一看哪個細節,能夠用 AI 去改造。