今天小編分享的科技經驗:Google 史上最強大模型 Gemini,真的全面「碾壓」GPT-4 嗎?,歡迎閲讀。
昨天深夜,Google 突然發布重磅 AI 殺手锏—— Gemini。
多模态 Gemini 可以理解、操作和結合不同類型的信息,包括文本、代碼、音頻、影像和視頻。
在去年 ChatGPT 發布不到兩周後,Google 就已經拉響「紅色警報」來應對挑戰。可緊急上線的 Bard ,卻在首次亮相就出現錯誤,一夜讓 Google 蒸發了 1000 億美元市值。
在過去的一年裏,基于大模型的聊天機器人單月訪問量已經超過 20 億, 其中 ChatGPT 遙遙領先,Google Bard 雖然排在第二,但和幾個競品一起歸為「其他」更為合适。
▲ 圖片來自:The Information
因此,Gemini 早已被寄予了趕超 ChatGPT 的厚望,無論成敗,它就是 Google 過去對 AI 大模型孤注一擲的成果。
能看、能説、能推理
Gemini 1.0 共官宣中杯、大杯、超大杯三種不同規格。
中杯:Gemini Nano —— 最高效的設備任務模型
大杯:Gemini Pro —— 适用于廣泛的任務擴展的最佳模型
超大杯:Gemini Ultra ——最大且最能勝任高度復雜任務的模型
暫且抛開繁雜的參數信息,先來用幾個案例讓你全面了解 Gemini 的能力。
當你随手畫個鴨子,從曲線到鴨子成型,Gemini 都可以精準識别。給鴨子畫條波浪線,它能理解你的言外之意,精準地指出鴨子在水中遊泳的場景答案。
同時它還能人性化地模仿鴨子的叫聲,即使是用流利的普通話説出鴨子的叫法也不在話下。
閒着無聊,也可以和 Gemini 玩個遊戲,你的手指指向哪個區網域,Gemini 就能説出那個國家及其代表性的事物。
三仙歸洞,猜猜紙球在哪個杯子下面,手速再快,也躲不過 Gemini 的「眼睛」。
拿到紗線卻毫無頭緒,别急,Gemini 聰明的大腦在看到紗線的那一刻,就已經把成品給你安排上,你只需要「照貓畫虎」就好了。
識别影像還只是 Gemini 的基礎水準,看到樂器,Gemini 還能生成符合環境氛圍的音樂,
邏輯和謎題解決、影像序列分析、魔術技巧解釋、記憶和邏輯,這些能力 Gemini 樣樣都有,樣樣精通。
Google 也發布了文字演示版本,若你不想看視頻,可以訪問 https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html 查看。
或許是這個視頻過于震撼,部分網友質疑 Google 這個視頻存在「造假」的可能性,不過 Gemini 将很快在 Google AI Studio 中向公眾開放,屆時便能一辯真假。
多模态 Gemini VS GPT-4
據 Google 官方顯示,從自然影像、音頻和視頻理解到數學推理,Gemini Ultra 的性能在 32 個廣泛使用的大型語言模型(LLM)研究和開發的學術基準測試中,超過了 30 個當前最先進的結果。
從 Google 放出的測試結果來看,在文本、常規推理、數學、代碼等領網域,Gemini 的表現幾乎是全方位碾壓了 OpenAI 的 GPT-4。
MMLU(大規模多任務語言理解)是測試 AI 模型知識和解決問題能力的最流行方式之一。Gemini Ultra 在該測試中以 90.0% 的準确率成為首個超越人類專家的模型,作為對比,GPT-4 只有 86.4% 的準确率。
新的 MMMU 基準測試包含了跨不同領網域的多模态任務,對多模态大模型的檢驗程度更高,但超大杯 Gemini Ultra 同樣取得了 59.4% 的高分。
Google CEO Sundar Picha 在接受《麻省理工學院技術評論》的采訪時表示,Gemini 之所以令人矚目,其中一個重要原因是它從根本上就是一個多模态模型,就像人一樣,它不僅從文本中學習,還能通過視頻、音頻和代碼進行學習。
多模态特性是 Gemini 花時間打磨的原生特性,Gemini 1.0 能同時識别和理解文本、影像、音頻等多種信息,理解信息能力更強,在回答與復雜主題相關的問題也能遊刃有餘。在多模态 SOTA 的測試中,Gemini 影像、視頻、音頻的多模态測試水準再次遙遙領先。
代碼是檢驗大模型水平的重要指标之一,Gemini 1.0 跨語言工作和推理復雜信息的能力是它的強項,能夠理解諸如 Python、Java、C++ 等高質量代碼。兩年前,Google 推出了 AlphaCode,這是首個在編程比賽中達到競争水平的 AI 代碼生成系統。
現在, AlphaCode 推出了第二代,這是一個由 Gemini 微調的競争性編碼模型,在與原始 AlphaCode 在相同的平台上較量時,AlphaCode-2 在人類競争對手中的得分為 87%,而此前 AlphaCode 的得分只有 46%。
AlphaCode-2 技術報告地址 :https://storage.googleapis.com/deepmind-media/AlphaCode2/AlphaCode2_Tech_Report.pdf
在技術報告中,Google DeepMind (AlphaCode 2 出品人)分享了大量關于推理時搜索、過濾和重新排名系統的細節。英偉達高級科學家 Jim Fan 直誇這些最新成果堪稱 Google 的 Q*(可以簡單理解為 AI 的大突破)。
thehiredai CEO Arman 大膽地作出預測:「Gemini AI 剛剛殺死了 ChatGPT!」
值得一提的是,Google 還宣布推出迄今為止最強大、最高效、最可擴展的 TPU 系統:Cloud TPU v5p。
▲ Cloud TPU v5p
Gemini 1.0 的訓練正是在 Google 内部設計的 Tensor 處理單元(TPUs)v4 和 v5e 的 AI 優化基礎設施上進行的。
Google Cloud CEO Thomas Kurian 對于自家產品,毫不吝啬地誇贊道:「Cloud TPU v5p 是我們迄今為止功能最強大、可擴展性最強的 TPU 加速器,其訓練模型的速度比其前代產品快 2.8 倍。」
手機大模型的新玩家
手機是新技術破圈的重要媒介,Gemini 想要大規模走進大眾社會,Pixel 8 一定是其不二之選。
Pixel 8 Pro 作為第一款内置人工智能的手機,已經在高新技術民用化的道路上建立了良好的口碑,從已經上手 Pixel 8 Pro 的用户反饋看,Google 把 AI 和手機終端應用結合得相當不錯。
在此基礎上,Google 官宣中杯大模型 Gemini Nano 從今天開始,将在 Pixel 8 Pro 上正式運行。
消息一出,PassionateGenius CTO Morimoto 已經迫不及待想要體驗在 Pixel 8 上跑大模型了。
作為首款專為 Gemini Nano 設計的智能手機, Pixel 8 Pro 有兩項專屬的拓展功能将在後續的更新中加入:「記錄器摘要」和「Gboard 智能回復」。
即使沒有網絡連接,記錄器也可以獲得手機對話錄音、采訪、演示等内容的摘要,強大的終端硬體是支撐這個功能的依托,而優化的側端算法讓「斷網不斷線」成為了可能。
智能回復功能很像我們挂斷電話後的自動回復,但和傳統的固定内容相比, Gemini Nano 可以識别來信的内容,根據不同的語句生成對應的回信,語言也會更加自然親切,有種明星的運營團隊在社交平台回復粉絲的即視感。
這兩項功能目前只支持英文文本的識别,但轉頭一想對本身就買不到 Google 手機的我們好像也沒有任何影響,不過能買到 Pixel 8 Pro 的非英語國家的用户,還需要再靜候一段時間。
而在生產力方面的優化,在大洋彼岸 Pixel 終于趕上了國内的基本水平。
類似的照片和視頻的 AI 編輯功能在新機首發時,就成了 Google 新機的代名詞,現在繼續優化的 AI 編輯優化,可以讓手機再加一件「專業編輯器」的新裝。
全新清潔功能可以幫助去除掃描文檔中的污迹、污漬和折痕。現在只用在相冊裏滑動幾下,即可消除圖片中的污漬。
借助 Google Tensor G3 的強大功能,Pixel 8 Pro 上的視頻增強模型,可在雲端調整顏色、照明、穩定性和顆粒度。
從官方展示的對比看,視頻被加了一層「鮮明」濾鏡,顏色更飽滿,明暗對比度更高,特别是在夜晚暗光環境中,這種 AI 優化的效果會更明顯。
相較視頻的編輯,影像美化應該是更多人的期待,特别是在拍動态物體的時候,模糊的畫面總會讓你在事後翻閲時留下一些遺憾,更新的 AI 編輯可以将 Google 照片中的模糊全部消除。
以後記錄自家寵物的高光時刻,不用擔心相機沒聚焦帶來的焦慮了。
此外,Google 将多設備之間的聯動也進行了更新。Pixel Watch 能夠成為手機解鎖的另一種方式,也能幫你忽略不需要的來電,或接聽電話之前确認對象以及通話原因。
如果你能買到 Pixel 8 Pro,或者已經是 Google 手機的用户,可以嘗試檢驗一下這些新功能,會不會成為你購買或繼續使用 Google 的推動力。
從今天開始,通過全新更新的 Gemini Pro 版本,Bard 将實現更高級的推理、規劃、理解等功能。它将在超過 170 個國家和地區提供英文版本。
在接受《麻省理工學院技術評論》的采訪時,Sundar Pichai 還説到:「Gemini Pro 在基準測試中的表現非常出色,當将其集成到 Bard 中時,我可以親身感受到它的優勢,我們一直在對它進行測試,所有類别任務的好評率都有顯著的提升,因此,我們将其稱為迄今為止最大的更新之一。」
▲目前 Bard 已使用 Gemini Pro 版本,圖片來自 X 用户 @gijigae
在接下來的幾個月裏,Gemini 還會陸續上線 Google 旗下更多的產品和服務,比如搜索、廣告、Chrome 和 Duet AI 等。
從 12 月 13 日開始,開發者和企業客户可以通過 Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API 訪問 Gemini Pro。
目前,Gemini Ultra 已經在内測中,并打算明年初推給開發者和企業用户,明年初,Google 還将推出 Bard Advanced,讓更多的普通用户用上最強的 Gemini Ultra。
Google CEO Sundar Pichai 在發布 Gemini 時説到:
每一次技術轉變都是推進科學發現、加速人類進步和改善生活的機會。
我相信我們現在看到的與 AI 有關的轉變将是我們一生中最深遠的,遠大于之前的移動或網絡的轉變。
想要實現 AGI(通用人工智能),就需要 AI 做到像人類一樣從容地解決不同領網域、不同模式的復雜任務,在這個過程中,除了基本的計算、推理等基礎能力,相對應的文字、影像、視頻等多模态能力也要跟上。
DeepMind 曾提出 AGI 的評估和分類的框架,前兩個階段分别是:
AGI-0:基本的人工智能,能夠在特定的領網域和任務上表現出智能,如影像識别、自然語言處理等,但是不能跨領網域和跨模态地進行學習和推理,也不能與人類和其他 AI 進行有效和自然的溝通和協作,也不能感知和表達情感和價值。
AGI-1:初級的通用人工智能,能夠在多個領網域和任務上表現出智能,如問答、摘要、翻譯、對話等,能夠跨領網域和跨模态地進行學習和推理,能夠與人類和其他 AI 進行基本的溝通和協作,能夠感知和表達簡單的情感和價值。
Gemini 的演示視頻,充分展現了它對各個模态互動的深刻理解,能看、能説、能推理、能夠感知和表達簡單的情感和價值,也讓我們看到了 AGI-1 的潛在可能性。
本文由李超凡、肖凡博、莫崇宇合寫