今天小編分享的科技經驗:谷歌又沒能“遙遙領先”,歡迎閲讀。
千呼萬喚始出來,谷歌終于釋放了大模型的新大招—— Gemini。
當地時間 12 月 6 日,谷歌正式發布了 Gemini 大模型。在一份聲明中,谷歌 CEO 桑達爾 · 皮查伊(Sundar Pichai)稱,這是谷歌迄今為止 " 功能最強大、最通用 " 的模型。
對于 Gemini,谷歌就差説出 " 遙遙領先 " 四個大字。皮查伊描述其意義是人工智能發展的一個重要裏程碑,也是谷歌新時代的開始:" 這個新時代的模型代表了我們作為公司所進行的最大的科學和工程努力之一。我對即将到來的發展和 Gemini 為全球人民帶來的機遇感到無比激動。"
演示視頻中 Gemini 的表現的确稱得上 " 驚豔 "。在一段視頻中,谷歌的人員用視頻給 Gemini 畫畫、展示物品,并和它對話。Gemini 用語音和文字進行回答,不僅可以識别出工作人員手繪的簡筆畫是什麼,還能 " 看 " 出其手持的玩具鴨子的材質是 " 橡膠 ",并且還和其玩起了互動小遊戲。甚至在工作人員詢問鴨子一詞的普通話發音時,Gemini 也精準讀出,還順帶科普了普通話的四個音調。
這則演示之所以驚豔,是因為它融合展示了 Gemini 不俗的多模态能力。在影像、視頻、音頻等的輸入和輸出中,Gemini 不需要特别做切換,更貼近人與人互動的體驗。皮查伊在一篇博文中提到:"Gemini 一開始就是為多模态打造的,這意味着它可以生成并理解、操作和組合成不同類型的信息,包括文本、代碼、音頻、影像和視頻。"
谷歌也拿出數據展示 Gemini 的能力,比如在 MMLU 多任務語言理解數據集測試中,Gemini Ultra 不僅超越了 GPT-4,也比人類專家強。
眼尖的朋友不會忽略後綴 "Ultra"。這次 Gemini 發布提供了三個版本,分别是輕便的 Gemini Nano,可以在安卓設備上原生離線運行;Gemini Pro,已經接入 Bard;Gemini Ultra,本次發布的最強版本。
實際上,這次發布 Gemini 最亮眼的表現由 Gemini Ultra 貢獻,也是這個版本對标了 GPT-4,但這個版本計劃 2024 年才會正式推出。而 Gemini Pro 已經接入 Bard,但目前只可在英文互動中被調動,該模型對标 GPT-3.5,後者是 OpenAI 在 2022 年初就釋放的模型。至于 Gemini Nano," 谷歌親兒子 "Pixel 手機的最新版 Pixel 8 Pro 的用户将很快體驗到。
總而言之就是,Gemini 挺好的,就是 " 但是 " 有點多,承諾也多于當下的應用。更要命的是,在 Gemini 發布不久,就被外界扒出展示視頻疑似拼接剪輯的產物、Gemini Ultra 和 GPT-4 的測試疑似被谷歌 " 雙标 " 等問題。
Gemini 也許真的強,但是否達到了谷歌需要的 " 遙遙領先 "?
A
先來看看 Gemini 在發布之後遭遇了什麼質疑。
首先是那個頗為驚豔的展示視頻,視頻中 Gemini 流暢地與工作人員對話,用多模态的方式進行着互動。
但很快,展示視頻的聲明就被關注到了。聲明是這樣説的:" 為了演示的目的,(視頻中)延遲已經減少,Gemini 的輸出已經進行精簡。" 而這個聲明并沒有放在顯眼的位置,而是在谷歌發布的 YouTube 視頻的描述文本中,不仔細看很容易忽略。
難道谷歌的展示視頻并不是實時錄制,而是經過編輯的?可能更糟。彭 / 博社(Bloomberg)的專欄作家奧爾森(Parmy Olson)就此事問詢谷歌,得到了一位發言人的回應:這段視頻是通過 " 使用視頻中的靜态影像,并通過文字提示 " 制作的。
也就是説,演示視頻雖然給人一種人類和 Gemini" 視頻通話 " 暢聊的感覺,但這只是感覺,實際上視頻中工作人員所説的話,是在念給 Gemini 的文字提示,而展示的也不是視頻,而是靜态影像。
另有谷歌員工匿名向彭 / 博社吐槽,對演示視頻并不感到驚訝,因為他們已經習慣了某種程度的營銷炒作:" 我認為,大多數使用過 LLM(大語言模型)技術的員工都知道,要對這一切持保留态度。"
面對外界的質疑,谷歌選擇放低姿态,不僅放出了演示視頻背後詳細的互動過程,谷歌 DeepMind 的產品副總裁伊萊 · 柯林斯(Eli Collins)還明确表示,畫鴨子的演示展示的是一種研究層面的努力,至少目前不在谷歌的產品中。
其次是 Gemini Ultra 在測試中的表現。依據谷歌的展示,Gemini Ultra 在大規模多任務語言理解測試 MMLU 中,得分高達 90%,是首個在該測試中超越人類專家的模型。MMLU 綜合運用了數學、歷史、法律、物理、醫學和倫理等 57 個科目,是測試 AI 世界知識和問題解決能力的重要工具。
其中,谷歌展示的一張圖令人印象深刻,圖中 Gemini 的得分 " 遙遙領先 " 于 GPT-4 和人類專家,圖中 GPT-4 的得分在最底部,人類專家的得分大約在中間的位置,而 Gemini Ultra 的得分在頂部。
但人們很快就發現不對,GPT-4 在 MMLU 中的得分為 86.4%,人類專家是 89.8%,而 Gemini Ultra 的得分為 90%,何至于在折線圖中展示出均分畫面的效果?
這不是縱軸尺度不均的把戲嗎?這個把戲騙不了打工人,畢竟大家在工作匯報的時候都熟練運用了。
當紅的 AI 初創公司 HuggingFace 的 CEO 菲利普 · 施密德(Philipp Schmid)在社交平台上吐槽 " 永遠别相信營銷 ",并貼出了他幫谷歌修正後的折線圖,Gemini Ultra 的領先優勢立刻變得不那麼明顯了。
此外,施密德還發現了一個關鍵點,雖然同樣是對 MMLU 的測試,但 GPT-4 和 Gemini 的 " 待遇 " 不大相同。Gemini Ultra 的得分是基于 CoT 思維鏈提示技巧,嘗試 32 次後取的最佳得分,但 GPT-4 是在無提示詞技巧下,嘗試了 5 次拿到的得分。
施密德也提到,其實同樣是用 CoT@32(思維鏈提示技巧下嘗試 32 次),GPT-4 的得分為 87.29%,的确不如 Gemini Ultral;但要是同樣在無提示詞技巧下嘗試 5 次,Gemini Ultra 的得分其實只有 83.7%,低于 GPT-4 的 86.4%。
相當于 Gemini Ultra 和 GPT-4 分别參加了兩場考試,都拿到了兩個分數。明明是各自赢了一場考試,谷歌宣傳自己赢的那場考試就算了,還偏偏用自己在一場考試中的高分,去對陣 GPT-4 在另一場考試中的低分,怎麼看都有點 " 不講武德 " 了。
B
自從 ChatGPT 出現,谷歌踏入尴尬之境。
一方面,谷歌在 AI 領網域的野心與成就有目共睹。早在 2011 年,谷歌大腦 Google Brain 就已經成立,目标是研究深度學習和神經網絡。次年,谷歌大腦由 1.6 萬台電腦集群組成的人工神經網絡,在學習了 10 萬個 YouTube 視頻後,沒有學習 " 貓 " 為何物而自行精準識别出 " 貓 ",震驚四座。
2014 年,谷歌又以 6 億美元價格收購 DeepMind,當時後者還是僅有 50 名員工的小公司。谷歌對 AI 如此舍得下血本,也直接促成了馬斯克等人應激式地成立 OpenAI,以對抗谷歌未來在 AI 領網域可能形成的壟斷局面。
僅僅兩年後,已經被谷歌收入麾下的 DeepMind 就推出了 AlphaGo,擊敗圍棋頂尖選手李世石,一炮而紅。谷歌就此成為 AI 領網域不可忽視的、第一梯隊的力量。
其後數年,做研究、發論文、推產品,谷歌沒有停下在 AI 領網域的腳步。OpenAI 的 GPT 模型之 "T",正是 Transformer 模型之意。Transformer 模型是一種用于自然語言處理中的神經網絡模型,是由谷歌的研究人員在 2017 年提出的,那一年皮查伊喊出 " 從移動優先轉向 AI 優先 " 的口号。當年寫就 Transformer 論文的研究人員,也被冠以 "Transformer 八子 " 的稱号,可見其分量之重。
但另一方面,ChatGPT 推出之後,谷歌就陷入了被動。
如果説幾年前做 " 誰會造出一個轟動世界的大模型驅動的聊天機器人 ",那谷歌八成是猜測的大熱門。但這并不是故事的走向,OpenAI 推出了 ChatGPT,而谷歌至今沒有能與之抗衡的產品。
今年 2 月,在外界的矚目下,谷歌推出了聊天機器人 Bard。作為 ChatGPT 的直接競品,Bard 被寄予厚望,卻不如預期。先是演示中出現事實錯誤,讓谷歌母公司一夜之間市值蒸發千億美元。而後也沒能以性能表現吸引足量用户,據 Similarweb 的數據,Bard 全球月訪問量只有 2.2 億次,僅為 ChatGPT 的八分之一。
谷歌在 AI 領網域明明素有 " 遙遙領先 " 之态,為什麼這次不能 " 遙遙領先 " 了,問題到底出在哪兒?
"Transformer 八子 " 也許能掀開谷歌難題的一角。這八子目前已經全部從谷歌出走,其中 1 位加入 OpenAI,其餘 7 人創業。彭 / 博社引用谷歌科學家和工程師稱,谷歌規模龐大,任何創意都要經過多層确認。就算創意通過,從創意到產品的門檻也很高。在谷歌,高級研究人才想将想法變為現實,難度頗大。
換句話説,谷歌多少有點 " 大公司病 ",這也可以解釋為何谷歌在應對 OpenAI 和微軟的挑戰時顯得有些 " 遲緩 "。
ChatGPT 的推出,使得 AI 的戰場更加瞬息萬變,看看 OpenAI 和微軟過去一年對模型和產品的迭代速度就知道了——今年 2 月微軟推出新必應,3 月 OpenAI 就正式推出了 GPT-4,9 月微軟推出微軟 " 智能副駕 "Microsoft Copilot,10 月就開始向 Windows 11 用户推送更新,11 月 OpenAI 又推出了 GPT-4 Turbo。況且 OpenAI 每次的發布會還會有真槍實彈的演示,動辄就是 " 即日起可用 "。在這樣的競争環境下,谷歌的 " 謹慎 " 就變成了一種詛咒。
C
谷歌有足夠的理由着急。
在 AI 驅動的雲計算競賽中,谷歌一直落後于微軟。今年兩大巨頭多次同日發布财報,讓對比更加明顯。截至 9 月底的 2023 年第三季度财報顯示,谷歌雲營收低于華爾街預期,且為 11 個季度以來增長最慢的一季。而微軟同樣截至 9 月底的 2024 财年第一财季業績報告則顯示,微軟智能雲部門收入同比增長 19%,其中 Azure 更是同比增長 29%。
在 Bard 效果不佳的情況下,Gemini 是谷歌尋求突破的一枚關鍵棋子,這也是 Gemini 還沒推出就備受矚目的原因。
今年 4 月,谷歌将谷歌大腦 Google Brain 和 DeepMind 合并,成為新的部門谷歌 DeepMind。此前谷歌原生孵化的谷歌大腦與收購而來且一直享有高度自主權的 DeepMind 之間,一直有資源搶奪和内部競争的問題,這與 "Transformer 八子 " 出走暴露出的谷歌的問題一致。
而合并二者,顯示出了谷歌從組織層面上入手,掃清 AI 競賽上的障礙之決心。合并之後,DeepMind 聯合創始人德米斯 · 哈薩比斯(Demis Hassabis)成為谷歌 DeepMind 的 CEO。
不出兩個月,哈薩比斯就在采訪中透露了 Gemini 項目,并放出豪言,稱 Gemini 的能力将強過 OpenAI 的 GPT-4。
在今年年中的谷歌 I/O 開發者大會上,谷歌共提及 143 次 AI,皮查伊首次承認 Gemini 的存在。從那時起,全世界都在等着谷歌 " 憋大招 "。
如此看來,就能理解谷歌為什麼在那麼多 " 但是 " 的情況下,就發布 Gemini,又為什麼要如此用力地營造 " 遙遙領先 " 的形象。
好消息是,盡管外界質疑頗多,但市場對谷歌 Gemini 的發布給出了正反饋。當地時間周四,谷歌母公司 Alphabet 的股價大幅上漲了 5.3%,市值上漲 800 億美元。巧合的是,今年 9 月傳出的 OpenAI 最新估值正在 800 億美元到 900 億美元之間。谷歌一夜漲出了一個 OpenAI。
壞消息是,承諾大過落地的 Gemini,需要實實在在地兑現承諾,2024 年 Gemini Ultra 的正式推出将是一個關鍵節點。
而在那之前,只能默默祈禱 OpenAI 的 GPT-5 來得慢一些。就在上個月,OpenAI 的 CEO 山姆 · 阿爾特曼(Sam Atlman)透露,GPT-5 正在開發中。
參考資料:
1、新浪科技:《兩個小時:谷歌説了 143 次 AI,股價連漲兩天》
2、财聯社:《OpenAI 承認正開發 GPT-5 終極目标是相當于人腦的超級 AI》
3、極客公園:《谷歌 25 周年|3.0 ——從 AI 弄潮兒到追趕者》
4、北京商報:《同日發财報:微軟赢了谷歌》