今天小編分享的互聯網經驗:重返開源戰場,谷歌打響AI“斯大林格勒保衞戰”,歡迎閲讀。
圖片來源 @視覺中國
文 | 烏鴉智能説,作者 | 小白
昨天晚上,谷歌毫無預兆地發布了開源模型 Gemma,主打輕量級、高性能,劍指 Meta 的 Llama。Gemma 的發布意味着谷歌大模型策略的轉變:從過去押注閉源追趕 OpenAI,到重返開源賽場,兼顧開源和閉源。
顯然,谷歌這一轉變是被迫的。自去年下定決心閉源後,谷歌明顯低估了追趕 OpenAI 的技術難度,持續被 OpenAI 壓制,甚至毫無還手之力。就連不久前發布的大模型核彈 Gemini 1.5,風頭也全讓 Sora 搶走了。
不過相比閉源,谷歌在開源戰場也面臨着不小挑戰。盡管谷歌擁有着明顯的技術優勢,而且在開源社區構建上也有豐富的經驗。但在 Meta、Mistral 等玩家逐漸主導開源市場的情況下,不占天時的谷歌想要追趕,必須投入更多的資源。
回顧科技競争史,每一個新時代的來臨,都意味着上個時代科技霸主的衰落。谷歌能否免于這種結局?從這個角度上説,開源就是谷歌在人工智能戰場的 " 斯大林格勒保衞戰 "。
最強開源大模型來了!
Gemma 在拉丁語中意為 " 寶石 ", 是由谷歌 DeepMind 和其他團隊共同合作開發,采用了與 Gemini 相同的研究和技術構建。
此次 Gemma 發布了 20 億和 70 億兩種參數規模的版本,每個規模又分預訓練和指令微調兩個版本。在 Gemini 的技術加持下,Gemma 形成了對現有開源大模型的碾壓。Gemma 在 18 個基準測評中平均成績擊敗目前的主流開源模型 Llama 2 和 Mistral,特别是在數學、代碼能力上表現突出。
其中,Gemma-7B 模型在涵蓋一般語言理解、推理、數學和編碼的 8 項基準測試中,性能已經超越了 Llama 2 7B 和 13B。安全性方面,經過指令微調的 Gemma-2B IT 和 Gemma-7B IT 模型,在人類偏好評估中都超過了 Mistal-7B v0.2 模型。
不過不同于支持多模态的 Gemini,Gemma 模型不是多模态的,也沒有針對多語言任務進行訓練。但根據谷歌發布的技術報告 Gemma 的分詞器詞表大小達到 256k。
這個怎麼理解?大模型理解用户提問是将文本轉化為數字之後再進行推理的,詞匯表就類似它的字典,其規模越大,對于復雜句式和生僻字詞的理解就越強,同樣也就能夠更快理解其它語言。Gemma 的分詞器詞表大小達到 256k,意味着它可以很快學會使用其他語言。
除了模型本身,另一個值得關注的點是,Gemma 從最開始的設計和訓練之時,就非常注重安全性,這意味着它非常适合部署在本地使用。例如,谷歌使用 Google Cloud 數據丢失防護 ( DLP ) 工具,從訓練集中自動過濾掉隐私信息和敏感數據。該工具根據隐私數據的類别(例如姓名、電子郵件等)輸出三個嚴重級别。據谷歌發布的技術報告顯示,最為敏感的信息幾乎完全不會被儲存,潛在隐私數據會有部分儲存。
在模型發布後,Gemma 也第一時間上線了 HuggingFace 和 HuggingChat,用户可以直接在這些平台上進行下載和試用。發布才幾個小時,已有不少用户分享了試用體驗,甚至部分用户還對其做出了很高的評價,社交平台 X 用户 @indigo11 稱其 " 速度飛快 "、" 輸出很穩定 "。
" 擰巴 " 的谷歌壓力很大
算上此次發布的 Gemma,已經是谷歌在短短一個月内放出的第三次大招。
2 月 9 日,谷歌宣布其最強大模型 Gemini Ultra 免費用,Gemini Ultra 于 2023 年 12 月發布時在 MMLU(大規模多任務語言理解)測評上超過人類專家,在 32 個多模态基準中取得 30 個 SOTA(當前最優效果),幾乎全方位超越 GPT-4。
2 月 16 日大年初七,谷歌放出其大模型核彈—— Gemini 1.5,并将上下文視窗長度擴展到 100 萬個 tokens。Gemini 1.5 Pro 可一次處理 1 小時的視頻、11 小時的音頻、超過 3 萬行代碼或超過 70 萬字的代碼庫,向還沒發布的 GPT-5 發起挑戰。
盡管谷歌動作頻頻,但風頭卻全讓 OpenAI 的的文生視頻大模型 Sora 搶走了。而此次谷歌之所以沒有預告地突然發布開源模型,恰恰不想重蹈覆轍。畢竟有消息稱,Meta 将在本周内發布 Llama 的更新版。
從表面上看,谷歌搶先 Llama 發布開源模型是為了挽回近期 " 頹勢 "。但更深層次的原因是,谷歌希望改變長期以來被 OpenAI 壓制的局面,探索更多 " 彎道超車 " 的可能性。
一個無比殘酷的事實是,自 2022 年 12 月 ChatGPT 發布以來,曾經 AI 領網域的扛把子谷歌就一直被 OpenAI 壓制得死死的,毫無還手之力。
去年 2 月,OpenAI 的 ChatGPT 風靡全球,谷歌草草推出了聊天機器人 Bard,產品卻不如預期。先是演示中出現事實錯誤,讓谷歌母公司一夜之間市值蒸發千億美元;而後也沒能以性能表現吸引足量用户,據 Similarweb 的數據,Bard 全球月訪問量只有 2.2 億次,僅為 ChatGPT 的 1/8。
去年 12 月 7 日,谷歌又發布了最強大模型 Gemini,盡管效果驚豔卻令市場有些意興闌珊。2024 年 1 月 31 日,谷歌最新财報顯示其收入亮眼,卻因 AI 方面進展不及預期市值一夜蒸發超 1000 億美元。
随着 Sora 的發布,越來越多人意識到一個問題:在 Scaling Law 的推動下,OpenAI 在閉源模型上的優勢越來越大。也就是説,此次宣布進軍開源,更像是谷歌在人工智能競賽的被迫之舉。
一方面,相比 Meta 在去年年中進軍開源模型,谷歌進軍開源模型晚了整整半年,這意味着其需要花數倍的努力進行模型的差異化以及推廣的投入,才有可能在眾多開源模型中脱穎而出。另一方面,至少從披露的内容看,相較于其他開源模型,谷歌推出的開源模型也并沒有太多超預期的地方。
但即使如此,進軍開源模型仍然對谷歌意義重大。畢竟,在對陣 OpenAI 節節敗退的情況下,谷歌亟需一場勝利來扭轉頹勢。而開源模型可能成為谷歌在人工智能戰場的斯大林格勒戰役。
谷歌重回開源
從歷史上看,開源對谷歌來説并不陌生,甚至在相當長時間裏,谷歌都是技術開源的堅定支持者。歷史上,Transformers、TensorFlow、BERT、T5、JAX、AlphaFold 和 AlphaCode,都是谷歌為開源社區貢獻的創新。
2015 年 11 月,谷歌公布了 TensorFlow,一度成為最流行的開源深度學習框架之一。任何人只要擁有電腦和網絡連接(并且懂一點點深度學習算法)就能使用有史以來最強大的機器學習平台。自 2015 年至今,成千上萬的開源貢獻者、開發人員、社區組織者、研究人員都投入到了這一開源軟體庫上。
2018 年,谷歌宣布将 BERT 進行開源,這是一種基于神經網絡的自然語言預訓練處理技術,其使用不僅限于搜索算法,任何人都可以在其他類型的問答系統中使用 Bert。更别説,在移動互聯網時代,谷歌還建立了足以匹敵蘋果的安卓開放生态。
與 OpenAI 不同,簡單粗暴的 Scaling Law 并不是谷歌唯一的路。此次開源 Gemma,不僅意味着想要重塑自己在 AI 社區的影響力,也代表谷歌大模型策略的轉變:兼顧開源和閉源。
放在當下的 AI 行業,發力開源模型也确實是谷歌一個不錯的選擇。
一方面,相比于閉源模型,開源模型的競争相對較小,競争主要來自 Meta 的 Llama。像谷歌在閉源模型的技術實力和開源社區方面的經驗,使其更有可能形成碾壓的局面。
另一方面,在 AI 落地的故事裏,開源模型仍然存在着不小的潛力。原因在于,開源模型的成本優勢将更有利于模型的落地。在很多場景裏,使用 GPT 就像是開蘭博基尼送外賣,成本過于高昂。有 AI 研究員做過一筆測算,GPT-3.5 的 API 價格幾乎是開源模型 Llama2 推理成本的 3-4 倍,更别提 GPT-4 了。
在移動互聯網時代,接近衰落的微軟靠着雲計算實現了最終的翻盤。如今,在人工智能故事裏不如意的谷歌能否復制這一路徑,我們拭目以待。