今天小編分享的互聯網經驗:AI就是所有人瘋狂競争,最後Google赢得比賽的遊戲?,歡迎閱讀。
2016 年,剛剛成為 GoogleCEO 幾個月後,桑達爾 · 皮查伊發表聲明稱 Google 将成為一家 "AI 優先 " 的公司,這一宣言背後,是 Google 對人工智能未來發展的戰略性押注。2017 年,一群 Google 研究人員撰寫了一篇關于 AI 的開創性論文《Attention Is All You Need》,提出了一種新的網絡架構來分析文本,也就是後來成為了生成式 AI 技術基礎的 Transformer。
然而,七年後的 2022 年底,ChatGPT 橫空出世,Google 被打了個措手不及。諷刺的是,Google 早在兩年前就已宣布了類似的技術 LaMDA,卻未能将其及時推向市場。正如許多競争對手所預料的,這個 " 房間裡的大象 " 終于被迫醒來。面對突如其來的競争壓力,皮查伊甚至請回了公司聯合創始人拉裡 · 佩奇和謝爾蓋 · 布林來重新審視公司的 AI 戰略。
在 ChatGPT 推出後的幾個月,Google 匆忙推出了自己的聊天機器人 Bard(後改名為 Gemini)。為了追趕對手的領先優勢,Google 不斷為 Gemini 添加大量新功能,試圖彌補落後的局面。Gemini 在過去也曾卷入争議,去年不得不暫時下線其影像生成功能,原因是這個聊天機器人生成了穿着納粹軍裝的黑人士兵影像,同時又拒絕生成白人的影像,這一功能直到六個月後才重新恢復。
經過幾年的努力,甚至重組了團隊結構,将 Gemini 應用團隊轉移到 DeepMind 部門,Google 通過 Gemini 實現了反彈,将人工智能業務推向快車道,幾乎在所有方面都趕上了 OpenAI。
值得注意的是,所有 AI 領網域的大公司似乎都在朝着相同的方向發展,專注于相似的技術路線:開發 AI Agent(能夠自主完成任務的 AI 系統)、深度搜索、更輕量的模型等等。這種趨同性可能意味着整個行業在某種程度上形成了共識,而 Google 正試圖在這個共識中脫穎而出。
Gemini 的高頻實用更新:從影像編輯到開源模型
就在蘋果承認那個所謂更智能的 AI 版 Siri 目前只是個空頭支票的同一時期,Gemini 推出了數個驚豔的更新。Google 的 Gemini 2.0 Flash 模型實現了讓用戶直接用自然語言來編輯圖片的功能,精确度和靈活性達到了很高的水平。此前備曾收到争議的影像功能,如今已成為 Gemini 的亮點之一。
用戶可以精确指導 AI 只修改影像中想要改動的部分,還能在同一張圖上連續做多次精确修改而風格不會出現大的偏差,就像在給一位真實的設計師發需求一樣。雖然目前 Gemini 2.0 Flash 還不能做到 100% 的一致性和準确性,但它顯然為用戶提供了創造更有趣、有用内容的強大工具。
将 Google DeepMind 的 CEO Demis Hassabis 變成一個長發男子
在開源方面,Google 上周還推出了新的多模态模型 Gemma 3,并對外開放了模型權重,允許在遵守規定的情況下用于商業用途。Google 表示,Gemma 3 的 Elo 評分達到了 1338 分,相當于 DeepSeek R1 模型 ( 1363 分 ) 的 98%。
但有個顯著區别:DeepSeek 模型需要 32 張英偉達 H100 顯卡才能達到這個分數,而 Gemma 3 只需要一張 H100 就行。因此,Google 宣稱 Gemma 3 是 " 能在單張 GPU 或 TPU 上運行的最強大模型 "。
Gemma 3 的上下文視窗從先前的 8192 個 token 擴展至 128000,基于 Gemini 2.0 基礎架構的 Gemma 3 還是一款多模态模型,能夠處理文本、高分辨率影像以及視頻。這些技術指标顯示了 Google 在 AI 基礎模型領網域的持續突破。
搜索與 AI 的深度融合:個性化成為關鍵
顯然,Google 在很多領網域都能夠持續創新,比如 Gemini,或者體驗一下 Waymo 無人駕駛汽車就知道了。現在的問題是,Google 能在自己的核心產品和主營業務上進行創新嗎?微軟目前的 AI 戰略很大程度上依賴于與 OpenAI 的合作夥伴關系,而非完全自主創新,蘋果則在 AI 領網域似乎完全迷失方向。
現在,Google 一方面在搜索中加入了 Gemini 的 AI 功能,另一方面又在 Gemini 中強化了搜索能力,直接切入 OpenAI 試圖搶占的交匯點。過去幾周 Google 發布的一系列公告,許多都與搜索與 AI 語言模型的融合有關,看上去像是在追趕 ChatGPT 等廠商早已推出的 AI 搜索功能,但 Google 試圖達到更高水平。
犧牲一部分隐私,讓 AI 更了解你?Google 最近上線了一項新的 " 實驗性功能 ",用戶可以把搜索記錄共享給 Gemini,來獲得更加個性化的搜索結果。為了保護隐私,只有 Gemini 個性化模型才會連接到搜索歷史記錄,且相關對話不會被用來改進 Gemini,不會存儲在其他地方,并且會在 60 天内自動删除。
有了這個功能,用戶可以向 Gemini 提一些基礎性問題,比如 " 我上周搜索的那家餐廳叫什麼名?" 或者 " 我要去紐約了,能根據我的搜索歷史給我推薦餐廳嗎?"。
此外,Google 去年底推出的率先推出的 Deep Research 功能,如今用戶無需訂閱也可以免費使用了。使用 Deep Research 時,根據用戶的指令,Gemini 會先制定一個研究計劃,然後開始搜索網絡上與提問相關的信息,最終生成一份全面但易讀的報告。這一功能從最初基于成本較高的 Gemini 1.5 Pro 模型,現已更新到新的推理模型 Gemini 2.0 Flash Thinking Experimental 模型上。
從數字世界邁向物理世界:Gemini Robotics 的野心
Google 還在嘗試将 Gemini 應用于物理世界。DeepMind 近期推出了兩個新的模型,旨在幫助機器人更好地執行物理世界的任務。第一個是視覺 - 語言 - 動作模型 Gemini Robotics,讓機器人即使沒有接受過相關訓練,也能夠理解新情況。
Gemini Robotics 基于 Gemini 2.0 構建,結合了 Gemini 的多模态理解能力,并加入了物理動作作為新的模态。DeepMind 在演示視頻中展示了搭載 Gemini Robotics 的機器人,這些機器人能聽懂人說的指令并做出相應動作:機械臂能折紙、遞蔬菜、小心地把眼鏡放進盒子裡,還能完成其他各種任務。
DeepMind 還推出了 Gemini Robotics-ER(具身推理),一種先進的視覺語言模型,能夠理解復雜且動态的世界。簡單來說,這個系統是給機器人開發者用的,目的是讓其他機器人研究人員利用此模型來訓練他們自己的模型,以控制機器人的動作。
Gemini Robotics 揭示了 GoogleDeepMind 眼中 AI 的發展方向。一些研究人員認為,AI 要想達到或超越人類能力,可能需要某種形式的 " 具身性 ",簡單說就是讓 AI 能在真實世界中感知和行動。而 Google 似乎已經走在了這條路上。
Google 的核心優勢:生态、資源與底蘊
Google 追趕 OpenAI 的表現目前為止還不錯,Gemini 2.0 Pro 和 Flash 模型确實很出色。深度研究功能做得相當好,上下文視窗大小在業界仍然是領先的,與搜索、Gmail、Google 辦公套件、Google Meet、Android 等的整合也在進行中。
Google 還把推理模型整合到了更多日常應用中,包括日歷、筆記、任務和照片。這使得 Gemini 可以執行更為復雜的任務,比如 Google 舉例的:" 在 YouTube 上找一個簡單的餅幹食譜,把配料添加到我的購物清單中,然後幫我找附近還開門的雜貨店。" 未來,Gemini 還能增強對用戶照片的理解能力,幫助用戶在需要時提取信息,例如整理過去旅行的行程,或提醒證件到期等。
有了足夠優秀的基座模型,這讓 Google 能夠充分利用自己現有的產品組合、雲基礎設施以及他們在現代工作生活中的深度嵌入優勢。Google 還擁有數十億用戶和充足的資金實力,可以利用自己的現有用戶基礎,以 OpenAI 們無法企及的方式發揮優勢。
皮查伊曾在公司年終戰略會議表示:" 縱觀歷史,你不一定要成為第一個,但你必須有良好的執行力,真正打造出同類最佳的產品。我認為這就是 2025 年的關鍵所在。" 他希望到 2025 年底有 5 億人使用 Gemini,此外還有 Project Astra 這樣的通用 Agent 項目在醞釀當中。
Google 本來有潛力成為像 ChatGPT 這樣的對話式 AI 的市場領導者,但當時沒能把握住這個機會。現在,現在 Google 所能做的就是繼續推進這項服務,吸引更多用戶來使用。
各個科技公司正不斷推出新的應用場景和能力。盡管最初被 OpenAI 刺激而被動反應,但憑借深厚的技術積累和廣泛的用戶基礎,Google 正逐漸重新确立其在 AI 領網域的領導地位。在這場 AI 競賽中,Google 用 Gemini 的亮眼表現證明了自己依然是絕對的主力選手,而且底子依然足夠厚,正在展示出赢得這場比賽的實力和決心。