GPT-5來了？OpenAI被曝加急訓練多模态大模型Gobi，一舉狙殺谷歌Gimini！ - 大酷樂

今天小編分享的科技經驗：GPT-5來了？OpenAI被曝加急訓練多模态大模型Gobi，一舉狙殺谷歌Gimini！，歡迎閲讀。

多模态大模型的戰場上，已有人聞到風聲。據外媒爆料，OpenAI 的全新多模态模型 Gobi 似乎已在籌備中。谷歌和 OpenAI 的這場對決，似乎已是箭在弦上了。

随着今年秋天的臨近，谷歌和 OpenAI 的多模态模型之戰，也進入到白熱化階段。

就在上周，谷歌已經對一些外部公司開放了多模态大模型 Gemini 的功能。

而 OpenAI，當然不會坐以待斃。他們正在争分奪秒地把多模态功能整合進 GPT-4 裏，争取推出功能與 Gemini 類似的多模态大模型，一舉擊殺谷歌。

傳説中的多模态功能，在今年 3 月 OpenAI 那場震驚全世界的 GPT-4 發布會上，已經被展示過——

在紙上畫個草圖，拍個照發給 GPT-4，説一聲「給我按照這種布局做個網站」，它立馬就寫出了網頁代碼。

老板 Greg Brockman 親自上線演示

不過随後，多模态仿佛昙花一現，再也沒人見過產品化的實體功能。

所以，谷歌和 OpenAI 的多模态大戰，終于要來了嗎？

01

對戰谷歌，OpenAI 搶發多模态大模型

面對傳聞中谷歌要擊殺自己的這款大殺器，OpenAI 當然不會無動于衷。

據外媒 The Information 爆料，一款名為 Gobi 的全新多模态大模型，已經在緊鑼密鼓地籌備了。

OpenAI 計劃，在 Gemini 發布之前就推出多模态 LLM，徹底擊敗谷歌。

OpenAI 的 Greg Brockman vs 谷歌的 Demis Hassabis

其實，在 3 月份推出 GPT-4 多模态功能的預覽後，OpenAI 已經向一家名為 Be My Eyes 的公司推出了這項功能，但并沒有向其他公司提供。

從名字就可以看出來，這家公司在研發讓盲人或視力不佳人群看得更清楚的技術。

最近，OpenAI 打算更廣泛地推出名為 GPT-Vision 的功能。

OpenAI 為什麼花了這麼長時間？

最主要的原因，是他們擔心新的視覺功能會被不法分子利用，比如通過自動破解驗證碼來冒充人類，或者通過面部識别來追蹤人類。

不過，對于這些法律上的安全風險，OpenAI 的工程師們似乎已經解決了。

同樣，一位谷歌發言人也表示：谷歌已經采取了一些措施，防止 Gemini 被濫用。

在 7 月做出的承諾中，谷歌保證會在所有產品中開發負責任的人工智能。

Gobi 能成為 GPT-5 嗎？

在 GPT-Vision 之後，OpenAI 有可能會推出更強大的多模态大模型，代号為 Gobi。

跟 GPT-4 不同，Gobi 從一開始就是按多模态模型構建的。

所以，Gobi 就是傳説中的 GPT-5 嗎？

現在，我們還無法知曉。Gobi 訓練到哪一步了，也沒有确切消息。

在 9 月初，DeepMind 聯合創始人、現 Inflection AI 的 CEO Mustafa Suleyman，在采訪時曾放出一枚重磅炸彈——據他猜測，OpenAI 正在秘密訓練 GPT-5。

Suleyman 認為，Sam Altman 最近説過他們沒有訓練 GPT-5，可能沒有説實話。（原話是：Come on. I don ’ t know. I think it ’ s better that we ’ re all just straight about it.）

而在這邊，根據試用過 Gemini 的人士，Gemini 產生的幻覺，會比現有的模型都更少。原因詳見下文。

總之，谷歌和 OpenAI 的這場多模态模型大戰，可以説是 AI 版的 iPhone 和 Android 對決。

一個是稱霸 AI 領網域多年的硅谷巨頭，一個是風頭無兩的頂流 AI 初創公司，二者差距有多大，所有人都在屏息等待。

谷歌秘密測試 Gemini

另一邊，谷歌也在開始邀請部分外部開發者加急測試，即将推出的下一代多模态大模型 Gemini 。

上周，The Information 獨家報道稱，Gemini 可能很快準備好進行測試發布，并會集成到像 Google Cloud Vertex AI 等服務中。

在今年的谷歌 I/O 開發者大會上，劈柴曾公開介紹 Gemini，是一個多模态模型、高效集成工具、API。

為了合力幹大事，谷歌還将谷歌大腦，與 DeepMind 實驗室進行了合并。

據稱，至少有 20 多位高管參與了 Gemini 的研發，DeepMind 的創始人 Demis Hassabis 領導，谷歌創始人 Sergey Brin 參與研發。

還有谷歌 DeepMind 組成的數百名員工，其中包括前谷歌大腦主管 Jeff Dean 等等。

一位測試過的人士説，Gemini 至少在一個方面比 GPT-4 有優勢：除了網絡上的公開信息外，該模型還利用了大量谷歌消費產品（搜索、Youtube）的專有數據。

因此，Gemini 在理解用户對特定查詢的意圖時應該特别準确，而且它產生的錯誤答案，即幻覺，似乎更少。

據此前 SemiAnalysis 分析師的爆料，谷歌的下一代大模型 Gemini，已經開始在新的 TPUv5 Pod 上進行訓練，算力高達 ~1e26 FLOPS，比訓練 GPT-4 的算力還要大 5 倍。

另外，Gemini 的訓練數據庫包含 Youtube 上 936 億分鍾的視頻字幕，總數據集規模約為 GPT-4 的兩倍。

據稱，谷歌下一代大模型也是由多種規模組成，可能使用了 MoE 架構，以及投機采樣技術。

通過小模型提前生成 token 并傳遞給大模型進行評估，以提高模型的總體推理速度。

谷歌 DeepMind 的負責人 Hassabis 在采訪中曾表示，Gemini 預計花費數千萬到數億美元，與開發 GPT-4 的成本相當。

Gemini 會整合 AlphaGo 中使用的技術，這将賦予系統全新的規劃、解決問題的能力。

可以這麼説，Gemini 把 AlphaGo 系統的一些優勢，和大語言模型驚人的語言能力結合在一起了。并且，我們還有一些其他有趣的創新。

AlphaGo 背後的技術，就是強化學習，這是 DeepMind 首創的技術。

RL 代理随着時間的推移與環境互動，通過反復試驗來學習策略，從而最大限度地提高長期累積獎勵

通過強化學習，AI 能夠通過反復嘗試和接受反饋來調整自己的表現，因而學會處理很棘手的問題，比如在圍棋或電子遊戲中選擇如何采取下一步行動。

另外，AlphaGo 還使用了蒙特卡洛樹搜索（MCTS）方法，來探索和記住棋盤上所有可能的動作。

現有模型相比，Gemini 将大大提高軟體開發人員的代碼生成能力，谷歌希望用它來追趕微軟的 GitHub Copilot 代碼助手。

谷歌内部還讨論了，使用 Gemini 來實現圖表分析等功能，比如要求模型解釋完成圖表的含義，以及使用文本或語音指令來浏覽網頁浏覽器或其他軟體。

谷歌雲開發者平台 Google Cloud Vertex AI 也将得到 Gemini 加持，大小版本都有，這樣開發人員就可以付費購買小模型在個人設備上運行。

現在，谷歌已經在全力備戰，就等着 Gemini 開啓逆襲之路。

02

gpt-3.5-turbo-instruct 發布

7 月，OpenAI 曾公布 GPT-4 API 全面可用，并且在接下來幾個月要推出新模型。

這不，就在今天，網友紛紛收到了 gpt-3.5-turbo-instruct 新模型發布的郵件，以代替舊模型 text-davinci-003。

據介紹，gpt-3.5-turbo-instruct 是一個 InstructGPT 風格的模型，其訓練方式與 text-davinci-003 類似。

使用方法和以前的 Prompt-Completion 類似，根據提示詞的指令補全。

就價格來説，gpt-3.5-turbo 4K 保持一致。

有網友已經開始用上了最新模型，去玩 1800 Elo 左右的國際象棋。

而他此前還發現 GPT 根本做不到這一點，但現在看來這只是 RLHF 聊天模型的問題，純 Completion 模型就成功了。

在對弈中，gpt-3.5-turbo-instruct 輕松擊敗了 Stockfish 4 級（1700 分），在 5 級（2000 分）的比賽中仍不落下風。

它從不走非法棋步，使用巧妙的開局犧牲，以及令人難以置信的卒與王将死，允許對手毫無實際意義地晉級。

網友用的是如下 PGN 風格的提示來模拟大師級遊戲。高亮顯示有點錯誤。GPT 自己走棋，他手動輸入了 Stockfish 的棋步。

順便提一句，OpenAI 即将在 11 月召開的首屆開發者大會，已經開始注冊了，快上手申請吧。