免費的GPT-4o足夠強，但治不好OpenAI的產品焦慮

今天小編分享的科技經驗：免費的GPT-4o足夠強，但治不好OpenAI的產品焦慮，歡迎閱讀。

文｜甲子光年，作者 | 劉楊楠，編輯 | 王博、栗子

5 月 14 日凌晨 1 點，繼 OpenAI 在 AI 搜索上 " 虛晃一槍 " 之後，讓薩姆 · 奧爾特曼（Sam Altman）感覺 " 像魔術一樣 " 的新模型終于浮出水面。

不是 GPT-5，不是 AI 搜索，而是最新旗艦生成式 AI 模型 GPT-4o！

GPT-4o（"o" 代表 "omni"，意為 " 全能的 "）是邁向更自然的人機互動的一步——它接受文本、音頻和影像的任意組合作為輸入，并生成文本、音頻和影像的任意組合輸出。

整場發布會時長僅 30 分鍾，OpenAI CTO 米拉 · 穆拉蒂（Mira Murati）帶來主題演講。" 這是我們第一次在易用性方面真正邁出一大步。"穆拉蒂在公司舊金山總部的現場演示中說道， " 這種互動變得更加自然，也更加容易。"

值得注意的是，此次發布會 OpenAI CEO 薩姆 · 奧爾特曼并未現身。在 OpenAI 官網披露的 GPT-4o 貢獻者中，依然沒有看到 OpenAI 首席科學家伊利亞 · 蘇茨克維爾（Ilya Sutskever）的身影。

"GPT-4o 是我們最好的模型 "

整場發布會的主角，就是 OpenAI 最新旗艦生成式 AI 模型 GPT-4o。

OpenAI 官網博客顯示，GPT-4o（"o" 代表 "omni"）是邁向更自然的人機互動的一步。它接受文本、音頻和影像的任意組合作為輸入，并生成文本、音頻和影像的任意組合輸出。

相比今年 2 月的 Sora， OpenAI 此次發布顯得更有誠意——GPT-4o 将免費提供給所有用戶使用，Plus 用戶則可以享受到 5 倍的調用額度。

穆拉蒂表示，GPT-4o 将提供與 GPT-4 同等水平的智能。

同時，GPT-4o 的運行速度大大提升，最大亮點在于其語音互動模式采用了全新技術，讓聊天機器人對話的響應速度大幅提升。OpenAI 官網博客顯示，GPT-4o 在談話中對音頻輸入的平均響應時間為 320 毫秒，最短的響應時間為 232 毫秒，與人類的響應時間相似。

GPT-4o 還有超高的 " 語言天賦 "，能支持 50 種語言，并顯着提高了非英語語言的性能，包括改進帳詞器以更好地壓縮其中的許多語言：

根據傳統基準測試，GPT-4o 在文本、推理和編碼智能方面實現了 GPT-4 Turbo 級别的性能，同時在多語言、音頻和視覺功能上設定了新的高水位線。

開發人員現在可以在 API 中訪問 GPT-4o。與 GPT-4 Turbo 相比，GPT-4o 速度提高 2 倍，價格降低一半，速率限制提高 5 倍。

在現場演示環節，GPT-4o 更是展現了各類花式操作——它能根據演示者的實時要求變換語音語調，演繹話劇；能實時讀圖；甚至還跟演示者們開起玩笑，唱起歌。

此外，OpenAI 還發布了桌面版的 ChatGPT 和新的用戶界面。

用戶可以向 ChatGPT（由 GPT-4o 提供支持）提出問題，并在 ChatGPT 回答時打斷它。OpenAI 表示，該模型提供 " 實時 " 響應能力，甚至可以感知用戶聲音中的情感，從而生成 " 一系列不同情感風格 " 的聲音（包括唱歌）。

GPT-4o 還更新了 ChatGPT 的視覺能力。給定一張照片或一個桌面螢幕，GPT-4o 可以快速回答相關問題，主題範圍包括 " 此軟體代碼中發生了什麼？" 到 " 這個人穿什麼牌子的襯衫？"

" 我們認識到這些模型正變得越來越復雜，" 穆拉蒂說道，" 但我們希望用戶與人工智能模型的互動體驗能夠更加自然、輕松，讓用戶可以将注意力完全集中在與模型的協作上，而無需在意界面本身。"

穆拉蒂還透露，未來幾周内，GPT-4o 将分階段集成至 OpenAI 的各個產品之中，而且會在 ChatGPT Plus 中推出新版語音模式 GPT-4o 的 alpha 版。

OpenAI 研究員威廉 · 費達斯（William Fedus）表示："GPT-4o 是我們最先進的新前沿模型。我們一直在 LMSys arena 上測試一個版本 im-also-a-good-gpt2-chatbot。"

" 這不僅是世界上最好的模型，而且可以在 ChatGPT 中免費使用，這對于前沿模型來說是前所未有的。"費達斯補充道，" 我們發現在更難的提示集上——特别是編碼——存在更大的差距：GPT-4o 比我們之前的最佳模型實現了 +100 ELO。"

奧爾特曼也在 X 上表示："GPT-4o 是我們最好的模型。"

OpenAI 此次發布幾乎在想盡辦法 " 讨好 " 用戶，在 " 互動體驗 " 上下足了功夫，直接免費開放使用更讓用戶感受到了 OpenAI 的誠意。

但「甲子光年」發現，在這種誠意背後，這家已被捧上神壇的 AI 創業公司，正深陷于某種焦慮之中。

OpenAI 的產品焦慮

雖然奧爾特曼今天并未到場，但 5 月 11 日，他便親自下場預告。可是，翻翻評論區，網友們的關注點似乎有點兒跑偏。

有人喊話奧爾特曼讓 OpenAI 首席科學家伊利亞回歸：

有人關心 GPT-5 到底何時發布：

伊利亞的去向和 GPT-5 的發布是 OpenAI 留給外界的兩大謎題，也是外界最關心的兩大問題。

2024 年，人們對 OpenAI 最大的期待便是 GPT-5。然而，每當奧爾特曼在訪談中被問及 GPT-5 相關進度時，卻總是支支吾吾、諱莫如深。奧爾特曼在普羅大眾心中的畫像也逐漸從一位開天辟地的怪力少年，轉變為一個在各國政客間長袖善舞，在各種場合大打太極的 " 成熟企業家 "。

更致命的是，ChatGPT 和 GPT-4 之後，OpenAI 似乎一直沒能推出相同重量級的 AI 產品，這些都在不斷消磨外界對 OpenAI 的期待與信心。

今年 2 月，OpenAI 發布 Sora —— 1 份技術報告、32 篇引用論文、一些畫面堪比電影鏡頭的 demo 和 1 個故作高深的 " 世界模拟器 " 概念就是 OpenAI 給出的全部，沒有技術論文，也沒有可公開體驗的產品入口。

「甲子光年」曾向多位 AI 從業者提問："ChatGPT 和 Sora，誰帶給你的震撼更大？" 各位受訪人幾乎不約而同地回答："Sora 有震撼，但沒 ChatGPT 的震撼大。"

造成這種感官差異的直接原因是，ChatGPT 能直接體驗，但 Sora 不能。雖然 ChatGPT 也會犯一些荒唐的錯誤，但真實的交流感帶給人們的震撼，遠遠大于只可遠觀、不能上手體驗的 Sora。甚至不少聲音開始猜測，Sora 精美的 Demo 或許是工程師在背後屢次微調的結果，Sora 實時互動的結果 " 可能遠不如此 "。

對于外界的猜測、質疑，OpenAI 并未回應，而是迅速扔出下一個 " 靶子 " —— AI 搜索。

過去一周，外媒不斷有消息傳出 OpenAI 将推出 AI 搜索產品，更有媒體猜測，谷歌一年一度的 I/O 大會即将于 5 月 14 日舉辦，而 OpenAI 此舉是針對谷歌的精準狙擊。

不過，AI 搜索的熱度炒了半天，所謂的 AI 搜索產品最終只是虛晃一槍。

昆侖萬維董事長兼 CEO 方漢近期在一次直播中直言：" 我覺得搜索引擎對于 OpenAI 的用戶增長也不會有根本性的變化。"有數據顯示，從去年 5 月開始，ChatGPT 的 C 端增長便逐漸觸頂。

而產品焦慮一日不解，OpenAI 距離 " 偉大的公司 " 就永遠有一牆之隔。

GPT-4o 能治好嗎？

今天再次復盤 ChatGPT 的成功會發現，這是一次不可復現的 " 無心插柳 "。

2022 年中，OpenAI 開始訓練 GPT-4。半年後的 11 月 30 日，OpenAI 發布 ChatGPT，全球各界都為之顫動。

OpenAI 内部曾對是否發布 ChatGPT 有過很長一段時間争論，因為誰都無法 100% 确認這是正确的事情。

彼時，OpenAI 對自己的定位是一家為開發人員和企業構建工具的公司，而非直接面向普羅大眾。因此，OpenAI 要面臨的核心挑戰，是 ChatGPT 的使用門檻是否足夠低，以至于能讓完全不懂技術的人用起來。

在此之前發布的視覺模型 DaLL-E 已經讓 OpenAI 嘗到了甜頭。但 ChatGPT 能復制 DALL-E 的成功嗎？

奧爾特曼是名副其實的 " 冒險派 "，他鼓勵公司發布 ChatGPT，" 嘗試一下 "。在他看來，用戶和模型進行文本形式的互動會產生一些很重要的個性化結果。

很快，用戶的熱情證明，這次試驗無比成功。從 2022 年 11 月上線的第一個完整月（2022 年 11 月）開始，到 12 月這一數字達到了 2.66 億人次，月環比增長了近 75%。到 2023 年 1 月，總訪問量翻了一番多，達到 6.16 億人次，2 月就首次突破 10 億人次大關。

這突如其來的成功，在 OpenAI 的意料之外。

" 我們并沒有認為 GPT-3 系列模型已經跨越了将其應用于消費者或企業的門檻，本以為 GPT-4 會成為第一個跨越這道門檻的模型，所以我們的很多計劃和預測都是圍繞 2023 年 3 月發布 GPT-4 來安排的。"OpenAI COO 布拉德 · 萊特凱普（Brad Lightcap）此前在英偉達 2024 GTC 大會上分享道。

按照萊特凱普的說法，OpenAI 用了 6 個月來适應 ChatGPT 的爆炸性增長，并确保公司有足夠的 GPU 來滿足用戶的需求。

直到 2023 年後半年，OpenAI 開始感受到了來自行業一線的真實需求。OpenAI 曾公布，截止 2023 年 8 月，80% 的财富 500 強公司已采用 ChatGPT。80% 的統計數據是指擁有注冊 ChatGPT 帳戶的财富 500 強公司的百分比，由與企業電子郵件網域關聯的帳戶确定。

于是，OpenAI 迅速行動。2023 年 8 月 28 日，OpenAI 推出 ChatGPT Enterprise，正式進軍企業市場。它提供企業級安全和隐私、無限的高速 GPT-4 訪問、用于處理更長輸入的更長上下文視窗、高級數據分析功能、自定義選項等等。

這是一個很微妙的時間點—— ChatGPT 流量見頂，開始走下坡路。

根據第三方網站 SimilarWeb 的監測數據，2023 年 6 月 ChatGPT 的網站與移動客戶端的全球流量（PV）環比下降 9.7%，美國地區的流量環比下降 10.3%。同時，ChatGPT 的獨立訪客數量（UV）下降了 5.7%，訪客在網站上花費的時間也下降了 8.5%。

這是自 2022 年 11 月 30 日發布以來，ChatGPT 首次出現流量負增長。其實，ChatGPT 增長放緩的勢頭在 2023 年 5 月已經出現端倪，5 月的增長率僅為 2.8%。

當時，一家 AI Lab 負責人告訴「甲子光年」，ChatGPT 流量下滑 10%，但真正的挑戰不在這裡。" 大部分人都是帶着體驗的目的，看看 ChatGPT 到底有多強大才去注冊的，包括我也是。但這不意味着我會天天用它。除了做一些簡單的科普，或者給孩子寫作文之外，大部分人日常其實也不太會用到。" 這位 AI Lab 負責人說。

萊特凱普自己也在一次訪談中犀利點評 ChatGPT：" 人們玩兒過一會兒後就認為它并不是真正的工具，而更像一個玩具。"

更嚴峻的是，ChatGPT 的燒錢速度同樣出人意料。

當 OpenAI 的早期投資人埃隆 · 馬斯克（Elon Musk）問到 ChatGPT 的成本時，奧爾特曼給到的數據是 " 每次對話的平均費用為幾美分 "。2023 年 4 月，國外一位分析師估算的數據則是每天的運營成本高達 70 萬美元。

2023 年 2 月 1 日，OpenAI 開始商業化探索，推出付費版本的 ChatGPT Plus，定價每月 20 美元，提供的增值服務包括 " 高峰時段免排隊、快速響應以及優先獲得新功能 " 等。

如此看來，ChatGPT 雖然備受喜愛，但在商業層面，卻算不上一個真正成功的產品。這些被 ChatGPT 燒掉的錢，就要用 B 端來填。

數據顯示，截至 2023 年 11 月，已經有 92% 的 500 強企業以某種形式部署 ChatGPT。Block、Canva、Carlyle、雅詩蘭黛、普華永道和 Zapier 均為 OpenAI 的早期客戶。

C 端流量與 B 端客戶量的此消彼長之間，OpenAI 也逐漸由一家偉大而光榮的非營利性 AGI 實驗室，加速轉變為一家 " 平庸 " 的商業公司——他們或許能賺到很多錢，卻沒有造出能夠說服用戶的產品。

直到今天，讓奧爾特曼感到 " 像魔術一樣 " 的 GPT-4o 面世。

只是 GPT-4o 真能治好 OpenAI 的產品焦慮嗎？答案或許并不清晰。

從模型能力上來看，實時語音互動是 GPT-4o 在多模态方面最亮眼的進展。然而事實上，語音互動類產品并不新鮮。在可查閱的歷史中，AI 語音互動類產品在商業化方面并沒有太多成功的案例，蘋果的 Siri 到今天都是一個十分雞肋的功能。

而發布會上的 GPT-4o，看起來依然是一個 " 有趣的玩具 "。

從 " 無心插柳 " 的 ChatGPT，到 " 只可遠觀 " 的 Sora、" 虛晃一槍 " 的 SearchGPT，再到今天的 GPT-4o，都只是 OpenAI 向世界展示其 AI 能力的 " 半成品 "，而并非一個真正能夠說服用戶的商業產品，這在某種程度上限制了 OpenAI 用戶的增長。

當然，不可否認的是，從這次發布會的效果來看，GPT-4o 或許會成為又一個成功的 PR 案例，被寫入 OpenAI 的歷史。