OpenAI深夜炸場！最強模型GPT-4o完全免費，實時語音視頻互動震撼世界

今天小編分享的互聯網經驗：OpenAI深夜炸場！最強模型GPT-4o完全免費，實時語音視頻互動震撼世界，歡迎閱讀。

（圖片來源：OpenAI 官網）

迎來了一個全新的裡程碑。

北京時間 5 月 14 日凌晨，美國 OpenAI 公司推出可免費使用的全新旗艦 AI 模型 GPT-4o，并将推出 PC 桌面版 ChatGPT。

OpenAI 首席技術官米拉 · 穆拉蒂 ( Mira Murati ) 表示，GPT-4o 裡的 "o" 是 Omni（全能模型）的縮寫，可實時進行音頻、視覺和文本推理，它可以在短至 232 毫秒、平均 320 毫秒的時間内響應音頻輸入，與人類在對話中的反應速度一致。

米拉 · 穆拉蒂指出，在 API 使用方面，相比去年 11 月發布的 GPT-4-turbo，GPT-4o 價格降低一半（50%），速度提升兩倍（200%）。

這個深夜，OpenAI 不止成功在 15 日 I/O 開發者大會之前搶奪谷歌風頭，而且新的大模型互動體驗正颠覆世界。

GPT-4o 新模型自今早起陸續推出，付費版本用戶今天就能看到 GPT-4o 新模型提示，甚至今晨 GPT-4o 消息都是實時展示。

OpenAI CEO 奧爾特曼（Sam Altman）發實時推文表示，新的 GPT-4o 是 OpenAI 有史以來最好的模型，它很智能，速度很快，是原生多模态，并且它可供所有 ChatGPT 用戶使用，無論是免費版本還是付費 GPT-4 版。

" 這對我們的使命很重要，我們希望将出色的 AI 工具交到每個人手中。" 奧爾特曼表示。

OpenAI 聯合創始人兼總裁格雷格 · 布羅克曼（Greg Brockman）發 GPT-4o 介紹視頻中表示，這是 OpenAI 朝着更自然的人機互動（甚至人機 - 計算機互動）形式邁出的重要一步。

發布之後，網友：它是不是完全可以替盲人看世界了？OpenAI 要颠覆世界了？為外語行業默哀。

凌晨僅僅 26 分鍾的發布會，打響了這個 5 月全球 AI" 軍備競賽 "。同時，GPT-4o 的發布，或将颠覆外語、實時翻譯、音視頻剪輯等眾多行業。

ChatGPT 狂飙 530 天，OpenAI 持續發力通用大模型

随着 2022 年底 AI 聊天機器人 ChatGPT 風靡全球，掀起新一輪 AIGC 浪潮。過去 530 天裡，研發 ChatGPT 背後的 OpenAI 公司身處聚光燈下，并迅速成長為 860 億美金估值的 AI 獨角獸。

英偉達 CEO 黃仁勳曾表示，ChatGPT 的出現是 AI 的 "iPhone 時刻 "。

2023 年 3 月，OpenAI 推出多模态大模型 GPT-4，不僅理解能力、可靠性和長文本技術能力全面增強，且具備影像處理。而且在專業基準測試中，GPT-4 表現近似于人類的水平，如模拟律師考試得分能排到前 10% 左右，擊敗 90% 的人類。

随後，OpenAI 更新 ChatGPT 付費版本，每月達 20 美元；5 月，OpenAI 陸續推出 iOS、安卓版 ChatGPT 應用，下載量已突破 1.1 億次，移動端應用收入近 3000 萬美元；8 月，企業版 ChatGPT 發布，性能比标準 GPT-4 快兩倍。

2023 年 11 月，OpenAI 發布最強模型 GPT-4 Turbo，提供強大上下文理解能力，支持 12.8 萬個 token，并且公布自定義大模型的 GPTs、GPT Store 等眾多產品。然而，僅僅兩周後，OpenAI 突發高層 " 大地震 "，奧爾特曼遭遇 " 烏龍 " 式罷免，五天後最終得以重掌公司大權，并組建董事會。112 天後，OpenAI 董事會放心表态：對 Sam Altman 和 Greg Brockman 繼續領導 OpenAI 充滿信心。

據公開數據顯示，整個 2023 年，在奧爾特曼帶領下，OpenAI 年化收入已經超過 20 億美元，同比增長 4500% 以上，跻身于歷史增長最快的科技公司之列。

進入 2024 年，OpenAI 持續 " 狂飙 "：

2 月，OpenAI 發布首個 AI 視頻大模型 Sora，逼真的影視效果引爆了整個視頻和電影行業；

3 月，馬斯克（Elon Musk）狀告 OpenAI，使奧爾特曼創始團隊 " 反擊 "；

4 月，ChatGPT 全面免費注冊開放，ChatGPT 可以編輯 DALL · E 影像，新版 GPT-4 Turbo 向 ChatGPT 付費用戶開放，ChatGPT Plus 用戶實現記憶功能，以及 OpenAI 獲得黃仁勳親手交付的世界上首台英偉達 DGX H200。

此次發布會之前，關于 OpenAI 新品傳聞甚嚣塵上，不僅包括性能超級強大的 GPT-5，而且還傳有對标谷歌的 AI 搜索引擎產品，以及與蘋果合作研發的 AI 語音生成產品等，引發眾多關注。

然而，奧爾特曼發推文稱，此次公布的不是 GPT-5，也不是 AI 搜索引擎，而是開發的一些 " 我們認為人們會喜歡的新東西 "。

如今，目前全球最強的 AI 大模型 GPT-4o 登場。

米拉 · 穆拉蒂透露，目前有 1 億多用戶使用 ChatGPT 創造工作、學習，有 100 多萬開發者在 GPTs 上創造新的工具。

OpenAI 表示，GPT-4o（"o" 代表 "omni"）是邁向更自然的人機互動的一步——它接受文本、音頻和影像的任意組合作為輸入，并生成文本、音頻和影像的任意組合輸出。

GPT-4o 可以在短至 232 毫秒的時間内響應音頻輸入，平均為 320 毫秒，與人類的響應時間相似。它在英語文本和代碼上的性能與 GPT-4 Turbo 的性能相匹配，在非英語文本上的性能顯着提高，同時 API 的速度也更快，成本降低了 50%。與現有模型相比，GPT-4o 在視覺和音頻理解方面尤其出色。

需要指出的是，GPT-4o 就是之前在 LMSys 競賽中測試的一個版本，當時名為 "im-also-a-good-gpt2-chatbot"，性能遠超 GPT-4 Turbo、GPT-4、Gemini 等模型，再次刷新業界水平。

具體來說，GPT-4o 主要特色分為四部分：模型能力、基準測試、模型安全性和局限性，以及模型何時可用。

其中，模型能力上，在 GPT-4o 之前，ChatGPT 語音模式對話的平均延遲為 2.8 秒 ( GPT-3.5 ) 和 5.4 秒 ( GPT-4 ) 。而當時，為了解決語音模式問題，就形成了三個獨立模型組成的管道，但 OpenAI 團隊發現，這個過程當中的主要智能來源 GPT-4 丢失了大量音調、噪音、情感等信息。如今借助 GPT-4o，OpenAI 跨文本、視覺和音頻端到端地訓練了一個新模型，這意味着所有輸入和輸出都由同一神經網絡處理。

OpenAI 也舉出多個例子，整體來說其具有更高的連貫性、精準度，以及更快的反饋速度。

傳統基準測試層面，GPT-4o 在文本、推理和編碼智能方面實現了 GPT-4 Turbo 級别的性能，同時在多語言、音頻和視覺功能上均處于高位。在 5 次 MMLU（常識問題）上，GPT-4o 創下了 87.2% 的新高分，遠超谷歌 Gemini Pro 1.5、Ultra 1.0，以及自己的 GPT-4T 和 GPT-4 等。

而在語言标記化上，GPT-4o 在 20 種語言中，實現新分詞器跨不同語系壓縮，壓縮規模超過 50%。

模型安全性和局限性上，GPT-4o 通過過濾訓練數據和通過訓練後細化模型行為等技術，在跨模式設計中内置了安全性。以及創建了新的安全系統，為語音輸出提供防護。根據對網絡安全、CBRN、說服力和模型自主性的評估表明，GPT-4o 在這些類别中的任何類别中的得分都不高于中等風險，而且團隊繼續降低發現的新風險。

那麼，何時可用 GPT-4o？主要有四個時間點：

GPT-4o 的文本和影像功能今天開始在 ChatGPT 中推出。

在免費版中提供 GPT-4o，并為 Plus 用戶提供高達 5 倍的消息限制。

在未來幾周内在 ChatGPT Plus 中推出帶有 GPT-4o 的 Voice Mode 的新版本。

開發者現在也可以通過 API 訪問 GPT-4o 作為文本和視覺模型。計劃在未來幾周内在 API 中向小部分測試者推出對 GPT-4o 新音頻和視頻功能的支持。

此外，OpenAI 今天還宣布，免費向所有用戶開放其 GPT 商店，包括創建自定義 GPT 的能力，以及即将推出 ChatGPT 桌面版本。

OpenAI 強調，GPT-4o 是 OpenAI 突破深度學習界限的最新舉措，也是朝着實用性方向發展的重要一步。

從通用走向聚焦，下一步大模型重塑谷歌搜索引擎？

發布會召開前夕，360 公司董事長周鴻祎就表示，以 ChatGPT 為代表的大模型在完全沒有突破 AGI（通用人工智能）能力情況下情況比較尴尬，目前能力在很多場景下無法給用戶滿意的答案，所以反而導致其在產品場景方面好像什麼都能幹，實際上很多事都幹不了。同時，以 perplexity 為代表的 AI 搜索恰恰是 " 反其道而行之 "，以搜索為場景，用大模型來重塑搜索的體驗。

周鴻祎強調，大模型未來需要 " 場景的搜索 " 和 " 聚焦 "，通過專用大模型可解決用戶痛點或剛需，這存在巨大機遇，在 GPT 強大能力下重新定義場景，并找新產品出路，這或許是大模型發展的長期、正确方向。

實際上，OpenAI 目前面臨着流量增長乏力的局面。

自去年 ChatGPT 推出後，在 2023 年 5 月達到流量峰值，網絡訪問量達到 18 億次，但之後流量出現下滑情況。2024 年 3 月，ChatGPT 的訪問量依然穩定在了 18 億次，不再有明顯增長。

如今，OpenAI 已聚焦到音視頻、終端和搜索場景。此次現場環境和演示當中，OpenAI 重點突出了端側模型和代碼生成能力等場景化應用。

值得一提的是，在此之前，前加拿大魁北克省人工智能研究中心（Mila）研究員、麻省理工學院講師 Lior S 也在社交平台 X 上爆料稱：OpenAI 最新的 SSL 證書日志顯示，OpenAI 已經創建了 search.chatgpt.com 子網域名。

"OpenAI 即将追趕谷歌搜索，這可能是谷歌有史以來面臨的最大的威脅。"Lior S 說。

随着 5 月 14 日谷歌舉行 I/O 開發者大會，因此，一旦未來 ChatGPT Search AI 搜索產品發布，或将會衝擊到谷歌搜索業務——如今市場占有率高達 90%。

周鴻祎認為，未來 OpenAI 一定會誕生 AI 搜索類型的產品。

截至目前，OpenAI 方面對此拒絕置評。

早前奧爾特曼稱，未來的 AI 發展不應是一場數據和算力的軍備競賽，真正的突破需要在算法效率、芯片性能、能源供給等方面取得根本性進展。OpenAI 期待在算法上實現重大創新，以提高模型的運行效率。他透露，OpenAI 計劃在 2024 年夏天推出更先進的 GPT-5 模型。

值得注意的是，發布會結束後，奧爾特曼發布了一條博客，來闡述他對 GPT-4o 的看法。

" 我為我們能在 ChatGPT 中免費提供世界上最先進的模型感到非常自豪，這一切都沒有廣告或其他幹擾。最初，OpenAI 的設想是開發 AI 技術，并利用它為全球帶來益處。然而，現實是我們開發了 AI 技術，而其他人則利用這些技術創造了令全世界受益的傑出成果。作為一家企業，我們有很多服務是需要收費的，但不妨礙我們支持向全球數十億用戶提供免費的頂尖 AI 服務。" 奧爾特曼稱。

他認為，這是用最低的價格甚至是免費，将最好的模型提供給世界上所有人。同時達到與人類相似的響應速度和表達能力，标志着一個重大的轉變，并預見到一個激動人心的未來。

" 新推出的語音（及視頻）模式是我使用過的最佳計算界面。它給人一種電影中 AI 的感覺，讓人不禁驚嘆這竟是真的。達到與人類相似的響應速度和表達能力，标志着一個重大的轉變。最初的 ChatGPT 已經展示了語言界面的潛力；而這一新技術則在體驗上有了質的飛躍。它反應迅速、智能、有趣、自然且實用。以前，我與計算機對話從未感覺如此自然；但現在，我終于有了這種感覺。随着我們逐步增加個性化選項、獲取個人信息的權限、代表用戶執行操作的能力等功能，我真的可以預見到一個激動人心的未來：我們能夠利用計算機完成以往無法想象的更多事務。" 奧爾特曼在博客中指出。

針對 OpenAI 技術的不斷更迭是否影響中國大模型發展，5 月 13 日，創新工場董事長兼 CEO、零一萬物 CEO 李開復向钛媒體 App 表示，零一萬物的新模型 Yi-XLarge MoE 已訓練一半，之後會朝着美國大模型繼續進步。

" 我們不能保證一定趕上它（美國模型）、超過它，或者 gap 有多少，但是我們用适合我們的方法快速推進，既然我們不能用 10 萬張 GPU 來訓練，我們就會尋找别的方式，依然能做出非常好的效果。" 李開復表示。

科大訊飛董事長劉慶峰曾透露，目前中美大模型差距在一年至 1.5 年左右。

（本文首發于钛媒體 App，作者｜林志佳，編輯｜胡潤峰）