今天小編分享的互聯網經驗:OpenAI深夜炸場!最強模型GPT-4o完全免費,實時語音視頻互動震撼世界,歡迎閱讀。
(圖片來源:OpenAI 官網)
迎來了一個全新的裡程碑。
北京時間 5 月 14 日凌晨,美國 OpenAI 公司推出可免費使用的全新旗艦 AI 模型 GPT-4o,并将推出 PC 桌面版 ChatGPT。
OpenAI 首席技術官米拉 · 穆拉蒂 ( Mira Murati ) 表示,GPT-4o 裡的 "o" 是 Omni(全能模型)的縮寫,可實時進行音頻、視覺和文本推理,它可以在短至 232 毫秒、平均 320 毫秒的時間内響應音頻輸入,與人類在對話中的反應速度一致。
米拉 · 穆拉蒂指出,在 API 使用方面,相比去年 11 月發布的 GPT-4-turbo,GPT-4o 價格降低一半(50%),速度提升兩倍(200%)。
這個深夜,OpenAI 不止成功在 15 日 I/O 開發者大會之前搶奪谷歌風頭,而且新的大模型互動體驗正颠覆世界。
GPT-4o 新模型自今早起陸續推出,付費版本用戶今天就能看到 GPT-4o 新模型提示,甚至今晨 GPT-4o 消息都是實時展示。
OpenAI CEO 奧爾特曼(Sam Altman)發實時推文表示,新的 GPT-4o 是 OpenAI 有史以來最好的模型,它很智能,速度很快,是原生多模态,并且它可供所有 ChatGPT 用戶使用,無論是免費版本還是付費 GPT-4 版。
" 這對我們的使命很重要,我們希望将出色的 AI 工具交到每個人手中。" 奧爾特曼表示。
OpenAI 聯合創始人兼總裁格雷格 · 布羅克曼(Greg Brockman)發 GPT-4o 介紹視頻中表示,這是 OpenAI 朝着更自然的人機互動(甚至人機 - 計算機互動)形式邁出的重要一步。
發布之後,網友:它是不是完全可以替盲人看世界了?OpenAI 要颠覆世界了?為外語行業默哀。
凌晨僅僅 26 分鍾的發布會,打響了這個 5 月全球 AI" 軍備競賽 "。同時,GPT-4o 的發布,或将颠覆外語、實時翻譯、音視頻剪輯等眾多行業。
ChatGPT 狂飙 530 天,OpenAI 持續發力通用大模型
随着 2022 年底 AI 聊天機器人 ChatGPT 風靡全球,掀起新一輪 AIGC 浪潮。過去 530 天裡,研發 ChatGPT 背後的 OpenAI 公司身處聚光燈下,并迅速成長為 860 億美金估值的 AI 獨角獸。
英偉達 CEO 黃仁勳曾表示,ChatGPT 的出現是 AI 的 "iPhone 時刻 "。
2023 年 3 月,OpenAI 推出多模态大模型 GPT-4,不僅理解能力、可靠性和長文本技術能力全面增強,且具備影像處理。而且在專業基準測試中,GPT-4 表現近似于人類的水平,如模拟律師考試得分能排到前 10% 左右,擊敗 90% 的人類。
随後,OpenAI 更新 ChatGPT 付費版本,每月達 20 美元;5 月,OpenAI 陸續推出 iOS、安卓版 ChatGPT 應用,下載量已突破 1.1 億次,移動端應用收入近 3000 萬美元;8 月,企業版 ChatGPT 發布,性能比标準 GPT-4 快兩倍。
2023 年 11 月,OpenAI 發布最強模型 GPT-4 Turbo,提供強大上下文理解能力,支持 12.8 萬個 token,并且公布自定義大模型的 GPTs、GPT Store 等眾多產品。然而,僅僅兩周後,OpenAI 突發高層 " 大地震 ",奧爾特曼遭遇 " 烏龍 " 式罷免,五天後最終得以重掌公司大權,并組建董事會。112 天後,OpenAI 董事會放心表态:對 Sam Altman 和 Greg Brockman 繼續領導 OpenAI 充滿信心。
據公開數據顯示,整個 2023 年,在奧爾特曼帶領下,OpenAI 年化收入已經超過 20 億美元,同比增長 4500% 以上,跻身于歷史增長最快的科技公司之列。
進入 2024 年,OpenAI 持續 " 狂飙 ":
2 月,OpenAI 發布首個 AI 視頻大模型 Sora,逼真的影視效果引爆了整個視頻和電影行業;
3 月,馬斯克(Elon Musk)狀告 OpenAI,使奧爾特曼創始團隊 " 反擊 ";
4 月,ChatGPT 全面免費注冊開放,ChatGPT 可以編輯 DALL · E 影像,新版 GPT-4 Turbo 向 ChatGPT 付費用戶開放,ChatGPT Plus 用戶實現記憶功能,以及 OpenAI 獲得黃仁勳親手交付的世界上首台英偉達 DGX H200。
此次發布會之前,關于 OpenAI 新品傳聞甚嚣塵上,不僅包括性能超級強大的 GPT-5,而且還傳有對标谷歌的 AI 搜索引擎產品,以及與蘋果合作研發的 AI 語音生成產品等,引發眾多關注。
然而,奧爾特曼發推文稱,此次公布的不是 GPT-5,也不是 AI 搜索引擎,而是開發的一些 " 我們認為人們會喜歡的新東西 "。
如今,目前全球最強的 AI 大模型 GPT-4o 登場。
米拉 · 穆拉蒂透露,目前有 1 億多用戶使用 ChatGPT 創造工作、學習,有 100 多萬開發者在 GPTs 上創造新的工具。
OpenAI 表示,GPT-4o("o" 代表 "omni")是邁向更自然的人機互動的一步——它接受文本、音頻和影像的任意組合作為輸入,并生成文本、音頻和影像的任意組合輸出。
GPT-4o 可以在短至 232 毫秒的時間内響應音頻輸入,平均為 320 毫秒,與人類的響應時間相似。它在英語文本和代碼上的性能與 GPT-4 Turbo 的性能相匹配,在非英語文本上的性能顯着提高,同時 API 的速度也更快,成本降低了 50%。與現有模型相比,GPT-4o 在視覺和音頻理解方面尤其出色。
需要指出的是,GPT-4o 就是之前在 LMSys 競賽中測試的一個版本,當時名為 "im-also-a-good-gpt2-chatbot",性能遠超 GPT-4 Turbo、GPT-4、Gemini 等模型,再次刷新業界水平。
具體來說,GPT-4o 主要特色分為四部分:模型能力、基準測試、模型安全性和局限性,以及模型何時可用。
其中,模型能力上,在 GPT-4o 之前,ChatGPT 語音模式對話的平均延遲為 2.8 秒 ( GPT-3.5 ) 和 5.4 秒 ( GPT-4 ) 。而當時,為了解決語音模式問題,就形成了三個獨立模型組成的管道,但 OpenAI 團隊發現,這個過程當中的主要智能來源 GPT-4 丢失了大量音調、噪音、情感等信息。如今借助 GPT-4o,OpenAI 跨文本、視覺和音頻端到端地訓練了一個新模型,這意味着所有輸入和輸出都由同一神經網絡處理。
OpenAI 也舉出多個例子,整體來說其具有更高的連貫性、精準度,以及更快的反饋速度。
傳統基準測試層面,GPT-4o 在文本、推理和編碼智能方面實現了 GPT-4 Turbo 級别的性能,同時在多語言、音頻和視覺功能上均處于高位。在 5 次 MMLU(常識問題) 上,GPT-4o 創下了 87.2% 的新高分,遠超谷歌 Gemini Pro 1.5、Ultra 1.0,以及自己的 GPT-4T 和 GPT-4 等。
而在語言标記化上,GPT-4o 在 20 種語言中,實現新分詞器跨不同語系壓縮,壓縮規模超過 50%。
模型安全性和局限性上,GPT-4o 通過過濾訓練數據和通過訓練後細化模型行為等技術,在跨模式設計中内置了安全性。以及創建了新的安全系統,為語音輸出提供防護。根據對網絡安全、CBRN、說服力和模型自主性的評估表明,GPT-4o 在這些類别中的任何類别中的得分都不高于中等風險,而且團隊繼續降低發現的新風險。
那麼,何時可用 GPT-4o?主要有四個時間點:
GPT-4o 的文本和影像功能今天開始在 ChatGPT 中推出。
在免費版中提供 GPT-4o,并為 Plus 用戶提供高達 5 倍的消息限制。
在未來幾周内在 ChatGPT Plus 中推出帶有 GPT-4o 的 Voice Mode 的新版本。
開發者現在也可以通過 API 訪問 GPT-4o 作為文本和視覺模型。計劃在未來幾周内在 API 中向小部分測試者推出對 GPT-4o 新音頻和視頻功能的支持。
此外,OpenAI 今天還宣布,免費向所有用戶開放其 GPT 商店,包括創建自定義 GPT 的能力,以及即将推出 ChatGPT 桌面版本。
OpenAI 強調,GPT-4o 是 OpenAI 突破深度學習界限的最新舉措,也是朝着實用性方向發展的重要一步。
從通用走向聚焦,下一步大模型重塑谷歌搜索引擎?
發布會召開前夕,360 公司董事長周鴻祎就表示,以 ChatGPT 為代表的大模型在完全沒有突破 AGI(通用人工智能)能力情況下情況比較尴尬,目前能力在很多場景下無法給用戶滿意的答案,所以反而導致其在產品場景方面好像什麼都能幹,實際上很多事都幹不了。同時,以 perplexity 為代表的 AI 搜索恰恰是 " 反其道而行之 ",以搜索為場景,用大模型來重塑搜索的體驗。
周鴻祎強調,大模型未來需要 " 場景的搜索 " 和 " 聚焦 ",通過專用大模型可解決用戶痛點或剛需,這存在巨大機遇,在 GPT 強大能力下重新定義場景,并找新產品出路,這或許是大模型發展的長期、正确方向。
實際上,OpenAI 目前面臨着流量增長乏力的局面。
自去年 ChatGPT 推出後,在 2023 年 5 月達到流量峰值,網絡訪問量達到 18 億次,但之後流量出現下滑情況。2024 年 3 月,ChatGPT 的訪問量依然穩定在了 18 億次,不再有明顯增長。
如今,OpenAI 已聚焦到音視頻、終端和搜索場景。此次現場環境和演示當中,OpenAI 重點突出了端側模型和代碼生成能力等場景化應用。
值得一提的是,在此之前,前加拿大魁北克省人工智能研究中心(Mila)研究員、麻省理工學院講師 Lior S 也在社交平台 X 上爆料稱:OpenAI 最新的 SSL 證書日志顯示,OpenAI 已經創建了 search.chatgpt.com 子網域名。
"OpenAI 即将追趕谷歌搜索,這可能是谷歌有史以來面臨的最大的威脅。"Lior S 說。
随着 5 月 14 日谷歌舉行 I/O 開發者大會,因此,一旦未來 ChatGPT Search AI 搜索產品發布,或将會衝擊到谷歌搜索業務——如今市場占有率高達 90%。
周鴻祎認為,未來 OpenAI 一定會誕生 AI 搜索類型的產品。
截至目前,OpenAI 方面對此拒絕置評。
早前奧爾特曼稱,未來的 AI 發展不應是一場數據和算力的軍備競賽,真正的突破需要在算法效率、芯片性能、能源供給等方面取得根本性進展。OpenAI 期待在算法上實現重大創新,以提高模型的運行效率。他透露,OpenAI 計劃在 2024 年夏天推出更先進的 GPT-5 模型。
值得注意的是,發布會結束後,奧爾特曼發布了一條博客,來闡述他對 GPT-4o 的看法。
" 我為我們能在 ChatGPT 中免費提供世界上最先進的模型感到非常自豪,這一切都沒有廣告或其他幹擾。最初,OpenAI 的設想是開發 AI 技術,并利用它為全球帶來益處。然而,現實是我們開發了 AI 技術,而其他人則利用這些技術創造了令全世界受益的傑出成果。作為一家企業,我們有很多服務是需要收費的,但不妨礙我們支持向全球數十億用戶提供免費的頂尖 AI 服務。" 奧爾特曼稱。
他認為,這是用最低的價格甚至是免費,将最好的模型提供給世界上所有人。同時達到與人類相似的響應速度和表達能力,标志着一個重大的轉變,并預見到一個激動人心的未來。
" 新推出的語音(及視頻)模式是我使用過的最佳計算界面。它給人一種電影中 AI 的感覺,讓人不禁驚嘆這竟是真的。達到與人類相似的響應速度和表達能力,标志着一個重大的轉變。最初的 ChatGPT 已經展示了語言界面的潛力;而這一新技術則在體驗上有了質的飛躍。它反應迅速、智能、有趣、自然且實用。以前,我與計算機對話從未感覺如此自然;但現在,我終于有了這種感覺。随着我們逐步增加個性化選項、獲取個人信息的權限、代表用戶執行操作的能力等功能,我真的可以預見到一個激動人心的未來:我們能夠利用計算機完成以往無法想象的更多事務。" 奧爾特曼在博客中指出。
針對 OpenAI 技術的不斷更迭是否影響中國大模型發展,5 月 13 日,創新工場董事長兼 CEO、零一萬物 CEO 李開復向钛媒體 App 表示,零一萬物的新模型 Yi-XLarge MoE 已訓練一半,之後會朝着美國大模型繼續進步。
" 我們不能保證一定趕上它(美國模型)、超過它,或者 gap 有多少,但是我們用适合我們的方法快速推進,既然我們不能用 10 萬張 GPU 來訓練,我們就會尋找别的方式,依然能做出非常好的效果。" 李開復表示。
科大訊飛董事長劉慶峰曾透露,目前中美大模型差距在一年至 1.5 年左右。
(本文首發于钛媒體 App,作者|林志佳,編輯|胡潤峰)