ChatGPT這麼會聊天，還要朋友幹什麼

今天小編分享的科技經驗：ChatGPT這麼會聊天，還要朋友幹什麼，歡迎閱讀。

OpenAI 又改寫了一次歷史，在今日凌晨上線了一款能接受文本、音頻、影像多模态輸入與輸出，表達自然流暢、并能讀懂情緒起伏的智能助手 GPT-4o。更重要的是，它可被放入桌面和手機端，并完全免費。壓力被急劇轉移到了谷歌、蘋果身上；未來幾天，" 科技春晚 " 還将輪番上演。

作者 | 董溫淑

編輯 | 李原

運營 | 劉珊

最近一周，科技行業熱鬧非凡，大型 " 臉對臉 " 開打的 " 科技春晚 "，更将輪番上演。

5 月 14 日凌晨，OpenAI 2024 年春季發布會上線。如今這家巨頭的每次動向，都存在再度 " 颠覆 " 一個行業的可能，既讓 AI 創業者們翹首以盼，更讓大家緊張萬分。

雖然這場 OpenAI 的發布會僅持續了 28 分鍾，業内也早有劇透——不會有傳說中的 ChatGPT 5，也不會直接對标谷歌做 AI 搜索；但發布會的效果，仍然震驚四座。

此次 OpenAI 推出的是一款桌面版 ChatGPT，該模型被稱為 GPT-4o。其中 "o" 代表着 "omni"（全能）。在演示中，這一 " 全模态 " 模型不僅能接受文本、音頻、影像的任意組合輸出，并可跨領網域進行推理與展示——最重要的是，其反應速度最短達到了 232 毫秒，完全可做到與人類在正常對話中同頻。

演示中，GPT-4o 像個真實的人類一樣，可以被打斷，也可做到語态聯想。當它被裝入手機時，能通過喘氣聽懂用戶的嘆息、疲憊，使用體驗易用自然、功能強大。

OpenAI 同步宣布了 " 獲客 " 大殺器：GPT-4o 可以被安裝至桌面和手機端，并向所有人免費開放，API 定價只有 GPT-4 Turbo 的一半，速度達到 GPT-4 Turbo 的 2 倍，付費的 ChatGPT Plus 用戶将獲得 5 倍調用額度。

壓力被急劇轉移到谷歌、蘋果等巨頭身上。北京時間 5 月 15 日凌晨，谷歌也将上線 "I/O 大會 "，據傳谷歌将在會上公布大模型最新進展，并将發布類似 GPT-4o，在 Gemini 加持下的、名為 "Pixie" 的個人數字助理。

本月 21 日，微軟也将召開 "Build 開發者大會 "，市場猜測其大概率會将 OpenAI 最新能力集成到自家產品線中。

另據外媒報道，蘋果在此次發布會前，已與 OpenAI 達成合作。在 6 月的蘋果 "WWDC 大會 " 上，ChatGPT 會不會被塞入 iPhone 之中，以取代 " 招人恨 " 的 Siri，也非常值得期待。

28 分鍾，幹翻所有語音助手

一場大範圍預熱，将 OpenAI 發布會的懸念提前拉滿。

發布會前，OpenAI 創始人、CEO 山姆 · 奧特曼先早早否定了對标谷歌，上線 AI 搜索的傳聞。他稱，"（新功能）對我來說就像魔法一樣 "。OpenAI 語音 AGI 研究領導 Alexis Conneau 更直接将自己的社交媒體主頁背景，改成了一張電影《Her》中的劇照——這是一部講述人與 AI 助手 " 薩曼莎 " 相戀的科幻電影。

外界甚至為奧特曼編排出了一個與 AI 助手相愛的浪漫故事。發布會結束後，山姆也順水推舟地，在自己的 X 賬号上，只發表了一個單詞—— "Her"。

▲（圖源 / 網絡）

不過當看過 OpenAI 的最新產品後，觀眾們驚呼，《Her》中的劇情真的進入了現實。

發布會上展示的 GPT-4o，仿佛是一個真實的 " 朋友 " 坐在身邊。它反應迅速，語調流暢自然，情緒飽滿，會跟随着你的情緒興奮起來，也能根據上下文給出豐富的對話細節，揣摩對話者的情緒。

例如，當 OpenAI 的研發負責人 Mark Chen 上台時，他對着 GPT-4o 說：" 我站在台上有點緊張，該怎麼辦？"GPT-4o 回答：" 你太棒了，深呼吸一下吧，記得你可是個專家。"Mark Chen 随之大聲喘氣，問 GPT-4o 接下來還能給些什麼建議，對方回答：" 放松點 Mark，呼吸得慢一點，你又不是吸塵器。"

▲（圖源 /OpenAI）

接下來，GPT-4o 被要求給大家講個睡前故事。沒講幾秒，它就被 Chen 打斷，要求能不能多點情緒和戲劇性。随即，GPT-4o 語調更加起伏和誇張。Chen 又對其要求：能不能再來點情感，最戲劇化的表達可以嗎？GPT-4o 顯然讀懂了 " 戲劇化 " 的含義，随即拿出了戲劇演員一樣誇張的語調——有趣的是，當 GPT-4o 又被要求唱歌時，它甚至自己先嘆了口氣。

在此過程中，GPT-4o 的反應速度也令人深刻。據計算，它對音頻輸入的響應時間最短為 232 毫秒，平均為 320 毫秒，這與人類在對話中的響應時間相似。

語音聊天外，GPT-4o 還表現出了多模态理解和輸出能力。它能夠跨聲音、文本和視覺進行智能推理，可以就用戶給出的截圖、照片，或含有文本和影像的檔案展開對話。

此外，GPT-4o 也能生成任何文本、音頻和影像的組合。并能在輸出中，識别人類的感情，根據感情做出 " 有情緒的反應 "。

為了快速 " 獲客 "，這樣強大的助手，OpenAI 準備交給用戶免費使用，并可在電腦桌面運行。據官方介紹，OpenAI 優化了用戶界面，用戶只需要關注如何與 ChatGPT 協作。可想而知，這樣一位免費的 AI 助手，可以随時陪你聊天、看圖表、寫日程，它将爆發怎樣的巨量使用場景。

打到谷歌、蘋果家門口

盡管 OpenAI 此次沒有亮出 GPT-5 這樣的大招，從業界反饋看，其展現出的技術能力更新足以令人再度感到震驚。

據騰訊科技報道，根據 OpenAI 官網最新博客文章顯示，在 GPT-4o 上線之前，使用語音模式與 ChatGPT 對話，平均延遲為 2.8 秒（GPT-3.5）和 5.4 秒（GPT-4）。為實現這一點，ChatGPT 語音模式是由三個獨立的模型組成的流水線：一個簡單的模型将音頻轉錄為文本，GPT-3.5 或 GPT-4 接收文本并輸出文本，第三個簡單的模型将該文本再轉換回音頻。

在這個過程中，GPT-4 會丢失很多信息，它不能直接觀察語調、多個說話者或背景噪音，也不能輸出笑聲、歌唱或表達情感。

而 GPT-4o 之所以能表現出更自然、更貼近人類的情感，源于其是單獨訓練的新模型。因此，可以端到端地處理文本、視覺和音頻，這意味着所有輸入和輸出都由同一個神經網絡處理。

▲（圖源 /OpenAI）

這款被 OpenAI 能力強大優化了的桌面 App 與手機端助手，其所打開的想象力，也威脅到了一眾巨頭的蛋糕。例如，許多人最直接的反應是：它已經達到了全面 " 吊打 "Siri 的水平。

有趣的是：據外媒報道，發布會前一天，蘋果與 OpenAI 的合作已秘密達成。雖然合作方式尚不可知，但不少人猜測：OpenAI 的技術将會在蘋果新品中集成亮相。

另外多模态人工智能助手的賽道裡，最大的玩家本來還站着谷歌。

2023 年 12 月，谷歌發布了 Gemini 模型 1.0 版本，開始便定義其為 " 原生多模态大模型 "，希望打通語言、聽力、視覺信息的輸入輸出能力。2024 年 2 月，Gemini 上新了 1.5 版本。

5 月 15 日，OpenAI 發布會一天後，谷歌 "I/O 大會 " 即将舉辦，Gemini 的更新發布本是關注重點。但 OpenAI 爆冷發布語音助手，無疑會将關注度從 Gemini 身上奪走不少。

不過這種在發布會前被搶風頭的 " 糟心事 "，谷歌已經不是第一次經歷。2023 年 12 月，谷歌原定上線 Gemini 時，OpenAI 便在 11 月搶先舉辦了首屆開發者大會。為此，Gemini 的上線時間一度被傳，要被延後到 2024 年初。

這一次，面對 OpenAI" 騎臉 " 開打，谷歌也不甘示弱地做出了反擊，很快在官方賬号裡放出了語音助手的 demo 實時演示。

▲（谷歌 I/O 大會語音助手 Demo。圖源 / 網絡）

谷歌旗下人工智能研究機構 DeepMind 的 CEO 和聯合創始人 Demis Hassabis、谷歌 AI 工作室產品負責人及 Gemini API 研究人員 Logan Kilpatrick 紛紛下場表示，自己将在本屆 I/O 大會上 " 首秀 "。

兩大巨頭在實時語音助手戰場正面交鋒，讓看客直呼精彩。但也有人給谷歌先潑了涼水，評價道："Sorry Google but we got it one day earlier（對不起谷歌，但我們一天前已經得到這個了）。"

競争對手們怎麼辦？

十年前，" 科技春晚 " 還是蘋果發布會的代名詞。十年之後，主角已然輪換。

不得不承認，" 百模大戰 " 國内外已膠着對戰了一年多，但每每在市場中扛起 " 議程設定 " 标杆角色的，仍非 OpenAI 莫屬。接下來，圍繞 GPT-4o 多模态功能更新的互動體驗，也勢必将掀起市場中的新一輪攻防大戰。

此前，市場在曝光了 OpenAI 可能發布 AI 搜索產品、硬剛谷歌之時，已有各路大 V 下場，激辯 "AI 搜索 " 的未來。GPT-4o 的最新體驗，也為還在苦苦追趕的國内 AI 創業市場，平添了許多緊張氣氛。

不過，從業界的綜合觀察來看，國内創企亦不必覺得節奏被 OpenAI 追逐得難以喘息。比如，OpenAI 沒有選擇上線 GPT-5，本身亦是大模型訓練 " 卷 " 至高階，也逐漸進入到瓶頸期的反映。

作為目前在研的 OpenAI 最新一代大模型，GPT-5 被視為有望對現有模型形成碾壓級超越的產品。其性能、售價等因素，也将直接影響市場的發力方向。

而從 2022 年 11 月到 2023 年 3 月，OpenAI 很快完成了從 ChatGPT（基于 GPT-3.5）到 GPT-4 的跨越，但 GPT-5 的發布目前還沒有具體時間表。

有關 GPT-5 的亮相時間，市場已經存在多個版本。此前，OpenAI 官網曾預計 GPT-5 将在 2023 年第四季度推出，随後發布時間推遲。如今市場傳聞稱，GPT-5 有望于年中、今夏發布；亦有媒體援引内部人士消息稱，GPT-5 或将于 2024 年 11 月份亮相。

而就在剛剛過去的 4 月，還有許多人在網上曬出了 OpenAI 發出的 " 紅隊測試邀請 " 郵件截圖。在 AI 行業，" 紅藍對抗測試 " 是保證大模型安全性的重要方式，測試人員通過不斷地挑戰模型，以便提前對漏洞 " 查漏補缺 "。因此，市場猜測雖然 OpenAI 未标明模型版本，但 GPT-5 或許已經接近發布。

也有業内人士猜測，GPT-5 的 " 姗姗來遲 "，或因 OpenAI 研發遇到某種天花板。與此同時，OpenAI 在今年 2 月 16 日發布的重磅文生視頻模型 Sora，雖然看起來技驚四座，但 OpenAI 至今仍未開放使用 Sora，更遑論商業落地。

▲（Sora 生成的 MV 畫面。圖源 / 網絡）

在專業人士看來，Sora 越快開放使用，就能提早完善問題、重塑商業流程。

音視頻協作軟體 " 分秒幀 " 創始人程剛對「市界」講道：" 我們目前看到 Sora 存在幻覺問題、精準度問題、對物理世界的理解，以及模拟不準确所帶來的邏輯問題、版權溯源和版權保護問題，以及有人濫用工具去生成虛假内容的問題等等。這些問題當然會影響 Sora 在商業場景中的使用。"

但他判斷："Sora 迭代的速度，基本可以參照 ChatGPT 的迭代速度。Sora 對現實模拟不準确的問題，比如手有六指，（如果放開使用）應該半年左右就能得到比較大的優化。"

溝通建議郵箱：[email protected]

商務需求請聯系：13811292543

如無特殊說明，圖片均來自視覺中國