大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 互聯網

免費GPT-4o來襲,音頻視覺文本實現「大一統」

2024-05-15 简体 HK SG TW

今天小編分享的互聯網經驗:免費GPT-4o來襲,音頻視覺文本實現「大一統」,歡迎閱讀。

作者 | 賴文昕

今天凌晨,即北京時間 5 月 14 日 1 點整,OpenAI 召開了首場春季發布會,CTO Mira Murati 在台上和團隊用短短不到 30 分鍾的時間,揭開了最新旗艦模型 GPT-4o 的神秘面紗,以及基于 GPT-4o 的 ChatGPT,均為免費使用。

此前,有傳言稱 OpenAI 将推出 AI 搜索引擎,旨在與谷歌明天舉辦的 I/O 開發者大會一較高下,一度引發了公眾的熱烈讨論。

不過 Sam Altman 随後在 X(原推特)上表示,要展示的并非 GPT-5 或搜索引擎,而是一些令人期待的創新成果,他本人對此充滿期待,認為其像魔法一樣神奇。

那麼,GPT-4o 是否真的如 Sam Altman 所說,是 OpenAI 帶來的「新魔法」呢?

多模态實時語音助手,更快更全更有情感

登台後,Mira Murati 宣布了 ChatGPT 的桌面版本和新 UI,緊接着就介紹了本場發布會的主角—— GPT-4o 。

在發布會上,Mira Murati 與團隊成員 Mark Chen、Barret Zoph 一起,重點展示了基于 GPT-4o 的 ChatGPT 在不同任務中的實際表現,尤其展現了其語音能力。

若用關鍵詞加以總結,搭載 GPT-4o 的 ChatGPT 可謂是又快、又全、又有情感。

與 ChatGPT 對話時,用戶不必等 ChatGPT 說完,可以随時插話;模型能夠實時響應,不存在尴尬的幾秒延遲。

在 Mark 表示自己很緊張且捕捉到他急促的呼吸後,ChatGPT 還會提醒需要冷靜情緒,識别其呼吸節奏并引導他做深呼吸。

模型能夠以各種不同的風格生成聲音。無論對話時讓 ChatGPT 用唱歌的方式、機器人機械音還是戲劇化的語氣講故事,它都能迅速反應并輸出。

基于 GPT-4o 強大的視覺能力,用戶還可以語音讓 ChatGPT 分析頁面上的數據圖表。

更強大的是,打開攝像頭後寫下一道數學題,ChatGPT 還會一步步引導該如何解下一步,其講解的清晰度與耐心堪比幼教。

ChatGPT 的「同傳能力」也不容小觑,OpenAI 團隊還在現場展示了一波英語和意大利語的實時互譯,中間實現零延遲。

更有意思的是,ChatGPT 在對話中還會使用語氣詞,甚至是向 OpenAI 團隊開玩笑和表達感謝。在「看到」他們寫下「我愛 ChatGPT」的文字後,ChatGPT 甚至會在發出撒嬌的聲音後,再表揚其貼心。

ChatGPT 甚至還能和用戶「視頻聊天」。在演示中,Barret 讓 ChatGPT 猜測自己的情緒,在他開始露出笑臉後,ChatGPT 直接語音回復「你看起來很開心,笑容燦爛,還有點激動。」

英偉達首席 AI 科學家 Jim Fan 曾講述過當前實時語音助手(如 Siri )的困境,即很難創造出沉浸式的使用體驗。

用戶在和 AI 語音助手對話時要經歷三個階段:語音識别(ASR),将音頻轉換為文本,例如 Whisper;大語言模型(LLM)規劃接下來的話語,将第一階段的文本轉換為新的文本; 語音合成(TTS),将新文本轉換回音頻,如 ElevenLabs 或 VALL-E 。

如果簡單地按順序執行,就會產生巨大的延遲,特别是當每一步都需要等待幾秒時,用戶體驗就會急劇下降,哪怕合成的音頻聽起來非常真實,也會讓用戶格外「出戲」,就更别提沉浸式的使用體驗了。

以往的 ChatGPT 語音模式也是如此,依賴三個獨立模型工作,平均延遲時間為 2.8 秒 ( GPT-3.5 ) 和 5.4 秒 ( GPT-4 ) ,語音助手也總會出現信息丢失,既不能判斷語調、多個說話者或背景噪音,也不能輸出笑聲、唱歌或表達情感。

而現在,GPT-4o 的音頻輸入響應時間最短為 232 毫秒,平均響應時間為 320 毫秒,與人類在對話中的反應時間極為相似。

作為一個全新的單一模型,GPT-4o 能端到端地跨文本、視覺和音頻,所有輸入和輸出都由同一個神經網絡處理,直接一步到位,在用戶輸入後(文本、語音、影像、視頻均可)直接生成音頻回答。

GPT-4o ,一款免費的全能 GPT-4

Mira Murati 在發布會上表示,GPT-4o 最棒的地方在于,它将 GPT-4 的智能提供給每個人,包括免費用戶,将在未來幾周内迭代式地在公司產品中推出。

GPT-4o 中的字母 o 指 omni,在拉丁語詞根中是「全」的意思,是涵蓋了文字、語音、圖片、視頻的多模态模型,接受任何模态的組合作為輸入,并能生成任何模态的組合輸出。

據 OpenAI 官網,GPT-4o 不僅在文本和代碼處理的性能上與 GPT-4 Turbo 持平,而且在 API 調用上速度更快,價格更是降低了 50%。

文本能力測試

與 GPT-4 對比多語言考試能力

更重要的是,GPT-4o 的視覺理解能力在相關基準上取得了壓倒性的勝利。

在音頻方面,GPT-4o 的語音識别(ASR)也比 OpenAI 的語音識别模型 Whisper 性能更佳(越低越好)。

與 Meta、谷歌的語音轉寫模型相比,GPT-4o 同樣領先(越高越好)。

若落實到實際生活的使用中,GPT-4o 究竟能給普羅大眾帶來什麼變化呢?

OpenAI 的官網展示了 GPT-4o 在海報創作、三維重建、字體設計、會議總結等等一系列充滿可能性的應用。

比如,在輸入人物圖片、海報元素以及想要的風格後,GPT-4o 就能給用戶生成一張電影海報。

或者,根據輸入的詩歌文本,GPT-4o 能生成用手寫體寫着詩歌、畫着畫的單行本圖片。

在輸入 6 張 OpenAI 的 logo 圖後,GPT-4o 能三維重建出其立體動圖。

甚至還可以讓 GPT-4o 幫忙把 logo 印在杯墊上。

「今天,有 1 億人使用 ChatGPT 來創作、工作、學習,以前這些高級工具只對付費用戶可用,但現在,有了 GPT-4o 的效率,我們可以将這些工具帶給每個人。」Mira Murati 如是說道。

寫在後面

發布會之外,OpenAI 研究員 William Fedus 透露,此前在大模型競技場參與 A/B 測試并碾壓全場的模型「im-also-a-good-gpt2-chatbot」,就是本次登場的 GPT-4o 。

截至 2024 年 3 月,OpenAI 在不到十年的運營時間内,已經完成了 10 輪的融資,累計籌集資金超過了 140 億美元,其估值在 2 月的融資交易中已經飙升至 800 億美元。

伴随着狂飙的市值,OpenAI 的技術版圖已經橫跨了多個 AI 的關鍵領網域,形成了一個全面而深入的產品矩陣。

API 產品線提供了包括 GPT 模型、DALL · E 模型、Whisper 語音識别模型在内的多樣化服務,并通過對話、量化、分析、微調等高級功能,為開發者提供技術支持;ChatGPT 為核心的產品線分别推出了個人版和企業版。

在音樂生成領網域,OpenAI 也有一定的技術積累,比如經過訓練的深度神經網絡 MuseNet,可預測并生成 MIDI 音樂檔案中的後續音符,以及能生成帶人聲音樂的開源算法 Jukebox。

再加上年初春節假期期間毫無征兆推出的 AI 視頻生成大模型 Sora,更是讓網友們感嘆「現實,不存在了。」

毋庸置疑,OpenAI 是大模型這場擂台賽中當之無愧的擂主,其技術與產品的迭代更是整個行業的風向标,不少大模型創業者都遇過「OpenAI 不做,沒人投;OpenAI 一做,人人投」的融資奇觀。

但随着 Claude 3 和 Llama 3 的緊追與 GPT Store 上線 2 個月慘遭「滑鐵盧」,不少 AI 行業從業者開始對 OpenAI 祛魅,認為「大模型護城河很淺,一年就趕上了。」

現在看來,OpenAI 果然還是 OpenAI。

本文雷峰網作者 anna042023 将持續關注 AI 大模型領網域的人事、企業、商業應用以及行業發展趨勢,歡迎添加雷峰網作者交流,互通有無。

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們