今天小編分享的互聯網經驗:聲網CEO趙斌:大模型API成本已下降超90%,實時互動未來将成生成式AI關鍵方向,歡迎閱讀。
聲網創始人兼 CEO 趙斌
随着 OpenAI GPT-4o 等多款實時語音對話類模型的推出,RTE(實時互動)技術再次迎來新的發展時期。
钛媒體 App 10 月 28 日消息,近期舉行的 RTE 2024 實時互聯網大會上,聲網創始人兼 CEO 趙斌(Tony Zhao)在演講中表示,美國 OpenAI 近期将自身 API 調用成本和價格下降 90% 以上,中國市場也是價格戰硝煙四起,而且各種算法和模型創新風起雲湧、你追我趕。所以,生成式 AI 将提供無限的想象空間和廣闊的可能性,包括和 RTE 和實時互動能力的結合,擁有巨大技術潛力。
" 未來 10 年 -20 年,無論是 PC,還是智能手機,都必然以如何更好支持大模型能力在端側上應用以及推理能力提高和成熟為主要進化軸線。" 趙斌強調,生成式 AI 正在驅動 IT 行業發生大變革,這一趨勢主要體現終端、軟體、雲和人機界面四個方向上,而聲網将與大模型獨角獸 MiniMax 打造中國第一個 Realtime API。
(詳見钛媒體 App 前文:《獨家|大模型獨角獸 MiniMax 将于 11 月發布首款對标 GPT-4o 的端到端實時語音對話 API 產品》)
據悉,聲網成立于 2014 年,是全球實時互動雲服務商,面向社交直播、教育、遊戲電競、IoT、AR/VR、金融、保險、醫療、企業協作等多個領網域提供 PaaS(平台即服務)、實時互動雲等技術服務。
2020 年 6 月底,聲網母公司 Agora, Inc.(NASDAQ:API)在納斯達克上市。
2023 财年第一季度業績報告上,趙斌宣布,為努力精簡組織結構,提高運營效率,Agora, Inc. 旗下将以不同的品牌——聲網、Agora 運營兩個獨立公司,美國和國際業務将以 Agora 品牌運營,中國業務将以聲網品牌運營。" 我們相信,此次戰略重組将使我們能夠将資源最佳地集中在每個業務的優先事項上——推動 Agora 業務的增長并更有效地競争聲網業務,同時考慮到每個市場客戶獨特的經濟和產品需求。随着新機遇的出現,這種新的組織結構還将使我們變得更加敏捷。"
今年 8 月,Agora, Inc. 集團發布的最新财報顯示,2024 财年第二季度,公司總收入 3420 萬美元,同比增長 0.5%。其中,受益于物聯網等行業銷售增加,聲網國内收入 1.319 億元人民币(1860 萬美元),較去年同期增長 0.3%。
截至 2024 年 6 月 30 日,聲網活躍客戶數量達 3774 家,過去 12 個月内淨留存率達 79%。
如今,随着全球經濟復蘇以及全球科技轉向 AI 技術,生成式 AI 賽道迎來廣闊前景。
麥肯錫最新報告顯示,2023 年,全球生成式 AI 市場規模 670 億美元,預計到 2027 年、2032 年分别達到 3990 億美元和 1.3 萬億美元,2023-2032 年 10 年的復合增長率高達 42%。
2024 年 5 月,OpenAI 公司推出可免費使用的全新旗艦 AI 模型 GPT-4o,可實時進行音頻、視覺和文本推理,并且在短至 232 毫秒、平均 320 毫秒的時間内響應音頻輸入,與人類在對話中的反應速度一致。在 API 使用方面,相比 GPT-4-Turbo,GPT-4o 價格降低一半(50%),速度提升兩倍(200%)。
OpenAI CEO 奧爾特曼(Sam Altman)表示,新的 GPT-4o 是 OpenAI 有史以來最好的模型,它很智能,速度很快,是原生多模态,并且它可供所有 ChatGPT 用戶使用,無論是免費版本還是付費 GPT-4 版。
今年 10 月,實時音視頻技術公司、聲網的兄弟公司 Agora 作為語音 API 合作者出現在 OpenAI 發布的 Realtime API 公開測試版中,引發關注。在此之前,聲網和 Agora 上次引發關注是兩年前的實時語音互動 Clubhouse 風靡全球,而 Agora 提供實時互動技術支持,該公司市值一度暴漲到 100 億美元以上。
年初至今,Agora, Inc. 集團美股上漲了 20% 左右,主要受益于生成式 AI 和海外直播電商熱潮。
10 月 25 日,趙斌在演講中透露,過去的十年,RTE 能力在各種手機應用和軟體中的穿透力從不到 1%,到 2021 年大概 7%,到現在超過 10%,差不多在以每年 1% 的速度持續穿透到各種應用。
目前,聲網單月服務超過 700 億分鍾(按頻繁人數計時)。
會上,聲網正式發布 RTE+AI 能力全景圖,其中包括從實時 AI 基礎設施、RTE+AI 生态能力、聲網 AI Agent、實時多模态對話式 AI 解決方案、RTE+AI 應用場景五個維度,呈現當下 RTE 與 AI 相結合的技術能力與應用方案。
趙斌強調,生成式 AI 正在驅動終端、軟體、雲和人機界面四個層面發生變革。在終端上,大模型能力将驅動 PC 和 Phone 往 AI PC 和 AI Phone 的方向進化;在軟體上,所有軟體将通過大模型重新實現,從 Software with AI 發展至 AI Native Software;雲層面,所有雲都需要具備對大模型訓練和推理的能力,AI Native Cloud 将成為主流;人機界面的主流互動方式将從鍵盤、滑鼠、觸屏變成自然語言對話界面(LUI)。
此外,今年 RTE 活動上還讨論了紅杉資本合夥人 David Cahn(大衛 · 卡恩)曾提出的 "AI 支出 6000 億美元難題 ",即 AI 基礎設施的巨額投資和實際收入之間差距過大。
對此,Lepton AI 創始人兼首席執行官賈揚清認為,同等尺寸的模型,能力會越來越強,尤其是通過蒸餾、壓縮等技術,現在的 Llama 3.2 3B(30 億參數)模型甚至可以和以前的 Llama 70B 模型能力相近。除了極少數頭部公司之外,越來越多的企業會采用 " 開源 + 精調 " 來做下一代模型,因此開源架構的應用會越來越普遍。
賈揚清判斷,推理成本一年内會降到現在的 1/10,創業者在構建應用時可以按照做一個應用成本是目前 1/10 來進行成本核算,看能不能做,包括模型、硬體和應用在上量後,也都是可以降低成本的。
Hugging Face 工程師王鐵震表示,現在擔心 AI 取代人類是比較早的,但是 AI 已經對一些行業產生了不好影響,比如視頻以假亂真的影響,包括對青少年心理的影響,而這裡創業的機會也是非常多的。
MiniMax 合夥人魏偉強調,随着多模态的出現,生成式 AI 的邊界一定會被繼續拓展,文本、語音、音樂、視頻這些模型可以很好地幫助藝術、影視、音樂等領網域的創作者極大地提高效率,并加速相關產業的變革。
" 過去的十年,實時互動從理念發展成一個行業。實時互動技術不僅助力社交泛娛樂、在線教育、IoT、企業服務等幾十個行業、數百個場景實現了跨越式成長,也支撐了諸多互聯網風口的進化。我們有理由期待下一個十年更為波瀾壯闊和激動人心,開創一個生成式 AI 時代下的 RTE 新篇章。" 趙斌在演講結尾表示。
(本文首發于钛媒體 App,作者|林志佳,編輯|胡潤峰)