今天小編分享的互聯網經驗:智譜AI 正研發對标Sora的國產文生視頻模型,最快年内發布,歡迎閲讀。
(圖片來源:钛媒體 App 編輯拍攝)
5 月 6 日消息,钛媒體 App獨家獲悉,估值超 200 億的國内 AI 大模型獨角獸公司 " 智譜 AI" 正在研發對标 OpenAI Sora 的高質量文生視頻模型,預計最快年内發布。
" 文生視頻目前處于一個快速發展的階段,預計今年将是文生視頻大模型的爆發期。國内公司在文生視頻技術方面的客户需求非常多樣,從電影拍攝到短視頻、遊戲制作等。智譜也将通過使用更高質量的數據和更大的參數,開發高質量的文生視頻產品。" 一位智譜 AI 内部人士對钛媒體 App 表示。
據悉,成立于 2019 年的智譜 AI,由清華大學計算機系的技術成果轉化而來,源自清華大學知識工程(KEG)實驗室。智譜 AI CEO 張鵬畢業于清華大學計算機系,與總裁王紹蘭同為清華創新領軍博士,董事長劉德兵師從高文院士,曾任清華數據科學研究院科技大數據研究中心副主任,三位創始成員都是 KEG 實驗室核心成員。
智譜 AI 是國内最早入局大模型賽道的公司之一,也是目前國内頭部大模型廠商代表之一。
2023 年 3 月,智譜 AI 推出千億開源基座對話模型 ChatGLM 系列,并在過去一年内完成 4 次更新,于 2024 年 1 月推出 GLM4 系列。
同時,基于全自研基座大模型的能力,智譜 AI 亦已構建了 AIGC 模型產品矩陣,包括 AI 提效助手智譜清言、高效率代碼模型 CodeGeeX、多模态理解模型 CogVLM 和文生圖模型 CogView 等。
張鵬在今年 3 月透露,截至 2023 年底,智譜 AI 已擁有超 2000 家生态合作夥伴、超 1000 個大模型規模化應用,另有 200 多家企業跟智譜 AI 進行了深度共創,覆蓋傳媒、咨詢、消費、金融、新能源、互聯網、智能辦公等多個細分場景的多個頭部企業。
張鵬強調,由于智譜對多個模型版本進行開源,所以到目前為止,智譜 ChatGLM-6B 全球累計下載量已經超過了 1300 萬,GitHub Star 星數達到 5 萬,整個量級超過了 Meta Llama 兩個版本的總和。智譜 AI 已獲得全球最受歡迎的開源機構的第五名,是全球唯一一家上榜的中國機構和組織," 力壓了包括 OpenAI、谷歌,還有微軟 "。
融資方面,智譜 AI 已完成五輪融資。投資方包括君聯資本、啓明創投、中科創星、美團、螞蟻、阿裏、騰訊、小米、金山、順為、Boss 直聘、好未來、紅杉、高瓴等多家機構,2023 年融資額超過 25 億元人民币,最新一輪是 2024 年 3 月北京市人工智能產業投資基金參與投資。
截至目前,智譜 AI 公司估值超過 200 億元人民币,是國内 AI 領網域獨角獸(超過 10 億美元)企業。
钛媒體 App 了解到,對于智譜 AI 當前的綜合能力水平,内部人士稱 "性能接近海外頂級模型 "。
" 最新基座大模型 GLM-4,整體性能相比上一代大幅提升,逼近 GPT-4。如果做一個比較量化的對比,我們當時對标的對象是 GPT-4,其性能的對比可以在很多方面上做到 95% 左右。在比如中文對齊的任務下,我們甚至可以略微超過它。根據最新的海外伯克利 Arena Hard 基準測試 ,GLM 排名僅次于 GPT-4 Turbo 和 Claude 3 Opus,在國内外模型中均處于領先地位。" 智譜内部人士稱。
智譜内部人士反復強調,公司是投入時間比較早,擁有完全自主、自研、國產化的千億級模型算法,并且實現全棧國產化,從底層到模型層、應用層、應用接口 PaaS 層等實現全棧的自主研發。同時,在整個大模型體系裏邊,除了語言模型,智譜還有文生圖模型、圖生文模型、代碼模型等多種模型,與目前全球最先進的 OpenAI 相比,其模型種類跟它形成了一一對标。
钛媒體 App 了解到,雖然智譜 AI 已研發出多模态模型 GLM-4,但據悉,今年 2 月 Sora 發布之前,智譜 AI 已經在研發文生視頻模型。
智譜 AI 内部人士坦言,對标 Sora 的文生視頻模型發展突破的關鍵主要包括技術路線選擇、訓練所用的高質量視頻素材語料兩個方面。
"技術路線上,Transformer 與 Diffusion 的結合架構如何在效率和效果上進行優化,如何解決連續幀之間的抖動問題,如何在滿足高分辨率的同時實現高一致性的長序列生成,如何獲取高質量數據泛化到更多更細節的真實場景,都是技術上需要解決和通過大量實驗試錯的問題;數據集方面,此前 Sora 被評價模型對攝影術語 ( 跟拍、平移、鏡頭切換 ) 的理解有限,所生成的視頻後期還需要對視頻素材進行超分處理。公司會注重更全面的優質數據版權與使用。" 上述人士稱。
但值得注意的是,早前智譜 AI 投資的生數科技與清華大學聯合發布中國首個長時長、高一致性、高動态性視頻大模型 Vidu,被稱為 " 國内首個 Sora 級視頻模型 ",也是中國首個純自研視頻大模型。
一旦智譜也發布類似的文生視頻模型的話,智譜 AI 将與被投公司生數科技產生競争關系。
據钛媒體 App 編輯梳理,截止目前,智譜 AI 以產業型投資方式,已經投資、入股超過 13 家 AI 產業鏈的初創公司。
張鵬曾向钛媒體 App 等表示,今天的智譜 AI 正在經歷一個從量變到質變的過程,特别是像大模型所謂的湧現。而公司目标是瞄準 AGI,實現超過人類水平的超級認知智能、實現 AI 的自我解釋、自我評測、自我監督,同時還将确保模型安全、可控。
(本文首發于钛媒體 App,作者|林志佳,編輯|胡潤峰)