今天小編分享的汽車經驗:吉利汽車、階躍星辰開源兩款大模型:一個參數最大、一個最懂中國話!,歡迎閲讀。
快科技 2 月 18 日消息,階躍星辰、吉利汽車集團聯合宣布,雙方合作的階躍兩款 Step 系列多模态大模型,正式向全球開發者開源,即日起可在躍問 APP 内體驗。
其中,階躍 Step-Video-T2V 是目前全球範圍内參數量最大、性能最好的開源視頻生成模型,階躍 Step-Audio 則是行業内首款產品級的開源語音互動大模型,堪稱最懂中國話。
階躍星辰 ( StepFun ) 是吉利汽車集團的科技生态戰略合作夥伴,公司成立于 2023 年 4 月,總部位于上海,由微軟前全球副總裁姜大昕擔任 CEO,致力于實現 AGI(通用人工智能),2024 年下半年其多模态 API 的調用量增長超 45 倍。
階躍 Step-Video-T2V 的參數量達到 300 億,可以直接生成 204 幀、540p 分辨率的高質量視頻。
在復雜運動、美感人物、視覺想象力、基礎文字生成、原生中英雙語輸入、鏡頭語言等方面,它都具備強大的生成能力,而且語義理解和指令遵循能力突出。
網頁端體驗鏈接:https://yuewen.cn/videos
同時,階躍星辰還發布并開源了針對文生視頻質量評測的新基準數據集 Step-Video-T2V-Eval,包含 128 條源于真實用户的中文評測問題,可評估生成視頻在運動、風景、動物、組合概念、超現實、人物、3D 動畫、電影攝影等 11 個内容類别上質量。
評測結果顯示,階躍 Step-Video-T2V 的模型性能在指令遵循、運動平滑性、物理合理性、美感度等方面的表現,均顯著超過市面上既有的效果最佳的開源視頻模型。
階躍 Step-Audio 能夠根據不同的場景需求,生成情緒、方言、語種、歌聲和個性化風格的表達,能夠和用户自然地高質量對話。
模型生成的語音具有超自然、高情商等特征,同時也能實現高質量的音色復刻并進行角色扮演,滿足影視娛樂、社交、遊戲等行業場景下應用需求。
在 LlaMA Question、Web Questions 等五大主流公開測試集中,階躍 Step-Audio 的行均超過了行業内同類型開源模型,位列第一。
尤其是在 HSK-6(漢語水平考試六級)評測中的表現尤為突出,堪稱最懂中國話的開源語音互動大模型。
階躍星辰還自建并開源了多維度評估體系 StepEval-Audio-360 基準測試,從角色扮演、邏輯推理、生成控制、文字遊戲、創作能力、指令控制等 9 項基礎能力的維度,對開源語音模型進行評測。
人工橫評結果顯示,階躍 Step-Audio 的模型能力十分均衡,且在各個維度上均超過了此前市面上效果最佳的開源語音模型。
值得一提的是,Hugging Face 聯合創始人、CEO Clement Delangue 也對階躍星辰的大模型稱贊不已,認為他将是下一個 DeepSeek。