國產多模态大模型開源！無條件免費商用，性能超Claude 3 Sonnet

今天小編分享的科學經驗：國產多模态大模型開源！無條件免費商用，性能超Claude 3 Sonnet，歡迎閱讀。

又一個國產多模态大模型開源！

XVERSE-V，來自元象，還是同樣的無條件免費商用。

此前元象曾率先發布國内規模最大的開源大模型，如今開源家族系列又多了一個。

最新的多模态大模型支持任意寬高比影像輸入，在主流評測中保持着效果領先——

在多項權威多模态評測中，XVERSE-V 超過零一萬物 Yi-VL-34B、面壁智能 OmniLMM-12B 及深度求索 DeepSeek-VL-7B 等開源模型。

在綜合能力測評 MMBench 中超過了谷歌 GeminiProVision、阿裡 Qwen-VL-Plus 和 Claude-3V Sonnet 等知名閉源模型。

支持任意長寬比影像輸入

傳統的多模态模型的影像表示只有整體，XVERSE-V 采用了融合整體和局部的策略，支持輸入任意寬高比的影像。

兼顧全局的概覽信息和局部的細節信息，能夠識别和分析影像中的細微特征，看的更清楚，理解的更準确

這樣的處理方式使模型可以應用于廣泛的領網域，包括全景圖識别、衛星影像、古文物掃描分析等。

△示例 - 高清全景圖識别

△示例 - 圖片細節文字識别

除了基本能力表現不錯，也能輕松應對各種不同的實際應用場景，比如圖表、文獻、代碼轉化、視障真實場景等。

圖表理解。

不論是復雜圖文結合的信息圖理解，還是單一圖表的分析與計算，模型都能夠自如應對。

自動駕駛。

代碼撰寫。

還有視障真實場景。

在真實視障場景測試集 VizWiz 中，XVERSE-V 的表現超過了 InternVL-Chat-V1.5、DeepSeek-VL-7B 等幾乎所有主流的開源多模态大模型。該測試集包含了來自真實視障用戶提出的超過 31000 個視覺問答，能準确反映用戶的真實需求與瑣碎細小的問題，幫助視障人群克服他們日常真實的視覺挑戰。

來自元象

元象 XVERSE 于 2021 年初在深圳成立。累計融資金額超過 2 億美元，投資機構包括騰訊、高榕資本、五源資本、高瓴創投、紅杉中國、淡馬錫和 CPE 源峰等。

元象創始人姚星是前騰訊副總裁和騰訊 AI Lab 創始人、國家科技部新一代人工智能戰略咨詢委員會成員。

此前，元象在國内最早開源最大參數 65B、全球最早開源最長上下文 256K 的 MoE 模型，并在 SuperCLUE 測評全國領跑。

商業應用上，元象大模型是廣東最早獲得國家備案的模型之一，可向全社會提供服務。

元象大模型去年起已和多個騰訊產品，包括 QQ 音樂、虎牙直播、全民 K 歌、騰訊雲等，進行深度合作與應用探索，為文化、娛樂、旅遊、金融領網域打造創新領先的用戶體驗。

項目鏈接：

Hugging Face：https://huggingface.co/xverse/XVERSE-V-13B

ModelScope 魔搭：https://modelscope.cn/models/xverse/XVERSE-V-13B

Github：https://github.com/xverse-ai/XVERSE-V-13B

— 完 —

點這裡關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~