今天小編分享的科學經驗:國產多模态大模型開源!無條件免費商用,性能超Claude 3 Sonnet,歡迎閱讀。
又一個國產多模态大模型開源!
XVERSE-V,來自元象,還是同樣的無條件免費商用。
此前元象曾率先發布國内規模最大的開源大模型,如今開源家族系列又多了一個。
最新的多模态大模型支持任意寬高比影像輸入,在主流評測中保持着效果領先——
在多項權威多模态評測中,XVERSE-V 超過零一萬物 Yi-VL-34B、面壁智能 OmniLMM-12B 及深度求索 DeepSeek-VL-7B 等開源模型。
在綜合能力測評 MMBench 中超過了谷歌 GeminiProVision、阿裡 Qwen-VL-Plus 和 Claude-3V Sonnet 等知名閉源模型。
支持任意長寬比影像輸入
傳統的多模态模型的影像表示只有整體,XVERSE-V 采用了融合整體和局部的策略,支持輸入任意寬高比的影像。
兼顧全局的概覽信息和局部的細節信息,能夠識别和分析影像中的細微特征,看的更清楚,理解的更準确
這樣的處理方式使模型可以應用于廣泛的領網域,包括全景圖識别、衛星影像、古文物掃描分析等。
△示例 - 高清全景圖識别
△示例 - 圖片細節文字識别
除了基本能力表現不錯,也能輕松應對各種不同的實際應用場景,比如圖表、文獻、代碼轉化、視障真實場景等。
圖表理解。
不論是復雜圖文結合的信息圖理解,還是單一圖表的分析與計算,模型都能夠自如應對。
自動駕駛。
代碼撰寫。
還有視障真實場景。
在真實視障場景測試集 VizWiz 中,XVERSE-V 的表現超過了 InternVL-Chat-V1.5、DeepSeek-VL-7B 等幾乎所有主流的開源多模态大模型。該測試集包含了來自真實視障用戶提出的超過 31000 個視覺問答,能準确反映用戶的真實需求與瑣碎細小的問題,幫助視障人群克服他們日常真實的視覺挑戰。
來自元象
元象 XVERSE 于 2021 年初在深圳成立。累計融資金額超過 2 億美元,投資機構包括騰訊、高榕資本、五源資本、高瓴創投、紅杉中國、淡馬錫和 CPE 源峰等。
元象創始人姚星是前騰訊副總裁和騰訊 AI Lab 創始人、國家科技部新一代人工智能戰略咨詢委員會成員。
此前,元象在國内最早開源最大參數 65B、全球最早開源最長上下文 256K 的 MoE 模型, 并在 SuperCLUE 測評全國領跑。
商業應用上,元象大模型是廣東最早獲得國家備案的模型之一 ,可向全社會提供服務。
元象大模型去年起已和多個騰訊產品,包括 QQ 音樂 、虎牙直播、全民 K 歌、騰訊雲等,進行深度合作與應用探索,為文化、娛樂、旅遊、金融領網域打造創新領先的用戶體驗。
項目鏈接:
Hugging Face:https://huggingface.co/xverse/XVERSE-V-13B
ModelScope 魔搭:https://modelscope.cn/models/xverse/XVERSE-V-13B
Github:https://github.com/xverse-ai/XVERSE-V-13B
— 完 —
點這裡關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>