今天小編分享的科技經驗:阿裡國際發布最新開源多模态模型Ovis,多模态能力再更新,歡迎閱讀。
看一眼菜品圖就知道怎麼做、能給植物看病、能把手寫英文準确翻譯成中文、還能精準分析财報數據……多模态能力再次更新!今天,阿裡國際 AI 團隊發布了一款多模态大模型 Ovis,在影像理解任務上不斷突破極限,多種具體的子類任務中均達到了 SOTA(最新技術)水平。
多模态大模型能夠處理和理解多種不同類型的數據輸入,例如文本、影像。與大型語言模型(LLMs)相比,大語言模型在處理和生成文本數據方面有專長,而多模态大模型能夠處理非文本數據,如影像等等。
根據多模态權威綜合評測平台 OpenCompass 的數據,Ovis1.6-Gemma2-9B 在 30B 參數以下的模型中取得了綜合排名第一,趕超 MiniCPM-V-2.6 等行業優秀大模型。
圖:Ovis 在 OpenCompass 上的測評數據情況
據介紹,Ovis 能夠在數學推理問答、物體識别、文本提取和復雜任務決策等方面展現出色表現。例如,Ovis 可以準确回答數學問題,識别花的品種,支持多種語言的文本提取,甚至可以識别手寫字體和復雜的數學公式。
案例 1:Ovis 對手寫文案的識别及翻譯能力
案例 2:Ovis 對復雜數學公式的處理能力
案例 3:Ovis 通過對圖片的識别處理能夠給出菜譜
具體來說,Ovis 模型有五大優點:
1、創新架構設計:可學習的視覺嵌入詞表:首次引入,将連續的視覺特征轉換為概率化的視覺 token,再經由視覺嵌入詞表加權生成結構化的視覺嵌入,克服了大部分 MLLM 中 MLP 連接器架構的局限性,大幅提升多模态任務表現。
2、高分影像處理:動态子圖方案:支持處理極端長寬比的影像,兼容高分辨率影像,展現出色的影像理解能力。
3、全面數據優化:多方向數據集覆蓋:全面覆蓋 Caption、VQA、OCR、Table、Chart 等各個多模态數據方向,顯著提升多模态問答、指令跟随等任務表現。
4、卓越模型性能:Ovis 展現出了優異的榜單表現。在多模态權威綜合評測 Opencompass 上,Ovis1.6-Gemma2-9B 在 30B 參數以下的模型中取得了綜合排名第一,超過了 Qwen2-VL-7B、MiniCPM-V-2.6 等模型。尤其在數學問答等方向表現媲美 70B 參數模型;在幻覺等任務中,Ovis-1.6 的幻覺現象和錯誤率顯著低于同級别的模型,展現了更高的生成文本質量和準确性。
5、全部開源可商用:Ovis 系列模型 License 采用 Apache 2.0。Ovis 1.0、1.5 的數據、模型、訓練和推理代碼都已全部開源,可復現。Ovis1.6 系列中的 Ovis1.6-Gemma2-9B 也已開源權重。
在 AI 領網域,多模态大模型的應用場景非常廣泛,包括但不限于自動駕駛、醫療診斷、視頻内容理解、影像描述生成、視覺問答等。例如,在自動駕駛領網域,多模态大模型可以整合來自攝像頭、雷達和激光雷達的數據,以實現更精準的環境感知和決策。由于多模态大模型能夠學習如何聯合理解和生成跨多種模式的信息,也被視為朝向通用人工智能的下一個步驟。
根據此前媒體報道,阿裡國際在去年成立了一支 AI 團隊,目前已經在 40 多個電商場景裡測試了 AI 能力,覆蓋跨境電商全鏈路,包括商品圖文、營銷、搜索、廣告投放、SEO、客服、退款、店鋪裝修等,其中多個應用場景均基于 Ovis 模型進行開發,已幫助 50 萬中小商家、對 1 億款商品進行了信息優化。據介紹,商家的 AI 需求不斷增長,近半年的數據顯示,平均每兩個月,商家對于 AI 的調用量就翻 1 倍。
附相關鏈接:
論文 arXiv: https://arxiv.org/abs/2405.20797
Github: https://github.com/AIDC-AI/Ovis
Huggingface: https://huggingface.co/AIDC-AI/Ovis1.6-Gemma2-9B
Demo: https://huggingface.co/spaces/AIDC-AI/Ovis1.6-Gemma2-9B
雷峰網