香港大模型公司Weitu AI首秀，打造多模态Native的技術和產品

今天小編分享的科學經驗：香港大模型公司Weitu AI首秀，打造多模态Native的技術和產品，歡迎閱讀。

香港也有大模型公司了。

Weitu AI，一家全力打造多模态 Native產品的公司，其創始人王歷偉博士在介紹時，特别強調了 " 多模态 Native" 這個關鍵詞。

就在前不久，Weitu AI 推出了自家的150 億參數多模态大模型 WeituAI 1.0，在諸多國際權威評測榜單如 MMMU [ 1 ] ，MMBench [ 2 ] ，CMMMU [ 3 ] ，SEED-Bench [ 4 ] 和 MM-Vet [ 5 ] 等上一路高歌猛進。

雖然參數規模不算大，但不僅力壓 200 億參數量以下的同量級模型，甚至在一些榜單直接超車 LLaVA-NeXT-34B、MM1-30B-Chat 等更大模型。

這些評測結果不僅反映模型的性能優勢，也反映了其多模态能力的全面性。

例如，在由俄亥俄州立大學，滑鐵盧大學，卡内基梅隆大學和普林斯頓大學等機構聯合發布的大規模多學科多模态理解和推理數據集 MMMU 上，WeituAI 1.0 取得了百億參數模型中的優異成績，僅次于一系列規模更大的模型，如 GPT-4V 等 [ 1 ] 。

在由香港科技大學、中科院自動化所和北京大學等機構組織的中文學科多模态數據集 CMMMU 上，WeituAI 1.0 在 200 億參數量以下模型中排名第一 [ 3 ] 。

探索算法創新，瞄準多模态互動 Native

為什麼首先是百億參數模型？

據王歷偉博士介紹，因為這個參數規模的模型在打造實際多模态場景產品的時候，有非常靈活的想象空間。

此次在這些多模态大模型評測基準上展示了基礎的多模态理解能力，但是目前上述的評測基準大多以理解能力為主，尚沒有完全展示 Weitu AI 大模型最擅長和最有特點的多模态互動能力。

Weitu AI 針對多模态互動做了很多結構優化，不僅讓 WeituAI 1.0 模型在傳統的多模态理解任務上保持優勢，更讓其在多模态互動 Native 場景大放異彩。

△王歷偉博士

事實上，作為深耕多模态（視覺和自然語言結合領網域）十多年的資深專家，王歷偉博士對當下大模型的局限有着敏銳洞察。

我自己從 10 多年前就開始了多模态人工智能的研究，比如當前非常重要的語言匹配到具體影像内容（Visual Grounding）這樣的經典多模态任務也是我和合作者們一起在 10 年前就提出來的。雖然最近多模态大模型這個詞語被整個領網域反復提及，多模态大模型的發展還有一些重要的問題亟待解決。即使是 GPT-4V 也在很多多模态的任務上表現出亟待提高的一面，比如對多模态細顆粒度的信息理解準确度需要提高等等。

當問到為什麼會出現這樣的情況，王歷偉博士指出，" 原因很多，但是有一個非常本質且當前諸多多模态模型尚未完全解決的問題是， 傳統的影像文本映射到同一個向量特征空間 ( embedding ) 的表達方法對視覺和跨模态建模具有局限性。 "

目前基于向量空間做跨模态映射表達的局限性，雖然存在很多年，也還沒被完全解決。

舉個最簡單的例子，請思考一個問題，單一的影像和文本向量空間映射是否具備能夠準确匹配所有細顆粒度信息的能力？

比如，一張圖有一只白色的羊站在草地上吃草，那麼什麼樣的文本描述在映射空間裡面才真的是适合這張圖的？是更加細顆粒度卻細節容易出錯的，還是更加粗顆粒度但不容易描述出錯的？

這個問題其實很本質，反映了單一的映射向量空間很難解決的問題。也恰恰是這一點，也體現在為什麼現在許多多模态模型對數字，或者對影像内容細粒度理解和可控的生成還有很多地方需要完善。

總結起來就是，多模态大模型技術其實還有很多可以改進的地方，而 Weitu AI 也在不斷探索算法上的創新。

尤其是，我們瞄準自己多模态的長期積累優勢，提出新的多模态大模型更多地側重在 " 多模态互動 Native"，因為我們努力打造的也正是多模态互動 Native 產品。

技術驅動產品，" 雙輪驅動 " 成就多模态新機遇‍‍

在王歷偉博士看來，一款成功的多模态 Native 產品，離不開技術和產品力的 " 雙輪驅動 "，缺一不可。

不論是 B to C 的平台產品，還是 C 端的 APP 產品，從多模态互動 Native 這一點來看，核心都是讓互動的效果和體驗因為人工智能多模态技術的應用而達到最佳狀态， 從而成為新的產品習慣。而這件事的意義絕對不亞于大家用鍵盤打字輸入搜索引擎框帶來的產品習慣。

和移動互聯網時代的產品相比，要打造一款成功的多模态 Native 產品有何不同？

王歷偉博士認為，需要同時滿足兩個因素：第一個是產品力，第二個就是人工智能多模态技術。

這也讓真正好用的多模态智能產品的出現變得有挑戰，因為這兩個要素是耦合在一起的。我覺得，多模态 AI 技術的臨界點和誕生成功的多模态產品的時間點也會是耦合在一起的，而能夠擁有這樣機會的公司，一定是同時具備多模态技術能力和產品力的公司。我覺得 Weitu AI 正是往這個方向上努力，因為我們具備對多模态場景的理解，對用戶的同理心，對技術的孜孜追求和自信。

據悉，截止到 4 月，Weitu AI 的多模态影像語言理解等技術被全球化的產品公司調用功能即将超過一億次，而且這個數字會未來會持續增長。

但在王歷偉博士看來，這還遠遠不夠。

他認為，Weitu AI 的細粒度跨模态理解能力持續給這些全球化的客戶平台公司輸送提高產品智能互動能力的 " 燃料 "，而且這種細顆粒度理解能力只是 Weitu AI 多模态着力打造的多項技術優勢中的一種。

不僅如此，Weitu AI 自己的一款充滿想象力的 C 端產品也在努力打造中。未來 Weitu AI 将致力于打造豐富的多模态互動 Native 產品矩陣，而這些產品矩陣的基礎，就是 Weitu AI 不斷進化和發展的多模态互動大模型。

大模型技術的發展，需要場景應用的迭代。而公司自建產品矩陣，正是構建場景閉環的關鍵一環。

好的商業模式和產品力，能讓有理想的多模态公司跑得更快、更有信心。

站在用戶和市場的角度，多模态大有可為

最後，王歷偉博士分享了他對創業的感悟 :

創業者要有同理心。一方面，對用戶的同理心，能讓團隊打造出優秀的產品；另一方面，對市場和投資者的同理心，又能讓公司的技術理想走得更遠。

Weitu AI 的故事，恰恰诠釋了技術與產品力的 " 同理心 "。他們在多模态技術的攻堅上不遺餘力，更以對用戶痛點的洞察，為這項前沿技術找到落地的場景。于是，我們看到的不再是簡單的技術堆砌，而是與人的互動習慣深度融合的 " 多模态新產品 "。

如果對打造這個新產品感興趣，歡迎多模态大模型、AIGC、模型訓練、推理和部署等方向的技術研發，前端和後端工程師，C 端產品經理、產品運營、產品增長等方向的優秀人才投送簡歷至： [email protected]

商務洽談，也歡迎郵件聯系[email protected]

評測榜單鏈接（其中 WeituAI 1.0 模型名稱 Weitu-VL-1.0）

[ 1 ] https://mmmu-benchmark.github.io/

[ 2 ] https://mmbench.opencompass.org.cn/leaderboard

[ 3 ] https://cmmmu-benchmark.github.io/

[ 4 ] https://huggingface.co/spaces/AILab-CVC/SEED-Bench_Leaderboard

[ 5 ] https://paperswithcode.com/sota/visual-question-answering-on-mm-vet

* 本文系量子位獲授權刊載，觀點僅為作者所有。

— 完 —

量子位 QbitAI

վ ' ᴗ ' ի 追蹤 AI 技術和產品新動态

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~