OCR-Omni來了，字節&華師統一多模态文字理解與生成

今天小編分享的科學經驗：OCR-Omni來了，字節&華師統一多模态文字理解與生成，歡迎閲讀。

多模态生成新突破，字節 & 華師團隊打造 TextHarmony，在單一模型架構中實現模态生成的統一，并入選 NeurIPS 2024。

過去 , 視覺文字領網域的大模型研究聚焦于單模态生成，雖然在個别任務上實現了模型的統一，但很難在 OCR 領網域的多數任務上做到全面整合。

例如，Monkey 等視覺語言模型（VLM）擅長文字檢測、識别和視覺問答（VQA）等文本模态生成任務，卻無法勝任文字影像的生成、抹除和編輯等影像模态生成任務。反之，以 AnyText 為代表的基于擴散模型的影像生成模型則專注于影像創建。因此，OCR 領網域亟需一個能夠統一多模态生成的大模型。

為解決這一難題，字節跳動與華東師範大學的聯合研究團隊提出了創新性的多模态生成模型 TextHarmony，不僅精通視覺文本的感知、理解和生成，還在單一模型架構中實現了視覺與語言模态生成的和諧統一。

目前論文已經上傳 arXiv，代碼也即将開源，鏈接可在文末領取。

TextHarmony: 核心貢獻

TextHarmony 的核心優勢在于其成功整合了視覺文本的理解和生成能力。傳統研究中，這兩類任務通常由獨立模型處理。TextHarmony 通過融合這兩大類生成模型，實現了視覺文字理解和生成的同步進行，從而統籌了 OCR 領網域的多數任務。

研究表明，視覺理解和生成之間存在顯著差異，直接整合可能導致嚴重的模态不一致問題。具體而言，多模态生成模型在文本生成（視覺感知、理解）和影像生成方面，相較于專門的單模态模型，性能出現明顯退化。

數據顯示，多模态生成模型在文本生成任務上較單模态模型效果降低 5%，影像生成任務上最高降低 8%。而 TextHarmony 成功緩解了這一問題，其在兩類任務上的表現均接近單模态專家模型水平。

技術創新

TextHarmony 采用了 ViT、MLLM 和 Diffusion Model 的組合架構：

ViT 負責影像到視覺 token 序列的轉換。

MLLM 處理視覺 token 和文本 token 的交叉序列，輸出兩類 token：

文本 token 經文本解碼器轉化為文本輸出。

視覺 token 與文本 token 結合，作為 Diffusion Model 的條件指引，生成目标影像。

這種結構實現了多模态内容的全面理解與生成。

Slide-LoRA：解決方案

為克服訓練過程中的模态不一致問題，研究者提出了 Slide-LoRA 技術。該方法通過動态整合模态特定和模态無關的 LoRA（Low-Rank Adaptation）專家，在單一模型中實現了影像和文本生成空間的部分解耦。

Slide-LoRA 包含一個動态門控網絡和三個低秩分解模塊：

模态特定 LoRA 專家聚焦于特定模态（視覺或語言）的生成任務。

模态無關 LoRA 專家處理跨模态的通用特征。

動态門控網絡根據輸入特征，靈活調度不同專家的參與度。

DetailedTextCaps-100K: 高質量數據集

為提升視覺文本生成性能，研究團隊開發了 DetailedTextCaps-100K 數據集。該集利用閉源 MLLM（Gemini Pro）生成詳盡的影像描述，為模型提供了更豐富、更聚焦于視覺和文本元素的訓練資源。

訓練策略

TextHarmony 采用兩階段訓練方法：

首階段利用 MARIO-LAION 和 DocStruct4M 等圖文對預訓練對齊模塊和影像解碼器，構建基礎的文本生成與影像生成能力。

次階段運用視覺文本的生成、編輯、理解、感知四類數據進行統一微調。此階段開放 ViT、對齊模塊、影像解碼器和 Slide-LoRA 的參數更新，以獲得統一的多模态理解與生成能力。

實驗評估

研究者對 TextHarmony 在視覺文本場景下進行了全面評估，涵蓋理解、感知、生成與編輯四個維度：

視覺文本理解：TextHarmony 顯著優于多模态生成模型，性能接近 Monkey 等專業文字理解模型。

視覺文本感知：在 OCR 定位任務上，TextHarmony 超過了 TGDoc、DocOwl1.5 等知名模型。

視覺文本編輯與生成：TextHarmony 大幅領先于現有多模态生成模型，且與 TextDiffuser2 等專業模型相當。

文字生成效果對比

文字編輯效果對比

文字影像感知與理解可視化

總結與展望

TextHarmony 作為 OCR 領網域的多功能多模态生成模型，成功統一了視覺文本理解和生成任務。通過創新的 Slide-LoRA 技術，它有效解決了多模态生成中的模态不一致問題，在單一模型中實現了視覺與語言模态的和諧統一。TextHarmony 在視覺文字感知、理解、生成和編輯方面展現出卓越性能，為復雜的視覺文本互動任務開辟了新的可能性。

這項研究不僅推動了 OCR 技術的進步，也為人工智能在理解和創造方面的發展提供了重要參考。未來，TextHarmony 有望在自動文檔處理、智能内容創作、教育輔助等多個領網域發揮重要作用，進一步推動人工智能的應用。

論文鏈接 : https://arxiv.org/abs/2407.16364

代碼開源 : https://github.com/bytedance/TextHarmony（即将開源）

— 完 —

投稿請發郵件到：

[email protected]

标題注明【投稿】，告訴我們：

你是誰，從哪來，投稿内容‍

附上論文 / 項目主頁鏈接，以及聯系方式哦

我們會（盡量）及時回復你