今天小编分享的科学经验:轻松拿捏4K高清影像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便,欢迎阅读。
一个可以自动分析 PDF、网页、海报、Excel 图表内容的大模型,对于打工人来说简直不要太方便。
上海 AI Lab,香港中文大学等研究机构提出的 InternLM-XComposer2-4KHD(简写为 IXC2-4KHD)模型让这成为了现实。
相比于其他多模态大模型不超过 1500x1500 的分辨率限制,该工作将多模态大模型的最大输入影像提升到超过 4K (3840 x1600)分辨率,并支持任意长宽比和 336 像素~4K 动态分辨率变化。
发布三天,该模型就登顶 Hugging Face 视觉问答模型热度榜单第一。
轻松拿捏 4K 影像理解
先来看效果 ~
研究人员输入论文(ShareGPT4V: Improving Large Multi-Modal Models with Better Captions)的首页截图(分辨率为 2550x3300),并询问论文哪个模型在 MMBench 上的性能最高。
需要注意的是,该信息在输入截图的正文文字部分并未提及,仅仅出现在一个相当复杂的雷达图中。面对这么刁钻的问题,IXC2-4KHD 成功理解了雷达图中的信息,正确回答问题。
面对更加极端分辨率的影像输入(816 x 5133),IXC2-4KHD 轻松理解影像包括 7 个部分,并准确说明了每个部分包含的文字信息内容。
随后,研究人员还在 16 项多模态大模型评测指标上全面测试了 IXC2-4KHD 的能力,其中 5 项评测(DocVQA、ChartQA、InfographicVQA、TextVQA、OCRBench)关注模型的高分辨率影像理解能力。
仅仅使用 7B 参数量,IXC2-4KHD 在其中 10 项评测取得了媲美甚至超越 GPT4V 和 Gemini Pro 的结果,展现了不局限于高分辨率影像理解,而是对各种任务和场景的泛用能力。
△仅 7B 参数量的 IXC2-4KHD 性能媲美 GPT-4V 和 Gemini-Pro 如何实现 4K 动态分辨率?
为了实现 4K 动态分辨率的目标,IXC2-4KHD 包括了三个主要设计:
(1)动态分辨率训练:
△4K 分辨率影像处理策略
在 IXC2-4KHD 的框架中,输入影像在保持长宽比的情况下,被随机放大到介于输入面积和最大面积(不超过 55x336x336,等价于 3840 x1617 分辨率)的一个中间尺寸。
随后,影像被自动切块成多个 336x336 的区網域,分别抽取视觉特征。这种动态分辨率的训练策略可以让模型适应任意分辨率的视觉输入,同时也弥补了高分辨率训练数据不足的问题。
实验表明,随着动态分辨率上限的增加,模型在高分辨率影像理解任务(InfographicVQA、DocVQA、TextVQA)上实现了稳定的性能提升,并且在 4K 分辨率仍然未达到上界,展现了更高分辨率进一步扩展的潜力。
(2)添加切块布局信息:
为了使模型能够适应变化丰富的动态分辨率,研究人员发现需要将切块布局信息作为额外的输入。为了实现这个目的,研究人员采取了一种简单的策略:一个特殊的‘换行’(’ n ’)令牌被插入到每一行的切块之后,用于告知模型切块的布局。实验表明,添加切块布局信息,对于变化幅度比较小的动态分辨率训练(HD9 代表切块区網域个数不超过 9)影响不大,而对于动态 4K 分辨率训练则可以带来显著的性能提升。
(3)推理阶段扩展分辨率
研究人员还发现,使用动态分辨率的模型,可以在推理阶段通过增加最大切块上限直接扩展分辨率,并且带来额外的性能增益。例如将 HD9(最多 9 块)的训练模型直接使用 HD16 进行测试,可以在 InfographicVQA 上观察到高达 8% 的性能提升。
IXC2-4KHD 将多模态大模型支持的分辨率提升到了 4K 的水平,研究人员表示目前这种通过增加切块个数支持更大影像输入的策略遇到了计算代价和显存的瓶颈,因此他们计划提出更加高效的策略在未来实现更高分辨率的支持。
论文链接:
https://arxiv.org/pdf/2404.06512.pdf
项目链接:
https://github.com/InternLM/InternLM-XComposer
— 完 —
投稿请发邮件到:
标题注明【投稿】,告诉我们:
你是谁,从哪来,投稿内容
附上论文 / 项目主页链接,以及联系方式哦
我们会(尽量)及时回复你
点这里关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~
>