网站建设功能描述书,微信公众号怎么做编辑,公司网站seo优化的,佛山网络推广seo基于 RWKV 的视觉语言模型 VisualRWKV 被 COLING 2025 接收#xff01;
COLING#xff0c;国际计算语言学会议#xff08;International Conference on Computational Linguistics#xff09;#xff0c;是自然语言处理和计算语言学领域的顶级国际会议#xff08;CCF 推…基于 RWKV 的视觉语言模型 VisualRWKV 被 COLING 2025 接收
COLING国际计算语言学会议International Conference on Computational Linguistics是自然语言处理和计算语言学领域的顶级国际会议CCF 推荐 B 类国际会议。COLING 2025 将于 2025 年 1 月 19 日至 24 日在阿联酋阿布扎比召开。VisualRWKV 论文已被 COLING 2025 主会接收。
论文标题VisualRWKV: Exploring Recurrent Neural Networks for Visual Language Models作者Haowen Hou, Peigen Zeng, Fei Ma, Fei Richard Yu。论文https://arxiv.org/abs/2406.13362代码https://github.com/howard-hou/VisualRWKV
摘要
视觉语言模型VLMs随着大型语言模型的成功迅速发展。然而将高效的线性循环神经网络RNNs架构整合到 VLMs 中的尝试还相对较少。在这项研究中我们提出了 VisualRWKV这是线性 RNN 模型首次应用于多模态学习任务利用了预训练的 RWKV 语言模型。
我们提出了数据依赖的递归和三明治提示词来增强我们的建模能力以及一个 2D 图像扫描机制来丰富视觉序列的处理。广泛的实验表明VisualRWKV 在各种基准测试上达到了与基于 Transformer 的模型如 LLaVA-1.5 相竞争的性能如图 1所示。同时当上下文长度达到 24K 时推理速度比 LLaVA-1.5 快3.98 倍GPU 显存占用少 54%。 研究背景
视觉语言模型发展大型语言模型在自然语言处理中表现出色视觉语言模型VLMs通过整合视觉和文本信息在解决视觉问题和推进视觉 - 语言任务方面潜力巨大但现有模型因 Transformer 架构自注意力机制存在计算和内存复杂度高的问题限制了其在边缘设备的应用。线性 RNN 模型优势RWKV 模型作为新型递归神经网络架构在大规模数据性能上超越 Transformers具有线性可扩展性为长序列建模瓶颈提供解决方案但在多模态任务应用方面的研究较少
VisualRWKV 模型设计
VisualRWKV 的整体模型结构如图 2所示其中红字是 VisualRWKV 核心创新点。分别是数据依赖循环Data-dependent Recurrence三明治提示词Sandwich Prompt和双向扫描Bidirectional Scanning)。 图 2 VisualRWKV 架构概述和三种提示词策略。图像在前提示将图像标特征于文本向量之前图像在后提示将图像特征置于文本向量之后三明治提示将图像特征置于文本向量之间。红色文字表示主要贡献。
三明治提示词
如图 2 所示设计了图像在前提示、图像在后提示和三明治提示三种方法实验表明三明治提示效果最佳能让模型在处理图像前回顾指令更有针对性提取信息减轻因图像标记减少导致的信息丢失。
数据依赖循环
Data-dependent Recurrence 可以有效增强 RWKV 模型的能力和容量如图 3所示。 图 3 Data-dependent Recurrence 示意图左边时间混合模块的示意图右边时间混合模块的 RNN 视角。虚线箭头表示数据依赖的连接。
Data-dependent Recurrence 主要包括如下 2 点设计
数据依赖的 Token Shift通过定义低秩适应lora和数据依赖线性插值ddlerp动态分配新数据与现有数据比例拓宽模型容量。数据依赖的时间混合将时间衰减向量从固定参数变为动态使模型能更灵活适应输入数据提升性能
如下表所示VisualRWKV 引入 Data-dependent Recurrence 后在 VQA 测试集上效果上涨了接近 15 个点非常让人印象深刻。 我们选择在视觉问答 VQA-v2VQA、科学问答 ScienceQASQA、文本视觉问答 TextVQATQA和通用视觉问答 GQA 上进行实验以检验模型的能力。
图像扫描机制
如图 4所示我们探索了单向块、双向块和多向块三种变体实验显示单向扫描不适合处理 2D 视觉信息双向扫描在处理多模态学习任务的 2D 视觉信息方面表现较好。因为仅仅是调整不同层的扫描方向也不并会增加模型总体的计算量。 图 4 展示了 3种不同的多模态 RWKV 块单向块左双向块中以及多向块右。顶部还描绘了四种扫描模式。
实验结果
性能比较
VisualRWKV 在 8 个基准测试中的 3 个取得最佳性能在 SQA 基准测试中排名第二与 LLaVA-1.5 相比在多个基准测试中表现更优尤其在 MMB-cn 中文测试集上领先明显表明 RWKV 语言模型多语言能力更强。表 2展示了我们提出的 VisualRWKV 模型与一些最先进的多模态大型语言模型的比较。VisualRWKV 在8 个基准测试中的 3个中取得了最佳性能在 SQA 基准测试中排名第二。与规模参数相似且多模态训练数据量相同的 LLaVA-1.5 7B 相比我们的模型VisualRWKV-7B在 4个基准测试中表现更好SQA68.2%对 66.8%、GQA64.3%对 62.0%、MMB65.8%对 64.3%和 MMB-cn63.7%对 30.5%。值得注意的是VisualRWKV 和LLaVA-1.5 使用了完全相同的训练数据。然而在 MMB-cn 中文测试集上VisualRWKV 显示出了显著的领先优势。这可能表明 RWKV 语言模型具有更强的多语言能力。这些有希望的结果不仅证实了 VisualRWKV 模型的有效性还突显了线性 RNN 模型在多模态学习任务中的重要潜力。 由于空间限制基准测试名称被缩写。VQAGQASQAScienceQA-IMGTQATextVQAPOPEMMEMMBMMBenchMMB-cnMMBench-CN。PT 和IT 分别表示预训练和指令调优阶段涉及的样本数量。Res.代表“分辨率”。
消融实验
表 3展示了在三种提示方法中我们提出的三明治提示表现最佳传统的先图像后提示排在第二位而先图像后提示的效果最差。三明治提示增强效果的原因如下通过让模型在处理图像之前先回顾指令三明治提示有助于更有针对性地从图像中提取信息从而加强图像信息检索过程中的条件方面。然而仅仅将指令放在图像之前是不够的。我们观察到图像后提示的效果明显较差。仅仅将指令放在图像前面是不充分的我们发现图像后提示的效果明显较差。这是因为线性 RNN 模型在处理图像后往往会忘记指令信息需要重复指令以获得更好的结果。此外我们的研究表明三明治提示能够有效减轻由于图像标记减少导致信息丢失的问题即使只有少量的图像标记也能保持好的结果。 我们比较了三种图像扫描机制单向扫描UniDir、双向扫描BiDir和多向扫描MultiDir。如表 4所示UniDir 的表现最差因为它天生不适合处理 2D 视觉信息。BiDir 和MultiDir 在各种基准测试评估中显示出相似的结果但 BiDir 在大多数情况下表现更好突显了它在处理多模态学习任务中的 2D 视觉信息方面的优势。 效率分析与文本能力
与 LLaVA-1.5 相比在 24K 上下文时VisualRWKV 推理速度快 3.98 倍GPU 内存消耗降低 54%。此外VisualRWKV 在文本能力上未出现退化在多语言文本能力上与文本专用的 RWKV 基本一致得益于多语言 ShareGPT4 数据的整合。