不牺牲任何生成质量国内最大的证券公司,将多模态大模型推理最高加速3.2倍!
华为诺亚方舟实验室最新研究已入选NeurIPS 2025。
截至目前,投机推理(Speculative Decoding)技术已成为大语言模型(LLM)推理加速的“标准动作”,但在多模态大模型(VLM)上的应用却举步维艰,现有方法加速比不到1.5倍,性能提升有限。
为此,华为诺亚方舟实验室提出了一种专为视觉语言模型设计的全新推理加速框架——
视觉感知投机推理(Vision-Aware Speculative Decoding, ViSpec),首次在该领域取得显著突破。
ViSpec通过引入轻量级的视觉适配器,解决了草稿模型在处理高冗余图像信息时的效率难题,在不牺牲任何生成质量的前提下,实现了对主流VLM最高达3.22倍的推理加速。
下面详细来看——
VLM用投机推理技术加速有限大模型的多模态能力,正以前所未有的速度发展,但一个“老大难”问题也日益凸显:推理速度。
当模型需要一边“看图”一边“说话”,尤其是在生成长篇图文并茂的回复时,计算成本和时间延迟会急剧增加,这极大地限制了VLM在实时交互、边缘部署等场景下的应用。
为了让大模型“说”得更快,学术界和工业界普遍采用投机推理技术。它就像一个聪明的“军师”(小型的草稿模型)和一个决断的“主公”(大型的目标模型)。
“军师”快速思考,提出多种可能的“计策”(预测未来词元),然后“主公”一次性并行验证这些计策的优劣,从而避免了“主公”一步一步思考的缓慢过程,大大提升了生成速度。
然而,这套在纯文本领域玩得风生水起的“君臣辅佐”模式,一旦遇到图文并茂的多模态任务,似乎就“水土不服”了。现有方法在VLM上的加速效果普遍低于1.5倍,几乎到了可以忽略不计的程度。
问题出在哪?华为诺亚方舟实验室的研究人员发现,关键在于视觉信息的处理。
对于人类来说,看一张图可能只需要一瞥就能抓住重点。但对于模型而言,一张图片会被转换成成百上千个“视觉词元”(Image Token),其中包含了大量的冗余信息。
大型的VLM“主公”身经百战,能够逐层过滤掉这些冗余信息,直击要害。但小型的“军师”草稿模型却功力尚浅,面对海量的视觉信息往往会“眼花缭乱”,难以提炼出关键内容,从而做出错误的预测,导致“主公”不得不一次次地否决它的提案,加速效果自然大打折扣。
为了解决这一难题,华为诺亚方舟实验室的研究人员们另辟蹊径,提出了一种全新的视觉感知投机推理框架——ViSpec。
ViSpec的核心思想,就是给“军师”草稿模型配上一副“火眼金睛”,让它也能像“主公”一样,快速看透图像的本质。
通过一系列创新设计,ViSpec成功地将主流VLM的推理速度提升了最高3.22倍,而且是在完全不牺牲生成质量的前提下实现的。据团队所知,这是业界首次在VLM投机推理领域取得如此显著的加速成果。
三大“独门秘籍”,让草稿模型“看”得更准ViSpec之所以能取得如此突破,主要归功于三大核心创新:
1. 轻量级视觉适配器:一眼看穿图像重点,草稿模型不再“迷茫”
如何让小模型高效处理大图像?ViSpec巧妙地借鉴了Q-Former的思想,设计了一个轻量级的视觉适配器(Vision Adaptor)。
这个适配器就像一个高度智能的图像压缩器。它通过一组可学习的查询向量(learnable query vectors),将成百上千个原始的图像嵌入(image embeddings)高效地压缩为极少数(实验证明仅需1个即可)信息高度浓缩的紧凑视觉表征(compact visual representation)。
这些压缩后的“精华”表征,随后被无缝地集成到草稿模型的注意力机制中。这样做的好处是双重的:
保留关键信息:虽然表征数量大大减少,但每一个都蕴含了图像的核心内容。降低处理负担:草稿模型不再需要处理海量的原始图像词元,计算负担显著降低,从而能够更专注于文本的生成。这就像让“军师”看一份精炼的战报,而不是去翻阅成堆的原始情报,决策效率自然大大提高。
2. 全局视觉特征注入:克服“中间遗忘”,长文本生成不再“忘图”
在生成长篇回复时,草稿模型很容易犯一个错误——“中间遗忘”(Lost-in-the-Middle)。
也就是说,随着文本越生成越长,位于输入序列最前端的图像信息,其影响力会逐渐减弱,导致模型“说着说着就忘了图里是啥了”。
为了确保视觉上下文的持续影响,ViSpec额外设计了一个全局视觉特征注入(Global Visual Feature Injection)机制。
在文本生成的每一步,ViSpec都会从图像中提取一个全局特征向量(global feature vector),并通过一个可学习的投影,将其“注入”到草稿模型的隐藏状态中。
这个全局特征就像一个时刻在线的“导航员”,不断地为草稿模型提供持久的全局视觉指引,确保其生成的每一个词元都与图像内容保持高度一致,有效克服了“中间遗忘”效应。
3. 合成长回复数据集与专门训练策略
高质量的投机推理训练,离不开包含长回复的优质数据集。然而,在多模态领域,这样的数据集非常稀缺。
为此,ViSpec团队提出了一种创新的数据生成方法:通过修改现有数据集(如视觉问答数据集)的指令(Prompt),引导目标VLM自动生成更长、更详细、更丰富的回复。
例如,将“请描述这张图片”修改为“请详细描述这张图片,至少1000字”。
这种方法极大地降低了构建大规模、高质量、长回复多模态训练集的成本。
此外,团队还设计了专门的训练策略,利用目标模型的采样随机性,并结合多词元预测机制,有效避免了草稿模型通过“抄近道”的方式直接学习目标模型的隐藏状态,从而防止了“作弊式”的过拟合,保证了其在真实推理场景中的泛化能力。
下图展示了ViSpec的整体框架:ViSpec利用视觉适配器压缩图像词元,并提取全局视觉特征g。压缩后的词元与文本一同输入草稿模型,同时全局特征被持续注入到文本生成过程中。
实验结果:性能与效率双丰收,最高3.22倍加速
ViSpec在多个主流的VLM上进行了广泛的实验验证,包括LLaVA-1.6 7B、LLaVA-1.6 13B、Qwen2.5-VL 3B、Qwen2.5-VL 7B等。
实验结果令人振奋。在温度系数为0(即确定性采样)的设置下,ViSpec在GQA测试集上取得了1.85倍到3.22倍不等的加速比,平均加速比达到了2.5倍以上。
可以看到,不同规模和架构的模型上,ViSpec都展现出了稳定且出色的加速效果。
与之相比,传统的一些针对LLM优化的方法(如Medusa、EAGLE-2),在VLM上的加速效果都差强人意。
更重要的是,这种加速是无损的。ViSpec在大幅提升推理速度的同时,并没有牺牲模型的生成质量。无论是图像描述的准确性,还是视觉问答的逻辑性,亦或是多模态对话的连贯性,ViSpec的表现都与原始的目标模型完全一致。
团队通过消融实验验证了ViSpec各核心组件的有效性。
结果显示,仅图像嵌入压缩一项即可带来高达30%的性能提升。在此基础上,全局视觉特征注入可进一步带来7%的提升,而数据集合成策略则能再贡献30%的加速。
这证明了ViSpec的每个组成部分都至关重要,且它们共同协作,最终实现了卓越的整体性能。
未来展望:开启VLM高效推理新时代
ViSpec的提出,不仅为VLM的推理加速提供了一个行之有效的解决方案,也为多模态大模型的实际应用扫清了一大障碍。
随着技术的进一步成熟和推广,可以期待未来在手机、汽车、智能家居等边缘设备上,也能流畅地运行强大的VLM,实现更自然、更智能的人机交互。
从“能看懂”到“看得快、看得好”,ViSpec正引领着VLM迈向一个更高效、更实用的新时代。
论文链接:https://arxiv.org/abs/2509.15235项目地址:https://github.com/KangJialiang/ViSpec
— 完 —
量子位 QbitAI
关注我们国内最大的证券公司,第一时间获知前沿科技动态
联华证券提示:文章来自网络,不代表本站观点。