42digest首页
EVTP-IVS:在多模式大型语言模型中统一指令视觉分割的有效视觉令牌修剪

EVTP-IVS: Effective Visual Token Pruning For Unifying Instruction Visual Segmentation In Multi-Modal Large Language Models

Wenhui Zhu, Xiwen Chen, Zhipeng Wang, Shao Tang, Sayan Ghosh, Xuanzhao Dong, Rajat Koner, Yalin Wang

arXiv
2025年8月16日

指令视觉分割(IVS)任务需要根据自然语言指令对图像或视频中的对象进行细分。 虽然最近的多模态大型语言模型(MLLM)在IVS上取得了强劲的业绩,但它们的推理成本仍然是一个主要瓶颈,特别是在视频中。 我们经验性地分析MLLM中的视觉令牌采样,并观察子集令牌覆盖率和分割性能之间的强相关性。 这激励我们设计了一种简单而有效的令牌修剪方法,该方法选择紧凑但具有空间代表性的令牌子集以加速推理。 在本文中,我们介绍了一种新颖的IVS视觉令牌修剪方法,称为EVTP-IV,该方法通过集成空间信息来确保更好的覆盖范围,从而建立在k中心的基础上。 我们进一步提供信息理论分析,以支持我们的设计。 标准IVS基准测试的实验表明,我们的方法在视频任务上实现了高达5倍的速度,在图像任务上实现了3.5倍的加速,同时仅使用20个即可保持可比精度。

Instructed Visual Segmentation (IVS) tasks require segmenting objects in images or videos based on natural language instructions. While recent multimodal large language models (MLLMs) have achieved strong performance on IVS, their inference cost remains a major bottleneck, particularly in video. We empirically analyze visual token sampling in MLLMs and observe a strong correlation between subset token coverage and segmentation performance. This motivates our design of a simple and effective toke...