42digest首页
长文档排名中的位置偏差:影响、评估和缓解

Positional Bias in Long-Document Ranking: Impact, Assessment, and Mitigation

Leonid Boytsov, David Akinpelu, Nipun Katyal, Tianyi Lin, Fangwei Gao, Yutian Zhao, Jeffrey Huang, Eric Nyberg

arXiv
2022年7月4日

我们测试了20多个 Transformer 模型,用于排名长文档(包括最近使用 FlashAttention 训练的 LongP 模型,以及由 OpenAI 和 Anthropic 云 API “供电”的 RankGPT 模型)。 我们将它们与简单的FirstP基线进行了比较,该基线将相同的模型应用于截断输入(最多512个令牌)。 在MS MARCO,TREC DL和Robust04上,没有长文档模型的表现超过FirstP超过5%(平均)。 我们假设这种缺乏改进不是由于固有的模型限制,而是由于基准位置偏差(大多数相关段落往往在文档早期发生),这在MS MARCO中已知存在。 为了证实这一点,我们分析了四个长文档corpora(有六个查询集)的位置相关性分布,并观察到了相同的早期位置偏差。 令人惊讶的是,我们还发现了六个BEIR集合中的偏差,这些集合通常被归类为短文档数据集。 然后,我们引入了一个新的诊断数据集MS MARCO FarRerevant,其中相关的跨度被故意放置在前512个令牌之外。 在这个数据集上,许多长上下文模型(包括RankGPT)在随机基线级别执行,建议过度适应位置偏差。 我们还尝试了去偏化训练数据,但成功有限。 我们的研究结果(1)强调了在评估文档排名的长上下文模型时需要仔细的基准设计,(2)确定对位置偏差更可靠的模型类型,(3)激励进一步研究debias训练数据的方法。 我们发布代码和数据以支持进一步的研究。

We tested over 20 Transformer models for ranking long documents (including recent LongP models trained with FlashAttention and RankGPT models "powered" by OpenAI and Anthropic cloud APIs). We compared them with the simple FirstP baseline, which applied the same model to truncated input (up to 512 tokens). On MS MARCO, TREC DL, and Robust04 no long-document model outperformed FirstP by more than 5% (on average). We hypothesized that this lack of improvement is not due to inherent model limitation...