BiCA: Effective Biomedical Dense Retrieval with Citation-Aware Hard Negatives
Aarush Sinha, Pavan Kumar S, Roshan Balaji and Nirav Pravinbhai Bhatt
硬底片对于训练有效的检索模型至关重要。 硬负挖掘通常依赖于使用交叉编码器或基于余氨酸距离等相似性指标的静态嵌入模型对文档进行排名。 硬负采矿对生物医学和科学领域来说变得具有挑战性,因为很难区分源和硬负文件。 然而,引用的文件自然与源文件具有上下文相关性,但不是重复的,因此非常适合硬底文。 在这项工作中,我们提出了BiCA:生物医学密度检索与引文 - 感知硬底片,一种通过利用20,000 PubMed文章中的引文链接来改善特定域的小致密猎犬的硬阴性挖掘方法。 我们使用这些引用式底片微调GTE_small和GTE_Base模型,并使用nDCG@10在BEIR上的域内和域外任务中观察零镜头密集检索的一致改进,并使用Success@5在LoTTE中超越长尾主题的基线。 我们的研究结果强调了利用文档链接结构产生高信息性底片的潜力,以最小的微调实现最先进的性能,并展示了实现高数据效率的域适应的道路。
Hard negatives are essential for training effective retrieval models. Hard-negative mining typically relies on ranking documents using cross-encoders or static embedding models based on similarity metrics such as cosine distance. Hard negative mining becomes challenging for biomedical and scientific domains due to the difficulty in distinguishing between source and hard negative documents. However, referenced documents naturally share contextual relevance with the source document but are not dup...