42digest首页
CONGRAD: Conlicting Gradient Filtering for Multilingual Preference Alignment 相关游戏

CONGRAD:Conflicting Gradient Filtering for Multilingual Preference Alignment

Jiangnan Li, Thuy-Trang Vu, Christian Herold, Amirhossein Tebbifakhr, Shahram Khadivi, Gholamreza Haffari

arXiv
2025年3月31日

大型语言模型(LLM)的幼稚联合训练,以实现多语言偏好对齐,可能会受到负面干扰。 这是多语种培训中的一个已知问题,其中相互冲突的目标降低了整体性能。 然而,这一现象在多语种偏好调整方面的影响在很大程度上仍未得到充分阐述。 为了解决这个问题,我们提出了CONGAD,这是一种可扩展和有效的过滤方法,可以选择高质量的偏好样本,并且跨语言的梯度冲突最小。 我们的方法利用梯度手术来保留与聚合的多语言更新方向一致的样品。 此外,我们采用了亚线性梯度压缩策略,可减少梯度积累期间内存开销。 我们将 CONGRAD 集成到自我奖励框架中,并在 LLaMA3-8B 和 Gemma2-2B 上通过 10 种语言进行评估。 结果表明,CONGRAD在可见和看不见的语言中始终优于强基线,并且对齐税最低。

Naive joint training of large language models (LLMs) for multilingual preference alignment can suffer from negative interference. This is a known issue in multilingual training, where conflicting objectives degrade overall performance. However, the impact of this phenomenon in the context of multilingual preference alignment remains largely underexplored. To address this issue, we propose CONGRAD, a scalable and effective filtering method that selects high-quality preference samples with minimal...