活水快报 - 42Digest

TurkEmbed: NLI STS任务的土耳其嵌入模型

TurkEmbed: Turkish Embedding Model on NLI STS Tasks

Özay Ezerceli, Gizem Gümüşçekiçci, Tuğba Erkoç, Berke Özenç

arXiv

2025年11月11日

本文介绍了TurkEmbed,这是一种新颖的土耳其语言嵌入模型,旨在超越现有模型,特别是在自然语言推理(NLI)和语义文本相似性(STS)任务中。目前的土耳其嵌入模型通常依赖于机器翻译的数据集,可能限制其准确性和语义理解。 TurkEmbed利用各种数据集和高级训练技术(包括matryoshka表示学习)的组合来实现更稳健和准确的嵌入。这种方法使模型能够适应各种资源受限的环境,提供更快的编码能力。我们对土耳其STS-b-TR数据集的评估,使用Pearson和Spearman相关性指标,证明了语义相似性任务的显着改进。此外,TurkEmbed在All-NLI-TR和STS-b-TR基准上超越了目前最先进的模型Emrecan,实现了1-4%的改进。 TurkEmbed承诺通过提供对语言的更细致的理解并促进下游应用的进步来增强土耳其NLP生态系统。

This paper introduces TurkEmbed, a novel Turkish language embedding model designed to outperform existing models, particularly in Natural Language Inference (NLI) and Semantic Textual Similarity (STS) tasks. Current Turkish embedding models often rely on machine-translated datasets, potentially limiting their accuracy and semantic understanding. TurkEmbed utilizes a combination of diverse datasets and advanced training techniques, including matryoshka representation learning, to achieve more rob...

计算与语言信息检索

View Source