Instruction Tuning Chronologically Consistent Language Models
Songrun He, Linying Lv, Asaf Manela, Jimmy Wu
我们引入了一个按时间顺序一致、遵循指令的大型语言模型家族,以消除远视偏差。 每个模型仅对明确定义的知识截止日期之前可用的数据进行训练,确保与任何截止后数据进行严格的时间分离。 由此产生的框架提供了(i)一个简单的对话聊天界面,(ii)完全打开,保证可复制性的固定模型权重,以及(iii)预测准确性的保守下限,隔离了一旦训练泄漏被移除后仍然存在的可预测性份额。 这些功能共同为研究人员提供了一个易于使用的生成式AI工具,可用于各种没有前瞻性偏见的预测任务。
We introduce a family of chronologically consistent, instruction-tuned large language models to eliminate lookahead bias. Each model is trained only on data available before a clearly defined knowledge-cutoff date, ensuring strict temporal separation from any post-cutoff data. The resulting framework offers (i) a simple, conversational chat interface, (ii) fully open, fixed model weights that guarantee replicability, and (iii) a conservative lower bound on forecast accuracy, isolating the share ...