42digest首页
CrystalFormer-RL:材料设计的强化微调

CrystalFormer-RL: Reinforcement Fine-Tuning for Materials Design

Zhendong Cao, Lei Wang

arXiv
2025年4月3日

强化微调在增强大型语言模型的教学跟踪和推理能力方面发挥了重要作用。 在这项工作中,我们采用材料设计的加固微调,其中使用判别神经系统模型为自动回归变压器基材料生成模型CrystalFormer提供奖励。 通过优化奖励信号 - 例如凸体上方的能量和优点增强微调的材料属性数字将来自判别模型的知识注入生成模型。 生成的模型CrystalFormer-RL显示了生成晶体的稳定性增强,并成功发现了具有理想但冲突的材料特性的晶体,例如同时具有实质性的介电常数和带隙。 值得注意的是,我们观察到强化微调不仅实现了属性引导材料设计,而且还可以解锁预训练生成模型的基于属性的材料检索行为。 本框架为机器学习生态系统在材料设计方面的协同效应打开了一个令人兴奋的门户。

Reinforcement fine-tuning played an instrumental role in enhancing the instruction-following and reasoning abilities of large language models. In this work, we employ reinforcement fine-tuning for materials design, in which discriminative machine learning models are used to provide rewards to the autoregressive transformer-based materials generative model CrystalFormer. By optimizing the reward signals-such as energy above the convex hull and material properties figures of merit-reinforcement fi...