Censoring chemical data to mitigate dual use risk
Quintina L. Campbell, Jonathan Herington, Andrew D. White
机器学习模型具有双重用途潜力,可能既服务于有益目的,也服务于恶意目的。 化学中开源模型的发展特别引发了对毒理学数据和化学战剂的双重用途担忧。 我们讨论一个链风险框架,确定三种滥用途径和相应的缓解策略:推理水平、模型级和数据级。 在数据层面,我们引入了一种与模型无关的噪声方法,以增加特定所需区域(敏感区域)的预测误差。 我们的结果表明,选择性噪声会诱发方差和衰减偏差,而简单地省略敏感数据则无法防止外推。 这些发现适用于分子特征多层感知器和图形神经网络。 因此,噪声分子结构可以实现潜在两用分子数据的公开共享。
Machine learning models have dual-use potential, potentially serving both beneficial and malicious purposes. The development of open-source models in chemistry has specifically surfaced dual-use concerns around toxicological data and chemical warfare agents. We discuss a chain risk framework identifying three misuse pathways and corresponding mitigation strategies: inference-level, model-level, and data-level. At the data level, we introduce a model-agnostic noising method to increase prediction...