How do data owners say no? A case study of data consent mechanisms in web-scraped vision-language AI training datasets
Chung Peng Lee, Rachel Hong, Harry Jiang, Aster Plotnik, William Agnew, Jamie Morgenstern
互联网已成为培训现代文本到图像或视觉语言模型的主要数据来源,但越来越不清楚用于培训人工智能系统的网络规模数据收集实践是否充分尊重数据所有者的意愿。 忽视所有者对数据使用的同意,不仅引起了道德问题,而且最近也被提升到了版权侵权案件的诉讼。 在这项工作中,我们的目标是揭示数据所有者同意AI抓取和培训的信息,并研究它在DataComp中的表现,DataComp是一个128亿文本图像对的流行数据集。 我们检查样本级信息,包括版权声明、水印和元数据,以及网络域级信息,例如网站的服务条款(ToS)和机器人排除协议。 我们估计至少有122M的样本在CommonPool中表现出一些版权声明,并发现前50个域名中有60%的样本来自ToS禁止抓取的网站。 此外,我们估计9-13%,其中95%的置信区间样本含有水印,其中现有的水印检测方法无法高保真度捕获它们。 我们的整体方法和研究结果表明,数据所有者依靠各种渠道来传达数据同意,其中目前的AI数据收集管道并不完全尊重。 这些发现强调了当前数据集策划/发布实践的局限性,以及考虑到人工智能目的的统一数据同意框架的必要性。
The internet has become the main source of data to train modern text-to-image or vision-language models, yet it is increasingly unclear whether web-scale data collection practices for training AI systems adequately respect data owners' wishes. Ignoring the owner's indication of consent around data usage not only raises ethical concerns but also has recently been elevated into lawsuits around copyright infringement cases. In this work, we aim to reveal information about data owners' consent to AI...