Future of AI Models: A Computational perspective on Model collapse
Trivikram Satharasi (1), S Sitharama Iyengar (2) ((1) University of Florida, Gainesville, FL, (2) Florida International University, Miami. FL)
人工智能,特别是大型语言模型(LLM),已经改变了软件工程,新闻,创意写作,学术界和媒体等领域。 2025;arXiv:2307.06435)。 像Sabledfusion这样的扩散模型从文本中生成高质量的图像和视频。 有证据表明,74.2%的新发布网页现在包含AI生成的材料(Ryan Law 2025),30-40%的活跃网络语料库是合成的(Spennemann 2025;arXiv:2504.08755),52%的美国成年人使用LLM进行写作,编码或研究(Staff 2025),审计发现AI参与了18%的财务投诉和24%的新闻稿(Liang等人)。 2025年)。 底层神经架构,包括变形金刚(Vaswani等人。 2023;arXiv:1706.03762),RNN,LSTM,GAN和扩散网络,依赖于大型,多样化的,人类撰写的数据集(Shi Iyengar 2019)。 随着合成内容的主导地位,递归训练可能会侵蚀语言和语义的多样性,产生模型崩溃(Shumailov等人。 2024;arXiv:2307.15043; Dohmatob等。 2024;arXiv:2402.07712)。 这项研究量化和预测崩溃发生通过检查2013年至2025年英语维基百科(过滤的Common Crawl)使用Transformer嵌入和余弦相似度指标的年数语义相似性。 结果显示,在公开采用LLM之前,相似性稳步上升,这可能是由早期的RNN / LSTM翻译和文本正常化管道推动的,尽管由于规模较小而不大。 观察到的波动反映了不可简化的语言多样性,多年来可变语料库大小,有限的采样误差,以及公开采用LLM模型后相似性的指数级上升。 这些发现提供了数据驱动的估计,即递归AI污染何时可能显着威胁数据丰富性和模型推广。
Artificial Intelligence, especially Large Language Models (LLMs), has transformed domains such as software engineering, journalism, creative writing, academia, and media (Naveed et al. 2025; arXiv:2307.06435). Diffusion models like Stable Diffusion generate high-quality images and videos from text. Evidence shows rapid expansion: 74.2% of newly published webpages now contain AI-generated material (Ryan Law 2025), 30-40% of the active web corpus is synthetic (Spennemann 2025; arXiv:2504.08755), 5...