Measuring Information Distortion in Hierarchical Ultra long Novel Generation:The Optimal Expansion Ratio
Hanwen Shen, Ting Ying
用大型语言模型(LLM)写小说提出了一个关键问题:人类创作的大纲需要多少才能产生高质量的百万字小说? 虽然DOME,Plan Write和Long Writer等框架提高了风格连贯性和逻辑一致性,但它们主要针对较短的小说(10k-100k)字,使超长一代基本上未被探索。 利用LLMZip和LLM2Vec等最近文本压缩方法的见解,我们进行了信息理论分析,量化了LLM在不同压缩扩展比下压缩和重建超长小说时发生的失真。 我们引入了分层的两级生成管道(大纲 -> 详细大纲 -> 手稿),并找到一个平衡信息保存与人类努力的最佳轮廓长度。 通过对中国小说的广泛实验,我们建立了两阶段的分层大纲方法,与单阶段方法相比,大大减少了语义失真。 我们的研究结果为作者和研究人员提供了基于经验的指导,并与LLM合作创作了百万字小说。
Writing novels with Large Language Models (LLMs) raises a critical question: how much human-authored outline is necessary to generate high-quality million-word novels? While frameworks such as DOME, Plan Write, and Long Writer have improved stylistic coherence and logical consistency, they primarily target shorter novels (10k–100k words), leaving ultra-long generation largely unexplored. Drawing on insights from recent text compression methods like LLMZip and LLM2Vec, we conduct an information-t...