Branching Flows: Discrete, Continuous, and Manifold Flow Matching with Splits and Deletions
Hedwig Nora Nordlinder (1), Lukas Billera (1), Jack Collier Ryder (1), Anton Oresten (1), Aron Stålmarck (1), Theodor Mosetti Björk (1), Ben Murrell (1) ((1) Department of Microbiology, Tumor and Cell Biology, Karolinska Institutet)
生成建模的解波和流匹配方法在状态空间是连续的领域(如图像生成或蛋白质折叠设计)以及由扩散大语言模型等离散的离散领域显示出希望。 当状态中的元素数量提前固定(例如图像)时,它们提供自然拟合,但是当大型语言模型的响应长度或蛋白质链中的氨基酸数量不事先知道时,需要临时解决方案。 在这里,我们提出了Branching Flows,一个生成建模框架,像扩散和流匹配方法一样,将简单的分布传输到数据分布。 但在Branching Flows中,该州的元素在二元树的森林中进化,分支和死亡以模型所学的速度随机化。 这使得模型在生成过程中控制序列中元素的数量。 我们还表明,Branching Flows可以在离散集,连续欧几里得空间,平滑流和混合这些组件的“多模态”产品空间上与任何流量匹配基础过程组成。 我们在三个领域证明了这一点:小分子生成(多模态),抗体序列生成(离散)和蛋白质骨干生成(多模态),并表明Branching Flows是一个具有稳定学习目标的有能力的分布学习者,并且它能够实现新功能。
Diffusion and flow matching approaches to generative modeling have shown promise in domains where the state space is continuous, such as image generation or protein folding design, and discrete, exemplified by diffusion large language models. They offer a natural fit when the number of elements in a state is fixed in advance (e.g. images), but require ad hoc solutions when, for example, the length of a response from a large language model, or the number of amino acids in a protein chain is not k...