活水快报 - 42Digest

Chat2SVG:具有大型语言模型和图像扩散模型的矢量图形生成

Chat2SVG: Vector Graphics Generation with Large Language Models and Image Diffusion Models

Ronghuan Wu, Wanchao Su, Jing Liao

arXiv

2024年11月25日

可扩展矢量图形(SVG)已成为数字设计中矢量图形的事实标准,提供分辨率独立性和对单个元素的精确控制。尽管它们具有优势,但创建高质量的SVG内容仍然具有挑战性,因为它需要专业编辑软件的技术专业知识和相当多的时间投资来制作复杂的形状。最近的文本到SVG生成方法旨在使矢量图形创建更容易访问,但它们在形状规律性,概括能力和表现力方面仍然遇到限制。为了应对这些挑战,我们引入了Chat2SVG,这是一个混合框架,结合了大型语言模型(LLM)和图像扩散模型的优势,用于文本到SVG生成。我们的方法首先使用LLM从基本的几何原语生成语义上有意义的SVG模板。在图像扩散模型的指导下,双级优化管道在潜在空间中改进路径并调整点坐标以增强几何复杂性。广泛的实验表明,Chat2SVG在视觉保真度、路径规律性和语义对齐方面优于现有方法。此外,我们的系统通过自然语言指令实现直观的编辑,使所有用户都可以使用专业矢量图形创建。

Scalable Vector Graphics (SVG) has become the de facto standard for vector graphics in digital design, offering resolution independence and precise control over individual elements. Despite their advantages, creating high-quality SVG content remains challenging, as it demands technical expertise with professional editing software and a considerable time investment to craft complex shapes. Recent text-to-SVG generation methods aim to make vector graphics creation more accessible, but they still e...

计算机视觉与模式识别计算机图形学

View Source