给定形式 ax + by = cz 的线性方程 E,其中 a, b, c 是正整数, k 色 R_k(E) 是最小的正整数 n,如果它存在,使得正整数 {1, 2, ..., n} 的每个 k 着色都包含 E 的单色解。 在本文中,我们考虑 k = 3 和线性方程 ax + by = bz 和 ax + ay = bz。 使用SAT求解器,我们计算了一些与这些方程对应的以前未知的Rado数字。 我们证明了对 Rado 数字的新的一般界限,灵感来自 SAT 求解器发现的令人满意的作业。 我们的证明需要广泛的基于案例的分析,这些分析很难用手检查正确性,所以我们通过使用我们开发的新方法自动检查证明的正确性,该方法支持符号定义集的操作 - 例如,表单{f(1),f(2),...,f(a)}的集合的工会或交叉点,其中a是一个符号变量,f是可能依赖于a的函数。 我们所知的计算机代数系统目前对符号集有足够能力的支持,导致我们开发了一个支持符号集的工具,使用Python符号计算库SymPy加上可满足性模块理论解决器Z3。
A graph class 𝒞 is monadically dependent if one cannot interpret all graphs in colored graphs from 𝒞 using a fixed first-order interpretation. We prove that monadically dependent classes can be exactly characterized by the following property, which we call flip-separability: for every r∈ℕ, ε>0, and every graph G∈𝒞 equipped with a weight function on vertices, one can apply a bounded (in terms of 𝒞,r,ε) number of flips (complementations of the adjacency relation on a subset of vertices) to G so that in the resulting graph, every radius-r ball contains at most an ε-fraction of the total weight. On the way to this result, we introduce a robust toolbox for working with various notions of local separations in monadically dependent classes.
在从样本轨迹中推断正式行为规范方面取得了实质性进展,例如使用线性时间逻辑(LTL)。 然而,这些技术无法处理正确描述具有随机行为的系统特征的规范,这些规范通常发生在强化学习和正式验证中。 我们考虑从一组马尔可夫链中推断概率LTL(PLTL)公式的布尔组合的被动学习问题,被归类为正或负。 我们提出了一种新的学习算法,该算法可以推断出简洁的PLTL规范,利用基于语法的枚举,搜索启发式,概率模型检查和布尔设置覆盖程序。 我们在两个用例中展示了我们算法的有效性:从RL算法诱导的策略中学习,并从概率模型的变体中学习。 在这两种情况下,我们的方法自动有效地提取PLTL规范,简明扼要地表征策略或模型变体之间的时间差异。
我们扩展了外部内存 BDD 包 Adiar,支持单调变量替换。 这样做,它现在支持符号模型检查的核心关系产品操作。 我们还确定了完全合并变量替换和在关系产品存在量化步骤中的联合操作的其他途径。 对于较小的BDD,这些额外的想法改善了Adiar的运行,用于模型检查任务,高达47个未受影响,因为它由存在量化主导。 Adiar的关系产品比传统的深度优先BDD实现慢约一个数量级。 然而,它的I/O效率允许其运行时间几乎独立于内部内存量。 这使得它可以在内部内存少得多的BDD上计算,并可能解决传统实现之外的模型检查任务。 与唯一的其他外部内存 BDD 包 CAL 相比,Adiar 在更大的实例上计算时要快几个数量级。
有效的强制技术允许人们证明在设置理论模型中,封闭系统T项类型(ι→ι)→ι的表示是一个连续函数(N→N)→N。 为此,通过逻辑关系定义和与设置理论语义相关的替代对话树语义。 在本文中,我们应用有效的强迫来表明系统T术语的对话树本身是系统T定义的,使用树的教会编码。
在从样本轨迹中推断正式行为规范方面取得了实质性进展,例如使用线性时间逻辑(LTL)。 然而,这些技术无法处理正确描述具有随机行为的系统特征的规范,这些规范通常发生在强化学习和正式验证中。 我们考虑从一组马尔可夫链中推断概率LTL(PLTL)公式的布尔组合的被动学习问题,被归类为正或负。 我们提出了一种新的学习算法,该算法可以推断出简洁的PLTL规范,利用基于语法的枚举,搜索启发式,概率模型检查和布尔设置覆盖程序。 我们在两个用例中展示了我们算法的有效性:从RL算法诱导的策略中学习,并从概率模型的变体中学习。 在这两种情况下,我们的方法自动有效地提取PLTL规范,简明扼要地表征策略或模型变体之间的时间差异。
几何嵌入方法已被证明对知识图上的多跳推理很有用,分别通过将实体和逻辑运算映射到几何区域和几何变换。 几何嵌入为查询提供直接可解释性框架。 然而,目前的方法只利用了实体的几何结构,未能将逻辑运算映射到几何变换,而是使用神经组件来学习这些运算。 我们引入了GeofetE,一种用于多跳推理的几何嵌入方法,不需要学习逻辑运算,并实现完全的几何可解释性。 此外,与以前的方法不同,我们引入了一个瞬态损失函数,并表明它可以保留逻辑规则∀ a,b,c: r(a,b) r(b,c) → r(a,c)。 我们的实验表明,GeofetrE在标准基准数据集上优于当前最先进的方法。
优化模块理论(OMT)扩展了可满足性模块化理论(SMT),其任务是优化一些客观函数。 在OMT求解器中,基于CDCL的SMT求解器枚举理论可满足的总真理赋值,并且一个理论特定的程序为它们每个人找到一个最佳模型;然后使用当前最优值来收紧下一个分配的搜索空间,直到找不到更好的解决方案。 在本文中,我们分析了真相赋值在OMT中的作用。 首先,我们强调总真理分配的枚举是次优的,因为它们可能会过度限制优化过程的搜索空间,而使用部分真理分配可以提高优化的有效性。 其次,我们提出了一些在OMT上下文中利用部分赋值枚举的赋值减少技术。 我们在 OptiMathSAT 求解器中实现了这些技术,并对 OMT 基准进行了实验评估。 结果证实了最佳求解效率和任何时候解决获得的解决方案的质量的提高。
探测和利用看似遥远的物体之间的相似性无疑是人类的重要能力。 本文从根开始发展一个抽象的代数和定性的相似性概念,基于观察,即集合的概括编码元素的重要属性。 我们表明,以这种方式定义的相似性具有吸引人的数学属性。 当我们从第一原则中构建我们的相似性概念时,仅使用通用代数的基本概念来说服读者它的合理性,我们表明它可以模拟数学中发生的基本关系,并通过模型理论类型自然地嵌入到一阶逻辑中。 最后,我们勾勒出一些潜在的应用,以理论计算机科学和人工智能。
双向模态mu-calculus是(标准)单向mu-calculus与反(向后看)模式的扩展。 对于这个逻辑,我们引入了两个新的序列式证明演算:一个非有根据的系统,承认无限的分支和一个使用注释的循环版本。 正如在双向模态逻辑的序列系统中常见的一样,我们的微积分具有分析剪切规则。 我们的方法与众不同的是使用所谓的微量原子,它有助于在证明理论设置中应用Vardi的双向自动机。 我们证明了这两个系统的健全性和完整性,随后使用循环演算来表明双向mu-calculus具有(本地)Craig插值属性,涉及命题和方式。 我们的证明使用Maehara方法的版本,以适应循环证明系统。 作为推论,我们证明双向mu-calculus也享有Beth的可定义属性。
我们提出了一个分析网络物理系统中因果关系的正式理论。 为此,我们扩展了Halpern和Pearl的实际因果关系理论,以应对网络物理系统的连续性。 根据我们的理论,我们开发了一种分析技术,用于揭示验证导致故障的原因,这些错误被表示为连续轨迹。 我们开发一种基于搜索的技术,以有效地产生此类原因,并为这种技术提供实现。 此外,我们将解决方案应用于案例研究(悬架系统和连接的排)和基准系统来评估其有效性;在实验中,我们表明我们能够检测插入故障的原因。
我们扩展了外部内存 BDD 包 Adiar,支持单调变量替换。 这样做,它现在支持符号模型检查的核心关系产品操作。 我们还确定了完全合并变量替换和在关系产品存在量化步骤中的联合操作的其他途径。 对于较小的BDD,这些额外的想法改善了Adiar的运行,用于模型检查任务,高达47个未受影响,因为它由存在量化主导。 Adiar的关系产品比传统的深度优先BDD实现慢约一个数量级。 然而,它的I/O效率允许其运行时间几乎独立于内部内存量。 这使得它可以在内部内存少得多的BDD上计算,并可能解决传统实现之外的模型检查任务。 与唯一的其他外部内存 BDD 包 CAL 相比,Adiar 在更大的实例上计算时要快几个数量级。
有效的强制技术允许人们证明在设置理论模型中,封闭系统T项类型(ι→ι)→ι的表示是一个连续函数(N→N)→N。 为此,通过逻辑关系定义和与设置理论语义相关的替代对话树语义。 在本文中,我们应用有效的强迫来表明系统T术语的对话树本身是系统T定义的,使用树的教会编码。
许多安全和性能关键域,如密码学,依靠低级验证来最小化可信计算表面,并允许代码直接在汇编中写入。 然而,根据现实的机器模型验证装配代码是一项具有挑战性的任务。 此外,某些安全属性(如常数行为)需要关系推理,通过在单个规范中链接多个执行跟踪,超越传统正确性。 然而,关系验证已经在更高的抽象水平上进行了广泛的探索。 在这项工作中,我们引入了Hoare风格的逻辑,它提供了低级的,表达关系验证。 我们在s2n-bignum库上演示我们的方法,既证明了优化和验证友好的程序之间的恒定时间纪律和等效性。 在 HOL Light 中正式化,我们的结果证实了关系验证在大型汇编代码库中的实际适用性。
我们介绍了SATBench,这是一个通过从布尔可理解性(SAT)问题得出的逻辑谜题来评估大型语言模型(LLM)的逻辑推理能力的基准。 与以前专注于基于推理的推理的工作不同,推理通常涉及从一组前提中推断出结论,我们的方法利用了SAT问题的基于搜索的性质,其中的目标是找到满足一组特定逻辑约束的解决方案。 SATCnch 中的每个实例都是从 SAT 公式生成的,然后使用 LLM 翻译成故事上下文和条件。 生成过程是完全自动化的,并且通过更改子句的数量来允许可调整的难度。 所有2100个谜题都通过LLM辅助和基于求解器的一致性检查进行验证,并在子集上进行人工验证。 实验结果表明,即使是最强的模型,o4-mini,也只实现了当前LLM的50个逻辑推理能力的65.0基线,并为逻辑推理的未来研究提供了一个可扩展的测试平台。
我们报告我们开发ProofBuddy的旅程,ProofBuddy是一个Web应用程序,由证明助手Isabelle的服务器端实例提供支持,用于证明和证明的教学和学习。 旅程始于试图在教育环境中使用伊莎贝尔。 在此过程中,通过一系列实验和评估,我们观察到像Web应用程序相比,开发人员和教师以及学生具有许多优势。 总之,优点包括简单性、可维护性和可定制性。 我们通过在ProofBuddy中展示交互式教程及其实现的潜力来特别强调后者。
类别理论在数学和计算机科学的最新发展中的重要性怎么强调都不为过。 然而,它的抽象性质使它起初难以理解。 图形语言已被开发来帮助管理这种抽象,但它们没有用于校对助手,其中大部分都是基于文本的。 我们相信,集成在通用证明助理中的分类证明的图形界面将允许学生在他们已经熟悉的具体证明上熟悉图表推理。 我们介绍了一个Coq插件的实现,它能够以图形方式实现可视化和与Coq证明的交互。
定向拓扑学是一个数学领域,具有并发性应用。 它通过添加定向性的概念来扩展拓扑空间的概念,该概念限制了路径如何通过空间进化,从而实现了计算与其方向的忠实表示。 在本文中,我们提出了定向空间的精益形式化和Van Kampen定理。 这个定理允许计算一个空间的同源类型,通过结合本地知识的同源类型的子空间。 有了这个定理,关于空间的推理可以简化为子空间,并且通过将并发系统表示为定向空间,我们可以将组成系统的属性的演绎减少到子系统的属性。 Lean的正规化可以支持计算机辅助关于并发系统行为的推理。
操作树形数据结构的程序通常需要复杂的、难以概括和自动化的专用证明。 本文介绍了验证此类程序的统一、基本方法。 我们的方法的核心是针织树编码,将每个程序执行建模为捕获输入、输出和中间状态的树结构。 利用针织树的成分性质,我们将这些结构编码为约束的角子子(CHC),减少对CHC可满足性任务的验证。 为了说明我们的方法,我们专注于内存安全,并展示它如何自然地导致简单,模块化的不变性。
我们为模态立方体中的所有模态逻辑提出了一个非确定性的语义框架,扩展了Kearns和其他人的先前作品。 我们的方法为每个逻辑引入了模块化和统一的多值非确定性矩阵(Nmatrices),其中需要通过系统使用水平估值来捕获。 语义基于一个8值的系统,为每个模态逻辑提供了一个健全和完整的决策程序,作为特定案例扩展和完善了早期的语义。 此外,我们提出了一种新的模型理论视角,将我们的框架与关系(Kripke-style)语义联系起来,解决了关于非确定性环境中模态公理和语义条件之间的对应关系的长期猜想。 其结果是一个哲学上稳健的和技术模块化替代标准可能世界语义。
本文在分形可计数的范式下对实际区间[a,b]进行了技术和实用的重新解释。 而不是假设连续体作为一个完成的不可计数的总和,我们建模[a,b]作为建设性可定义点的分层结构,由形式系统的层次结构索引。 我们从真实分析(连续性,度量,差异化和集成)中重新制定了经典概念,从分层可定义水平 S_n 来看,从而将分析设备建立在语法可访问性而不是本体论假设中。 其结果是分形分析的框架,其中数学运算被相对化到可表达层,从而对近似性、可计算性和正式验证有了新的见解。
我们提出了两个看似不同的建设性有序指数定义,其中序曲被视为一个过渡性的,扩展的,有根据的顺序。 第一个定义是抽象的,使用序数的至上,并且完全由预期的方程驱动。 第二个更具体,基于减少列表,可以被视为Siepiński基于有限支持的函数的经典构造的建设性版本。 我们表明,我们的两种方法是等价的(无论何时提出问题都是有意义的),并使用这种等价物来证明指数的代数定律和可判定性。 我们的工作是在同源类型理论的框架内进行的,所有的结果都在证明助理Agda中正式化。
我们探索了合成域理论与与分配格子分类器相关的Grothendieck topoi之间的新联系。 特别是,合成域理论的所有公理(包括归纳定点对象和支配地位的链条完整性)都源于合成准一致性原理的可计数版本,该原理已成为合成代数几何,合成石二元性和合成范畴论统一的核心特征。 带有分布格子对象的topos中的准相干代数和亲和空格空间之间的二元性提供了一套新的技术,用于合成域结构的推理,并揭示了合成域理论的广泛类(更高)的舍法模型。
Guarded Monotone Strict NP (GMSNP) 通过守卫存在量化的任意实体谓词扩展 Monotone Monadic Strict NP (MMSNP)。 我们证明GMSNP的遏制问题是可决定的,从而解决了Bienvenu,十Cate,Lutz和Wolter的公开问题,后来由Bourhis和Lutz重述。 我们的证明还附带了2NEXPTIME对问题的复杂性的上限,这与Bourhis和Lutz对MMSNP的下限相匹配。 为了获得这些结果,我们显著改善了 GMSNP 模型理论特性的知识状态。 Bodirsky、Knäuer和Starke之前都表明,每个 GMSNP 句子都定义了 ω 分类结构的 CSP 的有限结合。 我们表明,这些结构可用于从GMSNP的遏制问题减少到测试称为重新着色的某些地图存在的简单问题,尽管在比GMSNP更通用的设置中; 仔细分析这个产量说是上限。 作为次要贡献,我们通过在这些结构的属性中添加有限形式的同质性来完善Bodirsky,Knäuer和Starke的构造,使逻辑适应未来的复杂性分类,使用为无限域CSP开发的技术进行查询评估。
在数学和计算机科学的不同领域,机械化证明的使用越来越多,证明助手被越来越多的用于教育。 本文调查了以前与使用证明助理(主要是本科)教学有关的工作。 这包括作者报告他们的实验使用证明助手教授逻辑,数学或计算机科学,以及设计或改编证明助理的教学。 我们提供为教学证明和证明而设计的辅导系统或已适应教育的通用证明助理,添加用户界面和/或专用输入或输出语言的概述。