我们提出了一个局部差分私有图聚类算法。 以前的工作已经探讨了这个问题,包括将光谱聚类应用于通过随机响应算法生成的图形的方法。 但是,这些方法只有在隐私预算为Ω(log n)时才能达到准确的结果,这不适合许多实际应用。 作为回应,我们提出了一个基于功率迭代方法的交互式算法。 鉴于最大的特征向量常数引入的噪声可能很大,我们采用了一种技术来消除这种常数。 因此,我们的算法在图形优砥如缀且 Ω̃(√(n) 的最小度)时,通过恒定的隐私预算获得本地差分隐私。 相比之下,虽然随机响应已被证明在相同的最小度条件下产生准确的结果,但它仅限于从随机块模型生成的图形。 我们进行实验以证明我们的方法优于应用于随机反应结果的光谱聚类。
We introduce a new family of algorithms for detecting and estimating a rank-one signal from a noisy observation under prior information about that signal's direction, focusing on examples where the signal is known to have entries biased to be positive. Given a matrix observation 𝐘, our algorithms construct a nonlinear Laplacian, another matrix of the form 𝐘 + diag(σ(𝐘1)) for a nonlinear σ: ℝ→ℝ, and examine the top eigenvalue and eigenvector of this matrix. When 𝐘 is the (suitably normalized) adjacency matrix of a graph, our approach gives a class of algorithms that search for unusually dense subgraphs by computing a spectrum of the graph "deformed" by the degree profile 𝐘1. We study the performance of such algorithms compared to direct spectral algorithms (the case σ = 0) on models of sparse principal component analysis with biased signals, including the Gaussian planted submatrix problem. For such models, we rigorously characterize the critical threshold strength of rank-one signal, as a function of the nonlinearity σ, at which an outlier eigenvalue appears in the spectrum of a nonlinear Laplacian. While identifying the σ that minimizes this critical signal strength in closed form seems intractable, we explore three approaches to design σ numerically: exhaustively searching over simple classes of σ, learning σ from datasets of problem instances, and tuning σ using black-box optimization of the critical signal strength. We find both theoretically and empirically that, if σ is chosen appropriately, then nonlinear Laplacian spectral algorithms substantially outperform direct spectral algorithms, while avoiding the complexity of broader classes of algorithms like approximate message passing or general first order methods.
高效的矩阵跟踪估计对于可扩展的log-determinants、矩阵规范和分布差异的计算至关重要。 在许多大规模应用中,所涉及的矩阵太大,无法完全存储或访问,甚至使单个矩阵向量(mat-vec)产品不可行。 相反,通常只能访问限制索引集上的矩阵或本地化矩阵向量产品的小子块。 Hutch++实现了最佳的收敛率,但依赖于随机SVD并假设完全的mat-vec访问,因此很难在这些受限设置中应用。 我们提出了Block-Orthonormal Stochastic Lanczos Quadrature(BOLT),它将Hutch++的准确性与基于正畸块探针和Lanczos迭代的更简单的实现相匹配。 BOLT建立在Stochastic Lanczos Quadrature(SLQ)框架的基础上,该框架将随机探测与Krylov子空间方法相结合,以有效地近似矩阵函数的痕迹,并且在近平谱机制中比Hutch++表现更好。 为了解决内存限制和部分访问限制,我们引入了Subblock SLQ,这是BOLT的一个变体,仅在小主基子矩阵上运行。 因此,该框架产生了代理KL发散估计器和计算高斯人之间的Wasserstein-2距离的有效方法 - 两者都与低内存和部分访问机制兼容。 我们提供理论保证,并在一系列高维设置中展示强大的经验性能。
我们引入了一种新的框架,用于通过数据截断进行微分私有(DP)统计估计,当数据支持不受限制时,解决DP估计中的一个关键挑战。 传统方法依赖于特定于问题的敏感性分析,限制了其适用性。 通过利用截断统计的技术,我们开发计算高效的DP估计器用于指数型家族分布,包括高斯均值和协方差估计,实现近乎最优的样本复杂性。 以前关于指数家庭的作品只考虑有界限或一维的家庭。 我们的方法通过截断减轻灵敏度,同时使用最大概率估计和DP随机梯度下降仔细纠正引入的偏置。 在此过程中,我们建立了改进的统一收敛保证,为指数家庭的可能性函数,这可能是独立的兴趣。 我们的结果通过截断的统计为DP算法设计提供了通用蓝图。
We consider the sparse linear regression model 𝐲 = X β +𝐰, where X ∈ℝ^n × d is the design, β∈ℝ^d is a k-sparse secret, and 𝐰∼ N(0, I_n) is the noise. Given input X and 𝐲, the goal is to estimate β. In this setting, the Lasso estimate achieves prediction error O(k log d / γ n), where γ is the restricted eigenvalue (RE) constant of X with respect to support(β). In this paper, we introduce a new semirandom family of designs – which we call partially-rotated designs – for which the RE constant with respect to the secret is bounded away from zero even when a subset of the design columns are arbitrarily correlated among themselves. As an example of such a design, suppose we start with some arbitrary X, and then apply a random rotation to the columns of X indexed by support(β). Let λ_min be the smallest eigenvalue of 1/n X_support(β)^⊤ X_support(β), where X_support(β) is the restriction of X to the columns indexed by support(β). In this setting, our results imply that Lasso achieves prediction error O(k log d / λ_min n) with high probability. This prediction error bound is independent of the arbitrary columns of X not indexed by support(β), and is as good as if all of these columns were perfectly well-conditioned. Technically, our proof reduces to showing that matrices with a certain deterministic property – which we call restricted normalized orthogonality (RNO) – lead to RE constants that are independent of a subset of the matrix columns. This property is similar but incomparable with the restricted orthogonality condition of [CT05].
高效的矩阵跟踪估计对于可扩展的log-determinants、矩阵规范和分布差异的计算至关重要。 在许多大规模应用中,所涉及的矩阵太大,无法完全存储或访问,甚至使单个矩阵向量(mat-vec)产品不可行。 相反,通常只能访问限制索引集上的矩阵或本地化矩阵向量产品的小子块。 Hutch++实现了最佳的收敛率,但依赖于随机SVD并假设完全的mat-vec访问,因此很难在这些受限设置中应用。 我们提出了Block-Orthonormal Stochastic Lanczos Quadrature(BOLT),它将Hutch++的准确性与基于正畸块探针和Lanczos迭代的更简单的实现相匹配。 BOLT建立在Stochastic Lanczos Quadrature(SLQ)框架的基础上,该框架将随机探测与Krylov子空间方法相结合,以有效地近似矩阵函数的痕迹,并且在近平谱机制中比Hutch++表现更好。 为了解决内存限制和部分访问限制,我们引入了Subblock SLQ,这是BOLT的一个变体,仅在小主基子矩阵上运行。 因此,该框架产生了代理KL发散估计器和计算高斯人之间的Wasserstein-2距离的有效方法 - 两者都与低内存和部分访问机制兼容。 我们提供理论保证,并在一系列高维设置中展示强大的经验性能。
我们引入了一种新的框架,用于通过数据截断进行微分私有(DP)统计估计,当数据支持不受限制时,解决DP估计中的一个关键挑战。 传统方法依赖于特定于问题的敏感性分析,限制了其适用性。 通过利用截断统计的技术,我们开发计算高效的DP估计器用于指数型家族分布,包括高斯均值和协方差估计,实现近乎最优的样本复杂性。 以前关于指数家庭的作品只考虑有界限或一维的家庭。 我们的方法通过截断减轻灵敏度,同时使用最大概率估计和DP随机梯度下降仔细纠正引入的偏置。 在此过程中,我们建立了改进的统一收敛保证,为指数家庭的可能性函数,这可能是独立的兴趣。 我们的结果通过截断的统计为DP算法设计提供了通用蓝图。
我们研究稳定夹具问题,这是经典非双体稳定室友匹配问题的多对多概括。 基于Tan在稳定分区的基础工作,我们将他的结果扩展到这个明显更普遍的设置,并开发了一个丰富的框架,以便在许多到许多上下文中理解稳定结构。 我们的主要贡献,即广义稳定分区(GSP)的概念,不仅表征了这个问题的解决方案空间,而且还充当了推理具有容量限制的普通偏好系统的多功能工具。 我们表明,普惠制可以有效地计算,并提供问题实例的优雅表示,严格描述其偏好结构,并简洁地证明稳定匹配的存在和不存在。 利用与稳定半匹配的连接,我们还建立了农村医院定理的非双体模拟,用于稳定的半匹配和GSP,并将我们的结果与最近关于近可行匹配的工作联系起来,为这个问题提供了更简单的算法和更严格的分析。 我们的工作还解决了寻找最佳稳定半匹配和普惠制的计算挑战,为各种目标提出了灵活的整数线性编程模型。 除了理论见解之外,我们还对随机稳定夹具实例进行了第一次实证分析,发现了令人惊讶的结果,例如容量函数对可溶解性可能性的影响。 我们的工作不仅统一并扩展了关于非双体稳定匹配中稳定性的经典和最近的观点,而且还为推进稳定匹配及其应用的研究建立了新的工具,技术和方向。
我们研究公平k集选择问题,我们的目标是从给定的集合系统中选择k集,以便这些k选定集合中每个元素出现的(加权)发生时间是平衡的,即最小化最大(加权)发生时间。 通过观察一个集合系统可以组合成一个双面图G:=(L∪ R,E),我们的问题相当于从R中选择k顶点,这样将L中选定顶点邻居的最大总重量最小化。 这个问题出现在各个领域的广泛应用中,如机器学习、人工智能和运力研究。 我们首先证明问题是NP-hard即使输入双方图的最大程度Δ是3,并且问题在Δ=2时在P中。 然后我们表明,当输入集系统形成层流器家族时,问题也在 P 中。 基于直观的线性编程,我们展示了一个依赖的四舍五入算法在一般双方图上实现了O(log n/loglog n)-近似,而独立的四舍五入算法在具有最大度Δ的双方图上实现了O(logΔ)近似。 我们通过为这种线性编程提供一个硬实例来证明我们的分析几乎是紧绷的。 最后,我们将所有算法扩展到加权案例,并证明所有近似值都保留。
我们引入了结构化分解,类别理论结构,这些结构同时概括了图论(包括树幅,分层树幅,共树宽,图分解宽度,树独立数,超图树幅和H树宽),几何群论(特别是Bass-Serre理论)和动力学系统(例如混合动力学系统)。 我们定义了宽度函子,它提供了一种组合方式来分析和关联不同的结构复杂性度量,并在分解和完成对象之间建立了一般二元性。
可信的间隔和可信的集合,如最高的后密度(HPD)间隔,在贝叶斯系统遗传学中形成了一个不可或缺的统计工具,用于系统发育分析和开发。 可用于连续参数,如基本频率和时钟速率,树拓扑的广阔而复杂的空间为定义类似的可信集合带来了重大挑战。 传统的基于频率的方法不足以用于分散的后向,其中采样的树木通常是独一无二的。 为了解决这个问题,我们引入了新颖而有效的方法来估计单个树拓扑的可信水平,使用可处理的树分布,特别是条件Clade分布(CCD)。 此外,我们提出了一个名为α可信CCD的新概念,它封装了CCD,其树木共同构成α概率。 我们提出算法来有效地计算这些可信的CCD,并确定树拓扑和子树的可信水平。 我们评估这些可信的集合方法的准确性,利用模拟和真实的数据集。 此外,为了证明我们方法的实用性,我们使用经过良好校准的模拟研究来评估不同CCD模型的性能。 特别是,我们展示了如何使用可信的集合方法来进行等级均匀性验证并生成经验累积分布函数(ECDF)图,以补充连续参数的标准覆盖分析。
Huynh,Mohar,Šámal,Thomassen和Wood在2021年证明,任何包含每个可计数平面图作为子图的可计数图都有无限小的。 我们证明了这个结果的有限,定量版本:对于固定t,如果图形G是K_t-minor-free并且包含每个n-vertex平面图作为子图,那么G有2^Ω(√(n))顶点。 如果 G 包含每个 n-vertex 的 toroidal 图,则 G 有 2^Ω(n) 顶点。 另一方面,我们构建了一个多项式大小 K_4-minor-free 图,其中包含每个 n-vertex 树作为诱导子图,以及一个多项式大小 K_7-minor-free 图,其中包含每个 n-vertex K_4-minor-free 图作为诱导子图。 这回答了Bergold,Iršič,Lauff,Orthaber,Scheucher和Wesolek最近提出的几个问题。 我们更普遍地研究各种类别的通用图形的顺序(边界度,树深,路径路径或树深的图形),如果通用图形保留了原始类的一些结构。
深入研究的直径问题是找到给定连接图的直径。 我们首次以结构化的方式调查Diameter对无H图的复杂性,即不包含固定图H作为诱导子图的图形。 我们首先表明,如果H不是具有小组件的线性森林,那么Diameter无法在SETH下的H-free图形的亚夸德拉时间解决。 对于一些小线性森林,我们确实展示了用于解决Diameter的线性时间算法。 对于其他线性森林H,我们通过考虑特定的直径值,在线性时间算法方面取得进展。 如果 H 是线性森林,则连接 H 的无图类中任何图形的直径的最大值是一些仅依赖于 H 的恒定 dmax。 我们提供线性时间算法,用于决定连接的无H图是否具有直径dmax,用于几个线性森林H。 相反,对于一个这样的线性森林H,直径不能在SETH下的H-free图形的亚四度时间解决。 此外,我们甚至表明,对于其他几个线性森林H,人们无法在亚基尺度的时间内决定一个连接的无H图是否在SETH下具有直径dmax。
现代比较类型(如快速排序)由于次优枢轴选择而遭受性能不一致的影响,导致O(N^2)最坏情况的复杂性,而现场合并排序变体则面临数据移动开销的挑战。 我们引入了Wave Sort,这是一种新颖的现场排序算法,通过动态枢轴选择策略解决这些限制。 Wave Sort 迭代扩展了一个排序区域,并从这个不断增长的排序部分选择枢轴到相邻的未排序数据的分区。 这种方法可确保无论数据集大小如何,都能进行稳健的枢轴选择,保证对数递归堆栈深度,并实现高效的就地排序。 我们的分析显示了由O(N(log N)^2与一个小常数因子绑定的最坏情况比较复杂性。 实验结果表明,Wave Sort平均需要比快速排序更少的比较(大约24个还集成了自适应技术,以有效地处理预排序序列。 Wave Sort为要求一致、可预测和就地排序性能的应用提供了令人信服的替代方案。
我们考虑从大型数据集中选择一小部分代表性变量的问题。 在计算机科学文献中,这种降维问题通常被正式化为列子集选择(CSS)。 同时,典型的统计形式化是找到一组信息最大化的主要变量。 本文表明,这两种方法是等价的,而且,这两种方法都可以被视为某种半参数模型中的最大可能性估计。 在这个模型中,我们建立了合适的条件,使CSS估计在高维中保持一致,特别是在比例渐近化方案中,样本大小的变量数量收敛到常数。 使用这些连接,我们展示了如何有效地(1)仅使用原始数据集的摘要统计数据执行CSS;(2)在缺少和/或审查数据的情况下执行CSS;(3)在假设测试框架中选择CSS的子集大小。
以前对Adiar BDD包的研究已经成功地设计出能够处理存储在外部内存中的大型二进制决策图(BDD)的算法。 为此,它使用连续扫描通过BDD来解决计算。 然而,这种方法使多变量量化的算法,关系产物和变量重新排序超出了其范围。 在这项工作中,我们通过引入嵌套扫描框架来解决这个问题。 在这里,多个并发扫描在彼此之间传递信息以计算结果。 我们已经在Adiar中实现了框架,并用它来创建一个新的外部内存多变量量化算法。 与传统的深度优先实现相比,Adiar与嵌套扫地能够解决更多的基准实例和/或更快地解决它们。
受过学习的Bloom过滤器(LBF)将经典的Bloom过滤器(CBF)与学习模型相结合,以减少表示给定集所需的内存量,同时实现目标误报率(FPR)。 针对明显试图增加FPR的适应性对手的可证明安全性已被研究为CBF。 然而,实现 LBF 的自适应安全性是一个悬而未决的问题。 在本文中,我们缩小了这一差距,并展示了如何实现 LBF 的自适应安全性。 特别是,我们定义了几个自适应安全概念,捕获了不同程度的对抗性控制,包括完全和部分适应性,以及现有对抗性模型的LBF扩展,包括Always-Bet和Bet-or-Pass概念。 我们提出了两个安全的 LBF 结构, PRP-LBF 和 Cuckoo-LBF,并正式证明它们在这些模式下的安全性,假设存在单向功能。 基于我们的分析和用例评估,我们的结构实现了强大的安全保障,同时保持具有竞争力的FPR和内存开销。
在量子热力学中,一个系统由Hamiltonian描述,并且列出了代表粒子数或电荷等保守数量的非通勤电荷,一个重要的目标是在这些保守电荷的存在下确定系统的最低能量。 在优化理论中,半确定性程序(SDP)涉及在正半确定性运算符的圆锥体上优化的线性目标函数。 这些问题产生于物理和优化社区中的不同动机,并使用非常不同的术语措辞,但它们在数学上基本上是相同的。 通过采用Jaynes以量子热力学为动力的心态,我们观察到,在上述热力学问题中最小化自由能量,而不是能量,导致在化学潜在参数中凹陷的双重化学电位最大化问题方面获得优雅的解决方案。 因此,可以使用标准(随机)梯度上升方法来找到这些参数的最佳值,并且这些方法保证快速收敛。 在低温下,最小自由能量为最低能量提供了极好的近似值。 然后,我们展示了这种Jaynes启发的梯度上升方法如何用于一阶和二阶经典和混合量子经典算法,以最小化能量,并等效地,它如何用于解决SDP,并保证算法的运行时。 这里讨论的方法完全基于量子热力学,因此,提供了物理动机,为什么在Jaynes的开创性工作五十年后发布的算法,包括矩阵乘法权重更新方法,矩阵指数梯度更新方法及其量子算法泛化,在解决SDP方面表现良好。
我们扩展了外部内存 BDD 包 Adiar,支持单调变量替换。 这样做,它现在支持符号模型检查的核心关系产品操作。 我们还确定了完全合并变量替换和在关系产品存在量化步骤中的联合操作的其他途径。 对于较小的BDD,这些额外的想法改善了Adiar的运行,用于模型检查任务,高达47个未受影响,因为它由存在量化主导。 Adiar的关系产品比传统的深度优先BDD实现慢约一个数量级。 然而,它的I/O效率允许其运行时间几乎独立于内部内存量。 这使得它可以在内部内存少得多的BDD上计算,并可能解决传统实现之外的模型检查任务。 与唯一的其他外部内存 BDD 包 CAL 相比,Adiar 在更大的实例上计算时要快几个数量级。
在网络管理中,快速准确地识别流量异常,包括分布式拒绝服务(DDoS)攻击和意外的网络中断,对于网络稳定性和安全性至关重要。 这一过程的关键是分层重击器(HHH)的检测,这大大有助于高速IP流量的管理。 这项研究介绍了ResidualSketch,这是一种用于分层流量分析中HHH检测的新算法。 ResidualSketch通过在IP层次结构中的关键层中加入剩余块和剩余连接来区分自己,从而减轻了以前方法中的逐渐错误扩散(GED)现象,并在保持低更新延迟的同时减少内存开销。 通过对各种数据集进行综合实验,我们证明ResidualSketch在网络层次结构多层的准确性和更新速度方面优于现有的先进解决方案。 ResidualSketch 的所有相关代码在 GitHub 都是开源的。
D^2-sampling是基于采样的聚类算法(如k-means++)的基本组成部分。 给定一个数据集V ⊂R^d与N点和一个中心集C ⊂R^d,D^2-sampling是指从V中选择一个点,其中点的采样概率与其与C中最近的中心的平方距离成正比。 从空 C 开始,在 k 轮中迭代 D^2 采样和更新 C 是 k-means++ 播种,在 O(Nkd) 中运行,并给出 O(logk) 近似值,以期望 k-means 问题。 我们在 QRAM 模型中给出了一个量子算法(近似) D^2-采样,从而实现了 k-means++ 的量子实现,该算法在时间 Õ(ζ^2 k^2) 中运行。 这里 ζ 是宽高比(即最大到最小的点距离),Õ 隐藏了 N, d, k 中的多对数因子。 它可以通过对k-means++的稳健近似分析来表明,量子版本保留了其O(logk)近似保证。 此外,我们表明,我们的D^2采样量子算法可以使用Tang的样本-query访问模型(博士论文,华盛顿大学Ewin Tang,2023)进行“量化”。 这导致了k-means++的快速量子启发的经典实现,我们称之为QI-k-means++,运行时为O(Nd)+ Õ(ζ^2k^2d),其中O(Nd)术语用于设置样本-query访问数据结构。 实验研究表明,在具有边界宽高比的大型数据集上,QI-k-means++取得了有希望的结果。 最后,我们使用我们的量子D^2-采样与已知的基于D^2采样的经典近似方案(即任何给定的ε>0的(1+ε)近似值,以获得第一个量子近似方案,用于k-means问题,多对数运行时间依赖N。
将2个球体的三角测量的tet-volume定义为3个复合体中的最小四面体数,并且让d(v)成为v-vertex三角测量的最大tet-volume。 1986年,Sleator,Tarjan和Thurston(STT)证明了d(v)=2v-10持有大v,并推测它适用于所有v≥13。 他们的证明使用了大体积的双曲多面体。 他们建议使用更一般的数量概念。 在完全失去的工作中,Mathieu和Thurston使用这种方法概述了STT渐近结果的组合证明。 在这里,我们使用他们的方法的简化版本来证明完整的猜想。 这意味着 STT 的较弱猜想,在2014年被 Pournin 证明,表征了树木之间的最大旋转距离。
我们展示了一个 O(m^1.5ε^-1)时间算法,在具有 m 边缘和 n 顶点的图形上,输出其生成树数高达一个多乘数(1+ε)因子,概率很高,在稀疏图中,在之前的最佳运行时 O(m + n^1.875ε^-7/4)有所改善。 虽然以前的算法基于计算Schur补充和 determinantal sbrisifiers,但我们的算法反而反复删除使用Schild-Rao-Srivastava的电流定位定理[SODA 2018]发现的一组不相关的边缘。
栽种的斜面问题是统计到计算差距的范式模型:栽种的集团是信息理论可检测的,如果它的大小为k≥2log_2 n,但多项式时间算法仅存在于k=Ω(√(n))时恢复任务。 到目前为止,有许多算法在k = Ω(√(n))上成功。 然而,显然没有黑箱优化方法,例如梯度下降或大都市过程,已被证明有效。 事实上,Chen,Mossel和Zadik最近表明,任何状态空间为集团集的Metropolis过程如果从空集中自然初始化,在多项式时间找不到任何亚线性大小的种植集团。 我们表明,使用拉格朗日乘数的方法,即优化由目标函数的总和和所有子图空间的集团约束给出的哈密尔顿,成功了。 特别是,我们证明,马尔可夫链,尽量减少这个哈密顿(梯度下降和低温松弛)成功地恢复种植的k = Ω(√(n))的种植集团,如果从完整的图初始化。 重要的是,从空集中初始化,放松仍然无助于梯度下降找到亚线性种植的斜面。 我们还在自然污染模型下展示了这些马尔可夫链方法的稳健性。
在大数据应用中,例如扩散模型的推理过程,设计具有高度并行化的采样算法是可取的。 在这项工作中,我们研究了采样的适应性复杂性,这是实现采样所需的最小顺序数,给定每个回合中并行执行许多查询。 对于不受约束的采样,我们检查日志平滑或日志-Lipschitz的分布,并强烈或不强嗡嗡地记录。 我们表明,几乎线性迭代算法无法在总变化距离下返回具有特定指数小误差的样本。 对于框约束的采样,我们表明,几乎线性的迭代算法不能返回一个在日志妾分布的总变化距离下具有sup-多项式小误差的样本。 我们的证明依赖于新颖的分析,根据具有随机分区和经典平滑技术的链状结构对硬度电位的输出进行表征。