在基于结构的药物发现中,使用传统分子对接方法进行虚拟筛选可以快速执行,但在预测准确性方面存在局限性。最近提出的Boltz-2在结合亲和力预测方面实现了极高的准确性,但每个化合物在GPU上需要约20秒的处理时间,难以应用于数十万到数百万化合物的大规模筛选。本研究提出了Boltzina,这是一个新颖的框架,既利用了Boltz-2的高准确性,又显著提高了计算效率。Boltzina通过省略Boltz-2架构中的限速结构预测步骤,直接从AutoDock Vina对接构象预测亲和力,从而实现了准确性和速度的双重优势。我们在MF-PCBA数据集的八个测定上进行了评估,结果表明虽然Boltzina的性能低于Boltz-2,但与AutoDock Vina和GNINA相比,它提供了显著更高的筛选性能。此外,通过减少循环迭代和批处理,Boltzina实现了高达11.8倍的加速。进一步地,我们研究了多构象选择策略以及结合Boltzina和Boltz-2的两阶段筛选方法,提出了根据应用需求优化准确性和效率的方法。这项研究代表了将Boltz-2的高精度预测应用于实际规模筛选的首次尝试,为计算生物学提供了一个兼顾准确性和效率的流程。Boltzina可在github上获取:https://github.com/ohuelab/boltzina。
认知科学(Cognitive Science)深刻塑造了人工智能(AI)、哲学、心理学、神经科学、语言学和文化学等多个学科领域。AI领域的许多突破都源于认知理论,而AI本身已成为推进认知研究不可或缺的工具。这种相互促进的关系促使我们对AI与认知科学之间的交叉点进行全面回顾。通过综合两个视角的关键贡献,我们观察到AI的进展主要强调实际任务性能,而其认知基础在概念上仍然较为分散。我们认为,AI在认知科学中的未来不仅在于提升性能,更在于构建能够深化我们对人类心智理解的系统。有前景的研究方向包括:将AI行为与认知框架对齐、将AI置于具身化和文化情境中、开发个性化认知模型,以及通过认知协同评估重新思考AI伦理。
理解复杂生物网络的模块化结构和核心元素对于揭示疾病中的系统级机制至关重要。本研究利用风湿性关节炎(RA)滑膜组织的bulk RNA-seq数据,通过成对相关性和渗流引导的阈值策略构建了加权基因共表达网络。使用Louvain和Leiden算法进行社区检测揭示了稳健的模块,节点强度排名识别了全局和社区内的前50个枢纽基因。为评估新颖性,我们整合了全基因组关联研究(GWAS)和基于PubMed的文献证据,突出了五个具有高中心性但先前与RA特异性关联很少或没有的基因。功能富集分析证实了它们在免疫相关过程中的作用,包括适应性免疫应答和淋巴细胞调节。值得注意的是,这些枢纽基因与T细胞和B细胞标志物显示出强烈的正相关性,与NK细胞标志物呈负相关性,这与RA免疫病理学一致。总体而言,我们的框架展示了基于相关性的网络构建、模块化驱动的聚类和中心性引导的新颖性评分如何共同揭示组学尺度数据中的信息结构。这种可推广的方法为RA和其他自身免疫性疾病中的基因优先排序提供了一条可扩展的路径。
连续生物制造工艺的开发需要稳健且早期的异常检测,因为即使是微小的偏差也可能影响产量和稳定性,导致调度中断、周产量降低和经济性能下降。这些工艺本质上具有复杂性,并展现出过程变量之间复杂关系的非线性动力学特性,因此先进的异常检测方法对于高效运行至关重要。在这项工作中,我们提出了一种基于生成对抗网络(GANs)集成的新型框架,用于连续生物制造中的无监督异常检测。我们首先建立了一个基准数据集,模拟小分子生产连续过程中的正常和异常操作状态。然后我们证明了基于GAN的框架在检测由突然原料变异性引起的异常方面的有效性。最后,我们评估了使用混合量子/经典GAN方法(包括模拟量子电路和真实光子量子处理器)对异常检测性能的影响。我们发现混合方法能够提高异常检测率。我们的工作展示了混合量子/经典方法在解决复杂连续生物制造过程中实际问题的潜力。
神经科学家在分析密集功能网络的高维神经记录数据方面面临挑战。 如果没有地面真相参考数据,找到恢复神经相关网络的最佳算法仍然是一个悬而未决的问题。 我们实现了混合量子算法来构建功能网络,并将其与记录的经典技术的结果进行比较。 我们证明,我们的量子态保真方法可以通过揭示不同的功能网络来为经典指标提供有竞争力的替代品。 我们的研究结果表明,量子计算为神经科学中的数据驱动建模提供了一种可行且具有潜在优势的替代方案,强调了其在高维图推理和复杂系统分析中的更广泛适用性。
理解复杂生物网络的模块化结构和核心元素对于揭示疾病中的系统级机制至关重要。本研究利用风湿性关节炎(RA)滑膜组织的bulk RNA-seq数据,通过成对相关性和渗流引导的阈值策略构建了加权基因共表达网络。使用Louvain和Leiden算法进行社区检测揭示了稳健的模块,节点强度排名识别了全局和社区内的前50个枢纽基因。为评估新颖性,我们整合了全基因组关联研究(GWAS)和基于PubMed的文献证据,突出了五个具有高中心性但先前与RA特异性关联很少或没有的基因。功能富集分析证实了它们在免疫相关过程中的作用,包括适应性免疫应答和淋巴细胞调节。值得注意的是,这些枢纽基因与T细胞和B细胞标志物显示出强烈的正相关性,与NK细胞标志物呈负相关性,这与RA免疫病理学一致。总体而言,我们的框架展示了基于相关性的网络构建、模块化驱动的聚类和中心性引导的新颖性评分如何共同揭示组学尺度数据中的信息结构。这种可推广的方法为RA和其他自身免疫性疾病中的基因优先排序提供了一条可扩展的路径。
基于脑电图(EEG)的脑-计算机接口(BCI)已成为一种变革性技术,其应用涵盖机器人,虚拟现实,医学和康复。 然而,现有的BCI框架面临一些限制,包括缺乏实验研究必不可少的阶段性灵活性,没有编程专业知识的研究人员的陡峭学习曲线,由于依赖专有软件而导致成本上升,以及缺乏全包功能导致使用影响研究成果的多种外部工具。 为了应对这些挑战,我们提出了PyNoetic,一个模块化的BCI框架,旨在满足BCI研究的不同需求。 PyNoetic是Python中为数不多的框架之一,涵盖了整个BCI设计管道,从刺激演示和数据采集到通道选择,过滤,特征提取,工件删除,最后是模拟和可视化。 值得注意的是,PyNoetic引入了直观和端到端的GUI,以及一个独特的选择和位置可配置的流程图,用于无代码BCI设计,使研究人员能够以最小的编程经验访问它。 对于高级用户,它以最小的编码促进了自定义功能和新颖算法的无缝集成,确保了每个设计阶段的适应性。 PyNoetic还包括丰富的分析工具,如机器学习模型,大脑连接指数,通过模拟的系统测试功能以及新范式的评估方法。 PyNoetic的优势在于其离线和实时BCI开发的多功能性,简化了设计过程,使研究人员能够专注于BCI开发的更复杂的方面,从而加速他们的研究工作。 项目网站:https://neurodiag.github.io/PyNoetic
所有临床前药物开发都需要肾脏异常检测。 它涉及对每份药物安全研究数百到数千张全幻灯片图像进行耗时且昂贵的检查,其中大部分是正常的,以检测任何指示毒性作用的细微变化。 在这项研究中,我们提出了第一个用于肾脏毒理学的大规模自我监督异常检测模型,涵盖158种化合物的药物安全性评估研究。 我们使用从UNI基础模型(FM)中提取的特征来探索这种规模肾脏异常检测的复杂性,并表明这些特征上一个简单的k-nearest邻居分类器是偶然的,表明仅FM生成的特征不足以检测异常。 然后,我们证明,应用于相同特征的自我监督方法可以实现优于机会的性能,接收器操作特性曲线下的区域为0.62,负预测值为89。
生物途径绘制了支配所有人类过程的基因-基因相互作用。 尽管它们很重要,但大多数ML模型将基因视为非结构化的令牌,丢弃了已知的通路结构。 最新的通路知情模型捕获了通路-途径相互作用,但仍通过MLP将每个通路视为“基因袋”,丢弃其拓扑和基因基因相互作用。 我们提出了一个图形注意力网络(GAT)框架,该框架可以模拟基因水平的路径。 我们表明,GAT的普及比MLP好得多,实现了81
染色质折叠和细胞中染色体的空间排列在DNA复制和基因表达中起着至关重要的作用。 不当的染色质折叠可能导致故障,并随着时间的推移,疾病。 对于真核生物来说,中心体对于适当的染色体分离和折叠至关重要。 尽管使用基因组的新测序和注释分析进行了广泛的研究,但酵母中的中心位置仍然难以推断,在大多数物种中仍然未知。 最近,全基因组染色体构象捕获与下一代测序(Hi-C)相结合,已成为研究染色体结构的领先方法之一。 最近的一些研究使用Hi-C数据给出了每个中心体的点估计,但这些方法高度依赖于良好的预定位。 在这里,我们提出了一种新的方法,根据实验性的Hi-C地图和模拟接触地图,以随机的方式推断出萌芽酵母中所有中心的位置。
基于池的主动学习的可扩展性受到评估大型未标记数据集的计算成本的限制,这一挑战在药物发现的虚拟筛选中尤为严重。 虽然像贝叶斯主动学习(Bayesian Active Learning by Disagreement,BALD)这样的积极学习策略优先考虑信息样本,但当扩展到包含数十亿样本的库时,它仍然是计算密集型的。 在这项工作中,我们介绍了BALD-GFlowNet,这是一个规避此问题的生成式主动学习框架。 我们的方法利用生成流网络 (GFlowNets) 直接采样对象与 BALD 奖励成比例。 通过将传统的基于池的获取替换为生成式采样,BALD-GFlowNet实现了独立于未标记池大小的可扩展性。 在我们的虚拟筛选实验中,我们表明BALD-GFlowNet实现了与标准BALD基线相当的性能,同时产生了更多结构多样化的分子,为高效和可扩展的分子发现提供了有希望的方向。
微生物生态学的一个基本挑战是确定细菌在不同环境条件下是否竞争或合作。 随着基因组规模代谢模型的最新进展,我们现在能够在实验上模拟数千对不同环境环境中数千对细菌之间的相互作用。 这些方法可以生成大量数据,这些数据可以通过最先进的机器学习算法来揭示驱动交互的机制。 在这里,我们介绍了Friend或Foe,一个由64个表格环境数据集组成的汇编,由超过26M的共享环境组成,用于从两个最大的代谢模型集合中采样的超过10K对细菌。 Friend或Foe数据集用于广泛的机器学习任务 - 监督,无监督和生成 - 以解决细菌相互作用的具体问题。 我们为每项任务提供了最新的模型,我们的结果表明,机器学习可以成功地应用于微生物生态学。 超越,对Friend或Foe汇编的分析可以揭示细菌相互作用的可预测性,并突出细菌如何推断和驾驭它们关系的新研究方向。
发热率模型是广泛用于应用和理论神经科学的动力学系统,用于描述神经元人群中的局部皮质动力学。 通过提供神经元活动的宏观视角,这些模型对于研究振荡现象,混乱行为和关联记忆过程至关重要。 尽管它们被广泛使用,但射击率模型在关联存储器网络中的应用受到了有限的数学探索,大多数现有的研究都集中在特定模型上。 相反,成熟的关联记忆设计,如霍普菲尔德网络,缺乏与发射率模型固有的关键生物学相关特征,包括反映兴奋和抑制相互作用的正性和可解释的突触矩阵。 为了解决这一差距,我们提出了一个通用框架,以确保在发射速率动力学中作为稳定均衡的出现重新缩放内存模式。 此外,我们分析了记忆在本地和全球无症状稳定的条件下,为构建生物合理和强大的系统提供了见解,用于关联记忆检索。
脑图集对于降低神经成像数据的维度和实现可解释的分析至关重要。 然而,大多数现有的图集都是预定义的,组级模板,灵活性和分辨率有限。 我们提出了深度聚类图谱(DCA),这是一个图形引导的深度嵌入聚类框架,用于生成个性化,体素智能的大脑分布。 DCA将预训练的自动编码器与空间正则化的深度聚类相结合,以产生功能连贯和空间连续的区域。 我们的方法支持对分辨率和解剖学范围的灵活控制,并广泛用于任意的大脑结构。 我们进一步引入了一个标准化的基准测试平台,用于地图集评估,使用多个大型fMRI数据集。 在多个数据集和尺度上,DCA优于最先进的地图集,将功能同质性提高了98.8%,剪影系数提高了29%,在自闭症诊断和认知解码等下游任务中取得了卓越的性能。 代码和模型将很快发布。
Trisomy 21导致唐氏综合症,这是一种多方面的遗传性疾病,具有不同的临床表型,包括心脏缺陷,免疫功能障碍,神经发育差异和早发性痴呆风险。 跨研究的异质性和分散的数据挑战了全面的研究和转化发现。 NIH INCLUDE(Investigation of Co-Coccurring conditions across the Lifespan to Understand Down syndromE)计划已经收集了协调的参与者级数据集,但实现其潜力需要综合分析框架。 我们开发了一个知识图驱动平台,将9项INCLUDE研究(包括7,148名参与者,456种条件,501种表型和37,000多种生物标本)转化为统一的语义基础设施。 使用Monarch Initiative数据的跨资源丰富将覆盖范围扩大到4,281个基因和7,077个变体。 由此产生的知识图包含超过160万个语义关联,通过图嵌入和基于路径的推理进行假设生成AI就绪分析。 研究人员可以通过SPARQL或自然语言界面查询图形。 该框架将静态数据存储库转换为动态发现环境,支持跨研究模式识别,预测建模和唐氏综合症中基因型-表型关系的系统探索。
脑电图(EEG)是一种非侵入性方法,用于测量具有高时间分辨率的大脑活动;然而,由于生理和环境工件的污染,EEG信号通常表现出低信噪比。 阻碍脑机接口(BCI)实际部署的主要挑战之一涉及与运动相关的脑电图工件的频繁发生。 大多数先前关于EEG运动神器去除的研究都依赖于单模方法,例如人工制品子空间重建(ASR)和独立组件分析(ICA),而没有同时纳入记录的模式,如惯性测量单元(IMU),直接捕获运动的范围和动力学。 这项工作提出了一个基于LaBraM的微调大大脑模型(LaBraM)的相关性注意力映射方法,该方法利用IMU数据中的空间通道关系来识别EEG信号中与运动相关的工件。 微调模型包含大约920万个参数,并使用5.9小时的EEG和IMU录音进行训练,仅为用于训练基础模型的2500小时中的0.2346%。 我们将结果与不同时间尺度和运动活动中的既定ASR-ICA基准进行比较,表明结合IMU参考信号显着提高了不同运动场景下的稳健性。
肽自组装预测提供了强大的自下而上策略,用于设计生物相容性,低毒性材料,用于广泛的生物医学和能源应用中的大规模合成。 然而,筛选聚合形态分类的庞大序列空间仍然难以解决。 我们引入了PepMorph,这是一种端到端的肽发现管道,可以生成新的序列,不仅容易聚集,而且自我组装成指定的颤音或球形形态。 我们通过利用现有的聚合倾向数据集和提取几何和物理化学分离的肽描述符来编译一个新的数据集,这些描述符作为聚合形态的代理。 然后,该数据集用于训练具有掩蔽机制的基于变形金刚变的模态自动解码器,该掩码机制在任意条件下生成新的肽。 经过过滤以确保设计规范和通过粗粒度分子动力学模拟对生成的序列进行验证,PepMorph产生了83
基于AI的神经解码通过利用生成模型来重建视觉感知,通过功能性MRI(fMRI)测量大脑活动,并将其转化为潜在的分层表示。 传统上,脊线模型将fMRI转换为潜伏空间,然后通过预先训练的变异自动编码器(VAE)使用潜在扩散模型(LDM)进行解码。 由于fMRI数据的复杂性和噪声性,较新的方法将重建分为两个顺序步骤,第一个提供粗略的视觉近似,第二个通过CLIP嵌入的LDM改善刺激预测。 这项工作提出了一个非线性深度网络,以改善fMRI潜在空间表示,优化尺寸。 关于自然场景数据集的实验表明,拟议的架构在基于山脊线性变换的最先进的模型方面,将重建图像的结构相似性提高了约2%。 重建的图像的语义提高了约4%,通过感知相似性来衡量,相对于最先进的。 LDM的噪声敏感性分析显示,第一阶段的作用是预测具有高结构相似性的刺激的基础。 相反,提供大型噪声刺激对预测刺激的语义影响较小,而地面真理和预测刺激之间的结构相似性非常差。 研究结果强调了利用BOLD信号与潜在表示和两级生成式AI之间的非线性关系的重要性,以优化从嘈杂的fMRI数据中重建的视觉刺激的保真度。
模拟生物分子的长期动力学是计算科学的核心挑战。 虽然增强的采样方法可以加速这些模拟,但它们依赖于通常难以识别的预定义集体变量。 最近的生成模型LD-FPG表明,可以通过学习将静态均衡集成作为参考结构中的全原子变形来绕过这个问题,为全原子集成生成建立强大的方法。 然而,虽然这种方法成功地捕获了一个系统可能构象,但它并没有模拟它们之间的时间演变。 在这里,我们扩展了LD-FPG,使用在学习的潜在空间内工作的时间传播器,并比较了三个类别:(i)分数引导的Langevin动力学,(ii)基于库普曼的线性运算符和(iii)自回归神经网络。 在统一的编码器-传播-解码器框架中,我们评估长链稳定性、骨干和侧链合奏保真度以及功能性自由能量景观。 自动回归神经网络提供最稳健的长推出;当分数学得精湃时,评分引导的Langevin最好地恢复侧链热力学;而Koopman提供了一个可解释的轻量级基线,倾向于抑制波动。 这些结果澄清了传播者之间的权衡,并为全原子蛋白动力学的潜在空间模拟器提供了实用的指导。
眼部运动可以揭示神经退化的早期迹象,包括与帕金森氏症(PD)相关的症状。 这项工作调查了一组基于凝视的功能,用于从不同的视觉探索任务中自动筛选PD。 为此,引入了一种新的方法,将经典的固定/锯切振荡器特征(例如,锯切数,固定持续时间,扫描区域)与来自凝视簇的特征(即具有相当固定积累的区域)相结合。 这些功能从六个探索测试中自动提取,并使用不同的机器学习分类器进行评估。 专家组合用于在测试和两只眼睛之间集成输出。 结果表明,集成模型优于单个分类器,在保留的测试集上实现了0.95的接收操作特征曲线(AUC)下的面积。 这些发现支持视觉探索作为早期自动筛选PD的非侵入性工具。
已经开发了许多方法来预测静态蛋白质结构,但是了解蛋白质结构的动力学对于阐明生物学功能至关重要。 虽然分子动力学(MD)模拟仍然是硅金标准,但其高计算成本限制了可扩展性。 我们介绍了DynaProt,一个轻量级的SE(3)不变框架,直接从静态结构中预测蛋白质动力学的丰富描述。 通过通过多变量高斯的透镜来解决这个问题,DynaProt估计了两个互补尺度的动力学:(1)每个剩余边缘各向异性作为3×3共价捕获局部灵活性,(2)关节标量协方差编码跨残留物的配对动态耦合。 通过这些动力学输出,DynaProt在预测残留水平灵活性(RMSF)方面实现了高精度,并且非常能够合理重建完整的协方差矩阵,以实现快速集成生成。 值得注意的是,它使用比先前方法少了数量级的参数。 我们的研究结果强调了直接蛋白质动力学预测作为现有方法的可扩展替代品的潜力。
神经电活动是大脑功能的基础,是一系列认知和行为过程的基础,包括运动、感知、决策和意识。 神经信号的异常模式通常表明潜在的大脑疾病的存在。 个体之间的可变性,各种大脑疾病的各种临床症状以及诊断分类的可用性有限,为制定针对不同应用环境的可靠神经信号模型带来了重大障碍。 在这里,我们介绍了BrainWave,这是侵入性和非侵入性神经记录的第一个基础模型,对大约16,000个人的40,000多小时的脑记录(13.79 TB的数据)进行了预训练。 我们的分析显示,BrainWave优于所有其他竞争模型,并在神经疾病的诊断和识别方面始终如一地取得了最先进的性能。 我们还展示了BrainWave的强大功能,能够在不同的记录条件和脑部疾病中实现零镜头传输学习,以及无需微调的很少镜头分类,这表明BrainWave学习神经信号的高度可推广表示。 因此,我们相信开源BrainWave将促进医学上广泛的临床应用,为人工智能驱动的研究大脑疾病和推进神经科学研究铺平道路。
通过学习迭代逆转噪音过程,扩散模型已经成为一类强大的生成模型。 它们生成高质量样本的能力已经超越了高维图像数据扩展到其他复杂领域,如蛋白质,其中数据分布通常稀疏且分布不均匀。 重要的是,色度本身是不均匀的。 从经验上讲,我们观察到,虽然一小部分样本位于致密的簇中,但大多数样本在整个数据空间中占据不同稀疏的区域。 现有方法在很大程度上忽略了这种数据依赖性的可变性。 在这项工作中,我们引入了一个数据依赖平滑的Walk-Jump框架,该框架使用内核密度估计(KDE)作为预处理步骤来估计每个数据点的噪声量表σ,然后训练具有这些数据依赖ς的分数模型。 通过将局部数据几何学纳入去噪过程,我们的方法解释了蛋白质数据的异质分布。 经验评估表明,我们的方法在多个指标上产生了一致的改进,突出了数据感知sigma预测在稀疏,高维设置中生成建模的重要性。
目标。 个性化的经颅电刺激(tES)由于大脑解剖学和生理学中个体间的巨大变异性而越来越受到关注。 虽然之前的评论已经讨论了tES的生理机制和临床应用,但专注于计算建模框架的最新合成仍然存在着一个关键的差距,这些框架可以实现个性化的刺激优化。 方法。 本综述全面概述了支持个性化 tES 的计算技术的最新进展。 我们系统地研究了用于模拟个性化电场的远期建模发展,以及用于优化刺激参数的反向建模方法。 我们批判性地评估头部建模管道、优化算法和多模态大脑数据集成方面的进展。 主要成果。 最近的进展大大加快了特定主题的头部导体模型的构建,并扩展了优化方法的景观,包括多目标优化和大脑网络知情优化。 这些进步允许动态和个性化的刺激规划,超越经验试错方法。 通过整合个性化 tES 计算建模的最新发展,本综述强调了当前挑战、新兴机遇以及在研究和临床环境中实现精确神经调节的未来方向。
连续生物制造工艺的开发需要稳健且早期的异常检测,因为即使是微小的偏差也可能影响产量和稳定性,导致调度中断、周产量降低和经济性能下降。这些工艺本质上具有复杂性,并展现出过程变量之间复杂关系的非线性动力学特性,因此先进的异常检测方法对于高效运行至关重要。在这项工作中,我们提出了一种基于生成对抗网络(GANs)集成的新型框架,用于连续生物制造中的无监督异常检测。我们首先建立了一个基准数据集,模拟小分子生产连续过程中的正常和异常操作状态。然后我们证明了基于GAN的框架在检测由突然原料变异性引起的异常方面的有效性。最后,我们评估了使用混合量子/经典GAN方法(包括模拟量子电路和真实光子量子处理器)对异常检测性能的影响。我们发现混合方法能够提高异常检测率。我们的工作展示了混合量子/经典方法在解决复杂连续生物制造过程中实际问题的潜力。