定量生物学
Quantitative Biology
生物分子
Biomolecules
细胞行为
Cell Behavior
基因组学
Genomics
预测编码是一个框架,用于理解反映环境潜在结构的低维内部表征的形成。 出现这种陈述的条件仍然不清楚。 在这项工作中,我们研究预测视界和网络深度如何塑造预测编码任务的解决方案。 使用受先前工作启发的最小抽象设置,我们在经验和理论上表明,经过多步预测视野训练的足够深的网络可以持续恢复潜在的潜在结构,这种现象通过普通最小二乘的估算器结构和学习动力学中的偏差来解释。 然后,我们将这些见解扩展到非线性网络和复杂的数据集,包括分段线性函数,MNIST,多个潜伏状态和更高维度状态几何。 我们的结果提供了对预测编码何时以及为什么诱导结构化表示的原理性理解,弥合了经验观察与理论基础之间的差距。
嵌合抗原受体T细胞(CAR-T)疗法代表了癌症治疗的范式转变,但8-12年的发展时间表和超过40-60%的临床自然减员率突出了目标选择,安全评估和分子优化中的关键低效率。 我们推出了Bio AI Agent,这是一种由大型语言模型驱动的多智能系统,通过协作专业代理实现自主CAR-T开发。 该系统包括六个自主代理:针对超过10,000个癌症相关靶点的多参数抗原优先级的目标选择代理,整合组织表达图集和药物警戒数据库的综合安全分析的毒性预测剂,用于合理CAR工程的分子设计代理,用于自由操作分析的专利智能代理,用于法规遵从的临床翻译代理,以及用于多代理协调的决策编排剂。 追溯验证证明了对高风险靶标的自主识别,包括FcRH5(肝毒性)和CD229(肿瘤外毒性),CD38+SLAMF7组合的专利侵权风险,以及生成综合开发路线图。 通过实现并行处理,专业推理和优于单片AI系统的自主决策,Bio AI Agent解决了精准肿瘤学发展的关键差距,并有可能加速将下一代免疫疗法从发现到临床的翻译。
零维(0D)心血管模型是用于研究全球环流动力学和运输的减序模型。 它们为高保真3D模型的手术规划和边界条件提供了生物标志物(如压力、流速和浓度)的估计值。 虽然它们的计算成本很低,但参数估计和不确定性量化等任务需要许多模型评估,使其计算成本高昂。 这激励了构建元模型。 在这项工作中,我们提出了一个从0D模型到元模型构建的管道,用于灵敏度分析,参数估计和不确定性量化等任务。 探索了三种策略:神经网络,多项式混沌扩展和高斯过程,应用于三种不同的0D模型。 第一个模型预测手术后的门户静脉压力,考虑肝脏血液动力学和全球循环。 第二种模拟在分流插入前后肺动脉高压下的全身循环。 第三个评估再造手术后器官血液灌注,重点是造影剂运输,需要特定的元模型治疗。 Metamodels在合成数据上进行了训练和测试。 神经网络在结果质量、计算时间和参数估计、灵敏度分析和不确定性量化的易用性方面被证明是最有效的。 最后,我们演示了以神经网络为模拟器的完整管道。
弱电鱼,如Gnathonemus petersii,使用显着的电方式进行主动传感和通信,但研究其丰富的电感和电通信行为以及自然主义环境中的相关神经活动在实验上仍然具有挑战性。 在这里,我们提出了一种新的生物学启发的计算框架来研究这些行为,其中通过多智能强化学习(MARL)训练的基于循环神经网络(RNN)的人工代理学习调节他们的电器官放电(EODs)和运动模式,以便在虚拟环境中集体觅食。 训练有素的药剂展示了与真正的鱼类集体一致的几种新兴特征,包括重尾EOD区间分布,环境环境依赖于EOD间隔分布的变化,以及自由加载等社会互动模式,其中代理降低了其EOD速率,同时受益于邻近剂的主动传感。 最低限度的双鱼测定进一步隔离了电通信的作用,表明获得特定爆炸物处理和相对支配共同塑造觅食成功。 值得注意的是,这些行为是通过进化启发的个人健身和紧急代理间互动的奖励而出现的,而不是通过明确奖励社交互动的代理。 我们的工作对弱电鱼的神经伦理学以及其他社交,交流动物具有广泛的影响,其中来自多个个体的广泛记录,因此传统的数据驱动建模是不可行的。
“如何评估生成模型提出的de novo设计?” 尽管生成式深度学习在药物发现中的变革潜力,但这个看似简单的问题没有明确的答案。 缺乏标准化指南对生成方法的基准和前瞻性研究分子的选择都提出了挑战。 在这项工作中,我们对新设计评估采取了新的、批判性的和建设性的观点。 通过训练化学语言模型,我们分析了大约10亿个分子设计,并发现了不同神经网络和数据集中一致的原理。 我们发现了一个关键混淆者:生成的分子库的大小显着影响评估结果,通常导致误导性的模型比较。 我们发现增加设计的数量作为一种补救措施,并提出新的和计算效率的指标来大规模计算。 我们还确定了常用指标中的关键陷阱 - 例如唯一性和分布相似性 - 可能会扭曲对生成性能的评估。 为了解决这些问题,我们提出了新的和完善的策略,用于可靠的模型比较和设计评估。 此外,在检查分子选择和采样策略时,我们的发现揭示了使生成的库多样化并绘制深度学习和药物发现之间新的相似之处和区别的限制。 我们预计我们的发现将有助于重塑生成药物发现中的评估管道,为更可靠和可重复的生成建模方法铺平道路。
无标记运动跟踪在过去10年中迅速发展,目前为行为,临床和生物力学研究提供了强大的机会。 虽然几个专门的工具包为特定任务提供了高性能,但使用现有工具仍然需要大量技术专长。 无障碍的集成解决方案仍然存在差距,这些解决方案为不同环境中的非专家提供足够的跟踪。 TrackStudio的开发是通过将既定的开源工具组合成一个单一的、模块化的、基于GUI的管道来解决这一差距的。 它提供自动2D和3D跟踪,校准,预处理,特征提取和可视化,而无需任何编程技能。 我们提供用户指南,提供视频获取,同步和设置的实用建议,以及常见陷阱的文档以及如何避免它们。 为了验证工具包,我们使用低成本网络摄像头或高分辨率摄像头在三个环境中测试其性能,包括身体位置、闪电、空间和障碍物的挑战条件。 在76名参与者中,平均帧间相关性超过0.98,平均三角测量误差仍然很低(手部跟踪为<13.6mm),显示出稳定一致的跟踪。 我们进一步表明,相同的管道可以扩展到其他身体和面部区域。 TrackStudio为不需要可靠性能的研究人员或外行提供了一条实用、可访问的无标记跟踪路线,而无需专业知识。
神经发育障碍,如脆性X综合征(FXS)和自闭症谱系障碍(ASD),其特征是皮质振荡活动中断,特别是在α和伽马频段。 这些异常与注意力,感官处理和认知功能的缺陷有关。 在这项工作中,我们展示了一个基于机器学习的基于机器学习的脑机接口(BCI)系统,该系统旨在通过特定频率的听觉刺激调节神经振荡,以增强FXS个体的认知准备。 脑电图数据来自38名参与者,使用128通道系统,在刺激范式下,由30秒基线(无刺激)组成,然后是70Hz,9Hz,11Hz和13Hz的60秒听觉夹带发作。 对功率光谱特征(Alpha、Gamma、Delta、Theta、Beta)和跨频耦合指标(Alpha-Gamma、Alpha-Beta等)进行了全面分析。 结果确定Peak Alpha Power,Peak Gamma Power和每个通道每秒的Alpha Power是最歧视性的生物标志物。 13Hz刺激条件持续引起Alpha活性的显着增加和Gamma活动的抑制,与我们的优化目标保持一致。 开发了一个监督机器学习框架,用于预测脑电图反应并动态调整刺激参数,从而实现实时、特定主题的适应。 这项工作为认知神经调节建立了一个新颖的EEG驱动的优化框架,为下一代AI集成的BCI系统提供了一个基础模型,旨在实现FXS和相关疾病的个性化神经康复。
准确探索蛋白质构象集合对于发现功能至关重要,但仍然很困难,因为分子动力学(MD)模拟受到高计算成本和能量障碍捕获的影响。 本文介绍了能量偏好优化(EPO),这是一种在线改进算法,将预训练的蛋白质集成生成器变成能量感知采样器,无需额外的MD轨迹。 具体来说,EPO利用随机微分方程采样来探索构象景观,并结合基于列表偏好优化的新型能量排名机制。 至关重要的是,EPO引入了一个实用的上限,以有效地近似连续时间生成模型中长采样轨迹的棘手概率,使其易于适应现有的预训练发电机。 在四肽、ATLAS和快速折叠基准测试中,EPO成功地生成了多样化和物理逼真的集合,在九个评估指标中建立了一个新的最先进的系统。 这些结果表明,仅能量偏好信号可以有效地引导生成模型转向热力学一致的构象集合,为长期MD模拟提供替代方案,并扩大学习潜力在结构生物学和药物发现中的适用性。
在整个科学领域,我们发现自己减去或分割随机信号。 例如,考虑从两个随机信号a和b的加法或乘法生成的随机实现,即x=a+b或x = ab。 对于 x=a+b 示例,a 可以是荧光背景,也可以是感兴趣的信号,其统计数据可以从测量的 x 中学习。 同样,在编写x=ab时,a可以被认为是照明强度和b感兴趣的荧光分子的密度。 然而,分割或减去随机信号会放大噪声,我们反而问,使用a的统计值和x的测量作为输入,我们是否可以恢复b的统计学。 在这里,我们展示了归一化流如何生成概率分布的近似值,从而完全避免减法或划分。 此方法在我们的软件包 NFdeconvolve 中实现,可在 GitHub 上获得,并在主文本中链接教程。
大型语言模型(LLM)正在迅速改变各个领域,包括生物医学和医疗保健,并展示了从科学研究到新药发现的显着潜力。 基于图形的检索增强生成(RAG)系统作为LLM的有用应用,可以通过结构化实体和长期上下文知识(例如生物医学文献)中识别来改善上下文推理。 尽管与幼稚的RAG相比有许多优势,但大多数基于图形的RAG都是计算密集型的,这限制了它们应用于大规模数据集。 为了解决这个问题,我们引入了fastbmRAG,一种针对生物医学文献优化的快速基于图的RAG。 FastbmRAG利用组织良好的生物医学论文结构,将知识图的构建分为两个阶段,第一个阶段使用摘要绘制图形;其次,使用基于矢量的实体链接引导的主要文本来改进它们,从而最大限度地减少冗余和计算负载。 我们的评估表明,fastbmRAG比现有的图形-RAG工具快10倍,并且实现了卓越的覆盖和输入知识的准确性。 FastbmRAG提供了一个快速的解决方案,可以大规模快速理解,总结和回答有关生物医学文献的问题。 FastbmRAG在https://github.com/menggf/fastbmRAG中公开。
基于扩散的模型最近使现实和多样化的蛋白质结构得以产生,但它们在引导结果走向特定功能或生化目标(如结合亲和力或序列组成)的能力方面仍然有限。 在这里,我们将Feynman-Kac(FK)转向框架(一种推理时间控制方法)扩展到基于扩散的蛋白质设计。 通过将FK转向与结构生成耦合,该方法引导采样到理想的结构或能量特征,同时保持底层扩散过程的多样性。 为了同时生成序列和结构属性,通过 ProteinMPNN 和全原子松弛模型计算奖励。 应用于粘合剂设计,FK转向始终如一地改进了不同目标的预测界面能量,并且计算开销最小。 更广泛地说,这项工作表明,推理时间FK控制将基于扩散的蛋白质设计推广到任意的,不可区分的和奖励无关的目标,为引导分子生成提供了一个统一和独立于模型的框架。
最近提出了从玻尔兹曼分布中采样蛋白质构象的深层生成模型,作为通常令人望而却步的分子动力学模拟的替代品。 然而,当前最先进的方法依赖于微调预训练的折叠模型和进化序列信息,限制了它们的适用性和效率,并引入了潜在的偏见。 在这项工作中,我们提出了一个仅基于主干几何形状的采样蛋白质构象的流匹配模型 - BBFlow。 我们引入了骨干平衡结构的几何编码作为输入,并提议不仅对流量进行条件,而且还对各自平衡结构的先验分布进行条件,从而消除了对进化信息的需求。 由此产生的模型比当前最先进的方法更快,可与多链蛋白相转移,并且可以在几天内从头开始训练。 在我们的实验中,我们证明拟议的模型通过减少推理时间来实现竞争性能,不仅跨越了自然存在的蛋白质的既定基准,而且还跨越了新蛋白质,其中进化信息很少或不存在。 BBFlow可在https://github.com/graeter-group/bbflow查阅。
在这项工作中,我们研究了一个具有更新边界条件和耦合基板方程的年龄结构的切度模型。 该模型是非线性的,由双曲偏微分方程和普通微分方程组成,其中非线性,非局部项出现在普通微分方程和边界条件中。 两个微分方程都包含一个非负控制输入,而模型的状态要求为正。 在适当的弱解决方案框架下,我们确定该模型的状态空间和输入空间。 我们为所有可接受的初始条件和所有允许的控制输入证明了全球存在和解决方案的独特性。 为此,我们采用了巴拿赫的定点定理与隐式求解公式和有用的求值估计的组合。 最后,我们表明,年龄结构的切度模型在度量空间上给出了一个定义良好的控制系统。
全基因组测序(WGS)揭示了许多非编码短变体,其功能影响仍然知之甚少。 尽管深度学习基因组方法最近取得了进展,但准确预测和优先考虑基因调控区域的临床相关突变仍然是一个重大挑战。 在这里,我们介绍了Deep VRegulome,一种深度学习方法,用于预测和解释人类regulome中功能破坏性变体,它结合了700个DNABERT微调模型,在大量ENCODE基因调控区域上进行了训练,具有变体评分,主题分析,基于注意力的可视化和生存分析。 我们在TCGA胶质母细胞瘤WGS数据集上展示了其在优先考虑与生存相关的突变和调节区域中的应用。 该分析确定了572个剪接中断和9837个转录因子结合位点改变在超过10%的胶质母细胞瘤样本中发生的突变。 生存分析将1352个突变和563个中断的调控区域与患者结果联系起来,通过非编码突变签名实现分层。 所有代码、微调模型和交互式数据门户都公开可用。
与生物生产单栽培相比,微生物联合体具有显著的生物技术优势。 然而,由于缺乏可扩展的架构来确保人口之间的稳定共存,工业部署受到阻碍。 现有的策略依赖于基因修饰,这些修饰会强加代谢负荷或环境变化,从而降低产量。 我们提出了一个多功能的控制架构,以调节双应变联体的密度和组成,而无需基因工程或剧烈的环境变化。 我们基于生物反应器的控制架构包括一个混合室,其中两种菌株都是共同培养的,并且有一个储存库,维持生长较慢的菌株。 对于两院,我们开发基于模型和sim-to-real学习控制器。 然后,控制架构在双菌株的大肠杆菌联盟上进行体内验证,实现对联合体密度和成分的精确和稳健调节,包括跟踪时间变化参考和从扰动中恢复。
糖尿病视网膜病变(DR)是糖尿病的微血管并发症,也是可预防失明的主要原因,预计到2030年将影响全球超过1.3亿人。 早期识别对于减少不可逆转的视力丧失至关重要,但目前的诊断工作流程依赖于基础摄影和专家审查等方法,这些方法仍然昂贵且资源密集。 这与DR的无症状性质相结合,导致其诊断不足率约为25%。 尽管卷积神经网络(CNN)在医学成像任务中表现出强劲的表现,但有限的可解释性和不确定性量化的缺乏限制了临床可靠性。 因此,在本研究中,引入了与不确定性估计集成的深度学习框架,以提高DR检测的稳健性,透明度和可扩展性。 该集成包括七个CNN架构-ResNet-50,DenseNet-121,MobileNetV3(小型和大型)和EfficientNet(B0,B2,B3) - 其输出通过精确加权多数投票策略融合。 概率加权熵指标量化了预测的不确定性,使低置信度样本被排除或标记以进行额外审查。 对35,000张EyePACS视网膜基底图像的训练和验证产生了93.70%的未经过滤的精度(F1 = 0.9376)。 后来进行不确定性过滤以去除不自信的样本,导致最大精度为99.44%(F1 = 0.9932)。 该框架表明,具有不确定性意识、精度加权的集合可提高可靠性,而不会妨碍性能。 凭借信心校准的输出和可调精度覆盖的权衡,它为在高风险护理中部署值得信赖的人工智能诊断提供了可推广的范例。
背景:为批准的药物确定新适应症是一个复杂而耗时的过程,需要对药理学,临床数据和先进的计算方法有广泛的了解。 最近,深度学习(DL)方法已经证明了它们准确预测药物重新定位的能力。 然而,实现基于DL的建模需要深入的领域知识和熟练的编程技能。 结果:在这个应用中,我们引入了DeepDR,这是第一个集成平台,结合了各种基于DL的基于疾病的模型和目标特异性药物重新定位任务。 DeepDR利用宝贵的经验推荐候选药物,涵盖超过15个网络和全面的知识图谱,其中包括来自六个现有数据库和2400万PubMed出版物的大型科学语料库的107种关系,连接药物,疾病,蛋白质/基因,途径和表达的590万边缘。 此外,建议的结果包括对推荐药物的详细描述,并通过知识图谱可视化具有可解释性的关键模式。 结论:DeepDR 对所有用户免费开放,无需注册。 我们相信它可以为实验和计算科学家提供一个易于使用,系统,高度准确和计算自动化的平台。
组织病理学家通过评估组织学结构(如前列腺癌中的腺体)来建立癌症等级。 然而,数字病理学管道通常依赖于基于网格的平铺,而忽略了组织结构。 这引入了不相关的信息并限制了可解释性。 我们引入了组织学知识平铺(HIT),它使用语义分割从整个幻灯片图像(WSI)中提取腺体,作为多实例学习(MIL)和表型的生物有意义的输入补丁。 在ProMPT队列的137个样本中,HIT获得了0.83 + / - 0.17的腺体级骰子评分。 通过在ICGC-C和TCGA-PRAD队列中从760个WSI中提取380,000个腺体,HIT将MIL模型AUC提高了10%,用于检测与上皮-间充质过渡(EMT)和MYC相关的基因的拷贝数变异(CNV),并揭示了15个腺体簇,其中几个与癌症复发,致癌突变和高Gleason有关。 因此,HIT提高了MIL预测的准确性和可解释性,同时通过在特征提取过程中专注于具有生物学意义的结构来简化计算。
大型人工神经网络(ANN)模型在各个领域都取得了成功,包括一般文本和图像生成,药物发现和蛋白质-RNA(核糖核酸)结合任务。 然而,这些模型通常需要大量的计算资源、时间和数据进行有效的训练。 鉴于许多研究人员通常无法获得如此广泛的资源,并且生命科学数据集经常受到限制,我们研究了小型ANN模型是否可以在蛋白质RNA预测中达到可接受的准确性。 我们尝试了浅表前馈ANN,包括两个隐藏层和各种非线性。 这些模型没有利用明确的结构信息;相反,采用滑动窗口方法隐式考虑邻近残留物和碱基的上下文。 我们探索了不同的培训技术,以解决高度不平衡的数据问题。 在前馈ANN的七个最受欢迎的非线性中,只有三个:整流线性单元(ReLU),门线单元(GLU)和双曲坦(Tanh)产生了融合模型。 常见的再平衡技术,如训练集的不足和过度采样,被证明是无效的,而增加训练数据的数量和使用模型集成显着提高了性能。 最佳的上下文窗口大小,平衡假阴性和假阳性错误,被发现约为30个残基和碱。 我们的研究结果表明,使用大多数教育和研究机构可以访问的计算硬件,可以实现高精度蛋白-RNA结合预测。
越来越多的医学断层扫描检查需要开发能够提取综合成像功能的自动化方法,以促进肿瘤表征等下游任务,同时帮助医生管理其不断增长的工作量。 然而,由于体积数据固有的复杂的空间关系和长距离依赖,3D医学图像分类仍然是一个具有挑战性的任务。 从头开始训练模型受到低数据机制的影响,缺乏3D大规模多模态数据集限制了3D医学成像基础模型的开发。 然而,最近的研究强调了2D视觉基础模型的潜力,该模型最初在自然图像上训练,作为医学图像分析的强大特征提取器。 尽管有这些进步,但通过基于切片的分解将2D模型应用于3D卷的现有方法仍然不理想。 传统的体积切片策略,依赖于公理,蔚蓝或日冕等规范平面,当这些与标准化的观看平面错位时,可能不足以捕捉目标结构的空间范围。 此外,现有的切片聚合策略很少考虑保留体积结构,导致切片空间一致性的丧失。 为了克服这些限制,我们提出了TomoGraphView,这是一个新颖的框架,它将全向卷切片与基于球形图形的特征聚合集成在一起。 我们在https : / /pypi.org/project/OmniSlicer上公开分享我们的可访问代码库,并在https : / /pypi.org/project/OmniSlicer上提供全向卷切片的用户友好库。
继续滚动加载更多