大型语言模型(LLM)的最新进展显着改善了文本到语音(TTS)系统,增强了对语音风格,自然性和情感表达的控制,这使TTS系统更接近人类水平的性能。 虽然平均意见评分(MOS)仍然是TTS系统评估的标准,但它受到主观性,环境不一致和有限的可解释性的影响。 现有的评估数据集也缺乏多维设计,往往忽略了说话风格、语境多样性和陷阱话语等因素,这在中国TTS评价中尤为明显。 为了应对这些挑战,我们引入了音频图灵测试(ATT),这是一个多维的中文语料库数据集ATT-Corpus与一个简单的图灵测试启发的评估协议。 ATT没有依赖复杂的MOS刻度或直接的模型比较,而是要求评估人员判断声音是否听起来是人类的声音。 这种简化降低了评级偏差,提高了评估稳健性。 为了进一步支持快速模型开发,我们还将Qwen2-Audio-Instruct与人工判断数据作为自动评估的自动ATT进行微调。 实验结果表明,ATT通过其多维设计有效地区分了特定能力维度的模型。 Auto-ATT还证明了与人类评估的紧密配合,证实了其作为快速可靠的评估工具的价值。 白盒 ATT-Corpus 和 Auto-ATT 可以在 ATT Hugging Face Collection (https : / /huggingface.co/collections/meituan/audio-turing-test-6824463203648faeaf38a4)中找到。
近年来,神经网络已经变得无处不在,吉他失真效果建模。 尽管它们能够产生具有感知说服力的模型,但它们在高频和高增益输入驱动时容易受到频率别名的影响。 非线性激活函数既会产生所需的谐波失真,又产生不需要的别名失真,因为信号的带宽扩展超出了Nyquist频率。 在这里,我们提出了一种通过师生微调方法减少神经模型中别名的方法,其中教师是一个预先训练的模型,其权重被冻结,学生是具有可学习参数的副本。 学生对通过原始模型传递正弦并从输出光谱中去除非谐波组件生成的无别名数据集进行了微调。 我们的结果表明,这种方法显着抑制了长短期记忆网络(LSTM)和时间卷积网络(TCN)的别名。 在我们的大多数案例研究中,别名的减少大于两次过度抽样。 提议方法的一个副作用是谐波失真组件也受到影响。 这种不利影响被认为是与模型相关的,LSTM模型在抗锯齿和保持与模拟参考设备的感知相似性之间提供了最佳平衡。
视觉表示是机器人操纵策略学习和概括能力的核心。 虽然现有方法依赖于全局或致密的特征,但这种表示通常会纠缠于任务相关且不相关的场景信息,从而限制了分布变化下的鲁棒性。 在这项工作中,我们研究以对象为中心的表示(OCR)作为结构化替代方案,将视觉输入分割成一组完成的实体,引入与操作任务更自然地对齐的归纳偏差。 我们通过一系列模拟和现实世界的操纵任务对一系列视觉编码器(以对象为中心,全局和密集方法)进行基准测试,并从简单到复杂,并评估他们在各种视觉条件下的概括,包括照明,纹理和分心者的存在。 我们的研究结果表明,基于OCR的政策在概括环境中的表现优于密集和全球代表性,即使没有特定任务的预训练。 这些见解表明,OCR是设计视觉系统的一个有前途的方向,可以在动态的现实世界的机器人环境中有效地推广。
在过去的几十年里,人们对研究高维数据中的低维结构产生了浓厚的兴趣。 统计因子模型 - 即低等级加上对角线协方差结构 - 为建模此类结构提供了强大的框架。 然而,用于拟合统计因子模型的传统方法,如主成分分析(PCA)或假设数据为高斯的最大可能性估计,对观察到的数据中的重尾和异常值高度敏感。 在本文中,我们提出了一种新的期望最大化(EM)算法,用于稳健拟合统计因子模型。 我们的方法基于Tyler对椭圆分布的散点矩阵的M估计器,包括解决Tyler的最大可能性估计问题,同时施加结构约束,强制执行低等级加对角协方差结构。 我们介绍了合成和真实示例的数值实验,展示了我们在非均匀噪声和子空间恢复中到达方向估计方法的稳健性。
为了支持使用分散和异构计算资源的基于语言的新兴应用程序,混合语言模型(HLM)提供了一个有前途的架构,其中设备上的小语言模型(SLM)生成由远程大语言模型(LLM)验证和纠正的令牌草稿。 然而,最初的HLM遭受了大量的沟通开销,因为LLM要求SLM上传每个令牌的完整词汇分布。 此外,当LLM验证极有可能被接受的令牌时,通信和计算资源都会浪费。 为了克服这些限制,我们提出了通信高效和不确定性感知的HLM(CU-HLM)。 在CU-HLM中,SLM仅在输出不确定性高时传输截断的词汇分布。 我们通过发现SLM的不确定性与LLM的拒绝概率之间存在很强的相关性来验证这种机会性传播的可行性。 此外,我们理论上得出了最优的不确定性阈值和最优的词汇截断策略。 模拟结果表明,与标准HLM相比,CU-HLM通过跳过74.8保持97.4实现高达206×更高的代币吞吐量。
大型语言模型(LLM)的最新进展显着改善了文本到语音(TTS)系统,增强了对语音风格,自然性和情感表达的控制,这使TTS系统更接近人类水平的性能。 虽然平均意见评分(MOS)仍然是TTS系统评估的标准,但它受到主观性,环境不一致和有限的可解释性的影响。 现有的评估数据集也缺乏多维设计,往往忽略了说话风格、语境多样性和陷阱话语等因素,这在中国TTS评价中尤为明显。 为了应对这些挑战,我们引入了音频图灵测试(ATT),这是一个多维的中文语料库数据集ATT-Corpus与一个简单的图灵测试启发的评估协议。 ATT没有依赖复杂的MOS刻度或直接的模型比较,而是要求评估人员判断声音是否听起来是人类的声音。 这种简化降低了评级偏差,提高了评估稳健性。 为了进一步支持快速模型开发,我们还将Qwen2-Audio-Instruct与人工判断数据作为自动评估的自动ATT进行微调。 实验结果表明,ATT通过其多维设计有效地区分了特定能力维度的模型。 Auto-ATT还证明了与人类评估的紧密配合,证实了其作为快速可靠的评估工具的价值。 白盒 ATT-Corpus 和 Auto-ATT 可以在 ATT Hugging Face Collection (https : / /huggingface.co/collections/meituan/audio-turing-test-6824463203648faeaf38a4)中找到。
视觉表示是机器人操纵策略学习和概括能力的核心。 虽然现有方法依赖于全局或致密的特征,但这种表示通常会纠缠于任务相关且不相关的场景信息,从而限制了分布变化下的鲁棒性。 在这项工作中,我们研究以对象为中心的表示(OCR)作为结构化替代方案,将视觉输入分割成一组完成的实体,引入与操作任务更自然地对齐的归纳偏差。 我们通过一系列模拟和现实世界的操纵任务对一系列视觉编码器(以对象为中心,全局和密集方法)进行基准测试,并从简单到复杂,并评估他们在各种视觉条件下的概括,包括照明,纹理和分心者的存在。 我们的研究结果表明,基于OCR的政策在概括环境中的表现优于密集和全球代表性,即使没有特定任务的预训练。 这些见解表明,OCR是设计视觉系统的一个有前途的方向,可以在动态的现实世界的机器人环境中有效地推广。
在过去的几十年里,人们对研究高维数据中的低维结构产生了浓厚的兴趣。 统计因子模型 - 即低等级加上对角线协方差结构 - 为建模此类结构提供了强大的框架。 然而,用于拟合统计因子模型的传统方法,如主成分分析(PCA)或假设数据为高斯的最大可能性估计,对观察到的数据中的重尾和异常值高度敏感。 在本文中,我们提出了一种新的期望最大化(EM)算法,用于稳健拟合统计因子模型。 我们的方法基于Tyler对椭圆分布的散点矩阵的M估计器,包括解决Tyler的最大可能性估计问题,同时施加结构约束,强制执行低等级加对角协方差结构。 我们介绍了合成和真实示例的数值实验,展示了我们在非均匀噪声和子空间恢复中到达方向估计方法的稳健性。
想象一下,听到狗吠声,转向声音只看到一辆停放的汽车,而真正的,沉默的狗坐在别处。 这种感官冲突测试了感知,但人类通过优先考虑声音而不是误导性的视觉效果来可靠地解决它们。 尽管多模态AI集成了视觉和音频,但对这些系统如何处理跨模态冲突或它们是否偏爱一种模式知之甚少。 在这项研究中,我们系统地研究了AI声音本地化的模式偏见和冲突解决。 我们评估领先的多模态模型,并根据六个视听条件下的心理物理实验中的人类表现进行基准测试,包括一致,冲突,缺席的线索。 人类一直优于人工智能,通过依赖听觉信息,表现出对冲突或缺失视觉效果的卓越弹性。 相比之下,人工智能模型通常默认为视觉输入,将性能降低到接近机会水平。 为了解决这个问题,我们使用通过3D模拟生成的立体声音频图像数据集来微调最先进的模型。 即使训练数据有限,改进模型也超越了现有的基准。 值得注意的是,它还反映了人类般的水平定位偏差,由于立体声音频结构反映了人的耳朵放置,因此可能倾向于左向右精度。 这些发现强调了感官输入质量和系统架构如何塑造多模态表示精度。
状态空间模型(SSM)已被证明是用于在顺序数据中模拟远程依赖的强大工具。 虽然最近被称为HiPPO的方法已经显示出强劲的性能,并构成了机器学习模型S4和Mamba的基础,但它仍然受到一些特定,表现良好的基础的封闭式解决方案的限制。 SaFARi框架概括了这种方法,使SSM能够从任意帧(包括非正交和冗余框架)构建SSM,从而允许SSM家族中可能存在的“物种”的无限多样性。 在本文中,我们介绍了WaLRUS(使用SSM的远程表示的Wavelets),这是由Daucheies小波构建的SaFARi的新实现。
高效调整大型基础模型至关重要,特别是在计算和内存预算紧张的情况下。 参数效率微调(PEFT)方法,如LoRA,在低参数方案中提供有限的粒度和有效性。 我们提出了Wavelet Fine-Tuning(WaveFT),这是一种新颖的PEFT方法,可以在残余矩阵的小波域中学习高度稀疏的更新。 WaveFT允许精确控制可训练参数,提供细粒度的容量调整,并以极低的参数计数表现出色,可能远低于LoRA的最小值 - 非常适合极端参数效率的场景。 为了证明小波变换的效果,我们将WaveFT与一个名为SHiRA的特殊情况进行了比较,该特殊情况需要直接在权重域中应用稀疏更新。 WaveFT使用稳定扩散XL作为基线对图像的个性化文本到图像生成进行评估,显著优于LoRA和其他PEFT方法,特别是在低参数计数下;实现卓越的主体保真度,快速对齐和图像多样性。
近年来,视频内容的创建和消费显著增加。 制作引人入胜的内容需要精心策划视觉和音频元素。 虽然视觉提示策展,通过优化视角选择或后期编辑等技术,一直是媒体制作的核心,但其自然对应,音频,并没有经历同等的进步。 这通常会导致视觉和声学显著性之间的脱节。 为了弥补这一差距,我们引入了一项新任务:视觉引导的声学突出显示,旨在改变音频,以提供由随附视频引导的适当突出效果,最终创造更和谐的视听体验。 我们提出了一个灵活的、基于变压器的多模态框架来解决这项任务。 为了训练我们的模型,我们还引入了一个新的数据集 - 泥泞的混合数据集,利用电影中的细致音频和视频制作,这提供了一种自由监督的形式。 我们开发了一个伪数据生成过程来模拟混合不良的音频,通过三步过程来模拟现实世界的场景 - 分离,调整和重新混合。 我们的方法在定量和主观评估方面一直优于几个基线。 我们还系统地研究不同类型的上下文指导和数据集的难度水平的影响。 我们的项目页面在这里:https://wikichao.github.io/VisAH/。
对于所有经验水平的歌手来说,学习技术曲目中最艰巨的挑战之一是在passagio及其周围导航放置和声乐寄存器(胸部语音和头部语音寄存器之间的通道)。 特别是在流行音乐中,单个艺术家可以使用各种音色和纹理来实现所需的质量,因此很难确定歌手正在使用的声乐范围内的声音寄存器。 本文提出了两种方法,通过对mel-spectrogram图像的纹理特征的分析,将男性流行音乐的音频信号中的声乐寄存器进行分类。 此外,我们将讨论这些模型对语音分析工具的实际集成,并介绍一种名为AVRA的并发开发软件,称为自动声机分析。 我们提出的方法通过支持矢量机(SVM)和卷积神经网络(CNN)模型实现了声乐寄存器的一致分类,这支持了在更多语音类型和歌唱类型中提供更强大的分类可能性。
大规模随机访问是在下一代无线通信系统中实现超大规模连接的重要技术。 它旨在解决初始访问阶段的主要挑战,包括活跃用户检测(AUD)、信道估计(CE)和数据检测(DD)。 本文研究了大规模多输入多输出(MIMO)系统中的大规模访问,其中深度学习用于解决具有挑战性的AUD,CE和DD功能。 首先,我们引入了针对可变试点长度访问量身定做的Transformer-AUD方案。 这种方法将飞行员长度信息和空间相关性模块集成到基于变压器的探测器中,使单个模型能够跨各种试点长度和天线号进行概括。 接下来,我们提出了一个生成扩散模型(GDM)驱动的迭代CE和DD框架。 GDM采用评分功能来捕获大量MIMO通道和数据符号的后验分布。 分数函数的一部分是通过神经网络从通道数据集中学习的,而剩余的分数组件则通过应用符号前置星座分布和已知传输模型以封闭形式导出。 利用这些后验,我们设计了一个异步交替CE和DD框架,该框架采用预测校正器采样技术,在反向扩散过程中迭代生成通道估计和数据检测结果。 模拟结果表明,我们提出的方法在 AUD、CE 和 DD 方面显著优于基线方法。
目前的侵入性辅助技术旨在推断严重瘫痪患者的高维运动控制信号。 然而,他们面临着重大挑战,包括公众接受,寿命有限和商业化障碍。 与此同时,非侵入性替代品通常依赖于容易发生神器的信号,需要长时间的用户培训,并且难以为灵巧的任务提供强大的高维控制。 为了解决这些问题,本研究引入了一种新的以人为本的多模态AI方法,作为丢失的运动功能的智能补偿机制,这些功能可能使严重瘫痪的患者能够控制高维辅助设备,例如灵巧的机械臂,使用有限和非侵入性的输入。 与当前最先进的(SoTA)非侵入性方法相反,我们的上下文感知,多模态共享自治框架集成了深度强化学习算法,将有限的低维用户输入与实时环境感知相结合,实现对人类意图的自适应,动态和智能解释复杂的灵巧操作任务,例如选择和位置。 我们与超过50,000个计算机模拟事件进行合成用户训练的ARAS(用于在共享自治中放大有限输入的自适应强化学习)的结果证明了拟议的闭环人循环范式的首次成功实现,优于SoTA共享自治算法。 在零射击模拟到真实转移之后,对23个人类受试者进行了ARAS评估,证明了动态意图检测的高精度以及用于灵巧拾取和位置任务的平稳,稳定的3D轨迹控制。 ARAS用户研究实现了92.88辅助技术的高任务成功率。
Deepfake音频检测对于像孟加拉语这样的低资源语言具有挑战性,因为数据集有限和声学功能有限。 为了解决这个问题,我们介绍了BangalFake,一个孟加拉Deepfake音频数据集,有12,260个真实和13,260个deepfake话语。 合成语音使用SOTA文本到语音(TTS)模型生成,确保高自然度和质量。 我们通过定性和定量分析来评估数据集。 来自30位母语人士的平均意见评分(MOS)显示3.40(自然性)和4.01(可理解性)的稳健MOS。MFCC的t-SNE可视化突出了真正的与假的差异化挑战。 该数据集是推进孟加拉语深度伪造检测的关键资源,解决了低资源语言研究的局限性。
本文回顾了NTIRE 2025高效爆发HDR和修复挑战,旨在推进高效的多帧高动态范围(HDR)和恢复技术。 挑战基于一个新的RAW多帧融合数据集,包括九个嘈杂和错位的RAW帧,每个场景都有不同的曝光水平。 参与者的任务是开发能够有效地融合这些框架的解决方案,同时坚持严格的效率限制:不到3000万个模型参数和4.0万亿FLOP下的计算预算。 共有217名参与者注册,6个团队最终提交了有效的解决方案。 表现最好的方法实现了43.22 dB的PSNR,展示了该领域新方法的潜力。 本文全面概述了挑战,比较了拟议的解决方案,并作为研究人员和从业者在高效爆发HDR和恢复方面的宝贵参考。
我们提出了一个浅流匹配(SFM)机制,以增强粗细生成范式中基于流匹配(FM)的文本到语音(TTS)模型。 SFM 使用粗输出表示沿 FM 路径构造中间态。 在训练过程中,我们引入了正交投影方法,以适应性地确定这些状态的时间位置,并应用基于单段分段流的原则性构造策略。 SFM推理从中间状态而不是纯噪声开始,并将计算重点放在FM路径的后期阶段。 我们将 SFM 集成到多个 TTS 模型中,具有轻巧的 SFM 头。 实验表明,SFM在客观和主观评估中始终如一地提高了合成语音的自然性,同时在使用自适应步骤ODE求解器时显着降低了推理。 演示和代码可在https://ydqmkkx.github.io/SFMDemo/。
在这项研究中,我们提出了一种使用卷积神经网络在COVID-19 CT扫描中自动分割受感染肺区域的稳健方法。 该方法基于经过修改的U-Net架构,增强了注意力机制,数据增强和后处理技术。 它实现了0.8658的骷髅系数,平均值IoU为0.8316,优于其他方法。 该数据集来自公共存储库,并为多样性进行了增强。 成果表现出卓越的分割性能。 未来的工作包括扩展数据集,探索3D分割,并为临床部署准备模型。
单高光谱图像超分辨率(SHSR)旨在从低分辨率高光谱图像中恢复高分辨率图像。 最近,Visual Mamba模型在性能和计算效率之间实现了令人印象深刻的平衡。 然而,由于其1D扫描范式,该模型在图像生成过程中可能会受到潜在工件的影响。 为了解决这个问题,我们建议HSRMamba。 在保持Visual Mamba的计算效率的同时,我们引入了基于条带的扫描方案,以有效减少来自全球单向扫描的工件。 此外,HSRMamba使用小波分解来缓解高频空间特征和低频光谱特征之间的模态冲突,进一步提高了超分辨率性能。 广泛的实验表明,HSRMamba不仅在降低计算负载和模型尺寸方面表现出色,而且优于现有方法,实现了最先进的结果。
帕金森氏症(PD)构成了日益严重的全球健康挑战,孟加拉国与PD相关的死亡率显着上升。 在资源受限的环境中,早期发现PD仍然特别具有挑战性,其中基于语音的分析已成为一种有前途的非侵入性和具有成本效益的替代品。 然而,现有的研究主要集中在英语或其他主要语言;值得注意的是,孟加拉语没有PD的语音数据集 - 对文化包容性和可访问的医疗保健解决方案构成了重大障碍。 此外,大多数先前的研究只采用了一组狭窄的声学特征,有限或没有超参数调谐和特征选择策略,并且很少关注模型可解释性。 这限制了稳健和可推广的机器学习模型的开发。 为了解决这一差距,我们介绍了BenSparX,第一个用于PD检测的孟加拉语会话语音数据集,以及为早期诊断量身定制的健壮且可解释的机器学习框架。 拟议的框架包括不同的声学特征类别,系统特征选择方法和最先进的机器学习算法,具有广泛的超参数优化。 此外,为了增强模型预测的可解释性和信任性,该框架集成了SHAP(Sapley Additive ExPlanations)分析,以量化单个声学特征对PD检测的贡献。 我们的框架实现了最先进的性能,通过将框架应用于其他语言的现有PD数据集,使95.77的准确性得到了外部验证,其始终优于最先进的方法。 为了便于进一步研究和可重复性,该数据集已在https : / /github.com/Riad071/BenSParX上公开提供。
自我监督学习(SSL)模型为声音事件检测(SED)提供了强大的表示,但它们的协同潜力仍然没有得到探索。 本研究系统地评估最先进的SSL模型,以指导SED的最佳模型选择和集成。 我们提出了一个框架,通过三种融合策略将异构 SSL 表示(例如 BEATs、HuBERT、WavLM)结合起来:单独的 SSL 嵌入集成、双模融合和完全聚合。 DCASE 2023任务4挑战赛的实验揭示,双模融合(例如,CRNN+BEATs+WavLM)实现了互补的性能提升,而仅CRNN+BEATs仅在单个SSL模型中提供最佳效果。 我们进一步引入了标准化的声音事件边界框(nSEBBs),这是一种自适应后处理方法,可以动态调整事件边界预测,将PSDS1改进为多达4个独立的SSL模型。 这些发现突出了SSL架构的兼容性和互补性,为特定任务的融合和强大的SED系统设计提供了指导。
评估视频游戏图形的视觉质量提出了独特的挑战,由于缺乏参考图像和不同类型的失真,如别名,纹理模糊和细节的几何水平(LOD)问题,这些问题不同于自然图像或用户生成的内容。 现有的无参考图像和视频质量评估(NR-IQA/VQA)方法无法推广到游戏环境,因为它们主要用于压缩工件等失真。 这项研究引入了一种语义感知的NR-IQA模型,该模型为游戏量身定制。 该模型使用知识蒸馏游戏失真功能提取器(GDFE)来检测和量化特定于游戏的失真,同时通过CLIP嵌入将语义闸获取集成到基于场景内容的动态权重特征重要性。 跨图形质量预设记录的游戏数据训练使模型能够产生与人类感知一致的高质量分数。 我们的结果表明,通过二进制分类器的知识蒸馏训练的GDFE有效地推广到训练过程中看不见的中间失真水平。 语义闸门进一步提高了上下文相关性,减少了预测方差。 在缺乏域内NR-IQA基线的情况下,我们的模型优于域外方法,并在同一类型中展示了看不见的游戏的稳健,单调的质量趋势。 这项工作为游戏中的自动化图形质量评估奠定了基础,并在这一领域推进了NR-IQA方法。
在广泛的数据集上预训练的基础模型,通过提供适用于各个领域(包括医学成像诊断)的强大和可转移的嵌入,具有显着的先进机器学习。 本研究评估了从通用和医疗领域特定基础模型中衍生的嵌入的效用,用于在多类放射学分类中训练轻量级适配器模型,特别关注管放置评估。 包含8842个放射线图分为七个不同类别的数据集,用于使用六个基础模型提取嵌入:DenseNet121,BiomedCLIP,Med-Flamingo,MedImageInsight,Rad-DINO和CXR-Foundation。 随后使用经典的机器学习算法训练适配器模型。 在这些组合中,MedImageInsight与支持矢量机适配器配对的嵌入在Rad-DINO的93.8(91.1 DenseNet121)下产生了曲线下的最高平均面积(mAUC),分别为83.0的mAUC分数,而Med-Flamingo在75.1下提供最低性能,值得注意的是,大多数适配器模型都证明了计算效率,在一分钟内实现训练并在几秒钟内对CPU进行推理,强调了其实用性。 此外,对在MedImageInsight衍生的嵌入上训练的适配器的公平性分析表明差异很小,不同年龄组之间在2个偏差内的性别差异不超过3个基础模型嵌入 - 特别是来自MedImageInsight促进准确,计算高效和公平的诊断分类使用轻量级适配器进行放射图像分析。
蜂窝网络需要严格的安全程序和措施,从核心到无线电接入网络(RAN)和最终用户设备。 随着网络变得越来越复杂和相互关联,如在O-RAN部署中,它们面临着许多安全威胁。 因此,确保强大的安全性对于 O-RAN 保护网络完整性和保护用户数据至关重要。 这需要严格的测试方法来减轻威胁。 本文介绍了基于 RAN 的自动化、自适应和可扩展的用户设备 (UE) 安全测试框架,旨在解决现有 RAN 测试解决方案的缺点。 使用商用现成硬件和开源软件构建的5G软件无线电测试台的实验结果验证了RAN Tester UE框架上开发的示例安全测试程序的效率和可重复性。