大型语言模型(LLM)的最新进展显着改善了文本到语音(TTS)系统,增强了对语音风格,自然性和情感表达的控制,这使TTS系统更接近人类水平的性能。 虽然平均意见评分(MOS)仍然是TTS系统评估的标准,但它受到主观性,环境不一致和有限的可解释性的影响。 现有的评估数据集也缺乏多维设计,往往忽略了说话风格、语境多样性和陷阱话语等因素,这在中国TTS评价中尤为明显。 为了应对这些挑战,我们引入了音频图灵测试(ATT),这是一个多维的中文语料库数据集ATT-Corpus与一个简单的图灵测试启发的评估协议。 ATT没有依赖复杂的MOS刻度或直接的模型比较,而是要求评估人员判断声音是否听起来是人类的声音。 这种简化降低了评级偏差,提高了评估稳健性。 为了进一步支持快速模型开发,我们还将Qwen2-Audio-Instruct与人工判断数据作为自动评估的自动ATT进行微调。 实验结果表明,ATT通过其多维设计有效地区分了特定能力维度的模型。 Auto-ATT还证明了与人类评估的紧密配合,证实了其作为快速可靠的评估工具的价值。 白盒 ATT-Corpus 和 Auto-ATT 可以在 ATT Hugging Face Collection (https : / /huggingface.co/collections/meituan/audio-turing-test-6824463203648faeaf38a4)中找到。
近年来,神经网络已经变得无处不在,吉他失真效果建模。 尽管它们能够产生具有感知说服力的模型,但它们在高频和高增益输入驱动时容易受到频率别名的影响。 非线性激活函数既会产生所需的谐波失真,又产生不需要的别名失真,因为信号的带宽扩展超出了Nyquist频率。 在这里,我们提出了一种通过师生微调方法减少神经模型中别名的方法,其中教师是一个预先训练的模型,其权重被冻结,学生是具有可学习参数的副本。 学生对通过原始模型传递正弦并从输出光谱中去除非谐波组件生成的无别名数据集进行了微调。 我们的结果表明,这种方法显着抑制了长短期记忆网络(LSTM)和时间卷积网络(TCN)的别名。 在我们的大多数案例研究中,别名的减少大于两次过度抽样。 提议方法的一个副作用是谐波失真组件也受到影响。 这种不利影响被认为是与模型相关的,LSTM模型在抗锯齿和保持与模拟参考设备的感知相似性之间提供了最佳平衡。
想象一下,听到狗吠声,转向声音只看到一辆停放的汽车,而真正的,沉默的狗坐在别处。 这种感官冲突测试了感知,但人类通过优先考虑声音而不是误导性的视觉效果来可靠地解决它们。 尽管多模态AI集成了视觉和音频,但对这些系统如何处理跨模态冲突或它们是否偏爱一种模式知之甚少。 在这项研究中,我们系统地研究了AI声音本地化的模式偏见和冲突解决。 我们评估领先的多模态模型,并根据六个视听条件下的心理物理实验中的人类表现进行基准测试,包括一致,冲突,缺席的线索。 人类一直优于人工智能,通过依赖听觉信息,表现出对冲突或缺失视觉效果的卓越弹性。 相比之下,人工智能模型通常默认为视觉输入,将性能降低到接近机会水平。 为了解决这个问题,我们使用通过3D模拟生成的立体声音频图像数据集来微调最先进的模型。 即使训练数据有限,改进模型也超越了现有的基准。 值得注意的是,它还反映了人类般的水平定位偏差,由于立体声音频结构反映了人的耳朵放置,因此可能倾向于左向右精度。 这些发现强调了感官输入质量和系统架构如何塑造多模态表示精度。
状态空间模型(SSM)已被证明是用于在顺序数据中模拟远程依赖的强大工具。 虽然最近被称为HiPPO的方法已经显示出强劲的性能,并构成了机器学习模型S4和Mamba的基础,但它仍然受到一些特定,表现良好的基础的封闭式解决方案的限制。 SaFARi框架概括了这种方法,使SSM能够从任意帧(包括非正交和冗余框架)构建SSM,从而允许SSM家族中可能存在的“物种”的无限多样性。 在本文中,我们介绍了WaLRUS(使用SSM的远程表示的Wavelets),这是由Daucheies小波构建的SaFARi的新实现。
使用非破坏性方法确定菠萝的保质期质量是减少浪费和增加收入的关键一步。 在本文中,构建了一个多模态和多视图分类模型,根据音频和视觉特征将菠萝分为四个质量级别。 为了研究目的,我们编译并发布了PQC500数据集,由500个菠萝组成,有两种模式:一种是利用菠萝通过多个麦克风记录声音,另一种是在不同地点由多个摄像头拍摄照片,提供多模态和多视图视听功能。 我们修改了对比式视听遮蔽自动解码器,通过丰富的音频和视觉对组合来训练基于跨模态的分类模型。 此外,我们建议对训练数据进行紧凑大小的采样,以实现高效计算。 实验在各种数据和模型配置下进行了评估,结果表明,使用音频主采样训练的拟议跨模态模型可以产生84个,优于仅音频和仅视觉的单模态模型,分别达到6个。
大型语言模型(LLM)的最新进展显着改善了文本到语音(TTS)系统,增强了对语音风格,自然性和情感表达的控制,这使TTS系统更接近人类水平的性能。 虽然平均意见评分(MOS)仍然是TTS系统评估的标准,但它受到主观性,环境不一致和有限的可解释性的影响。 现有的评估数据集也缺乏多维设计,往往忽略了说话风格、语境多样性和陷阱话语等因素,这在中国TTS评价中尤为明显。 为了应对这些挑战,我们引入了音频图灵测试(ATT),这是一个多维的中文语料库数据集ATT-Corpus与一个简单的图灵测试启发的评估协议。 ATT没有依赖复杂的MOS刻度或直接的模型比较,而是要求评估人员判断声音是否听起来是人类的声音。 这种简化降低了评级偏差,提高了评估稳健性。 为了进一步支持快速模型开发,我们还将Qwen2-Audio-Instruct与人工判断数据作为自动评估的自动ATT进行微调。 实验结果表明,ATT通过其多维设计有效地区分了特定能力维度的模型。 Auto-ATT还证明了与人类评估的紧密配合,证实了其作为快速可靠的评估工具的价值。 白盒 ATT-Corpus 和 Auto-ATT 可以在 ATT Hugging Face Collection (https : / /huggingface.co/collections/meituan/audio-turing-test-6824463203648faeaf38a4)中找到。
想象一下,听到狗吠声,转向声音只看到一辆停放的汽车,而真正的,沉默的狗坐在别处。 这种感官冲突测试了感知,但人类通过优先考虑声音而不是误导性的视觉效果来可靠地解决它们。 尽管多模态AI集成了视觉和音频,但对这些系统如何处理跨模态冲突或它们是否偏爱一种模式知之甚少。 在这项研究中,我们系统地研究了AI声音本地化的模式偏见和冲突解决。 我们评估领先的多模态模型,并根据六个视听条件下的心理物理实验中的人类表现进行基准测试,包括一致,冲突,缺席的线索。 人类一直优于人工智能,通过依赖听觉信息,表现出对冲突或缺失视觉效果的卓越弹性。 相比之下,人工智能模型通常默认为视觉输入,将性能降低到接近机会水平。 为了解决这个问题,我们使用通过3D模拟生成的立体声音频图像数据集来微调最先进的模型。 即使训练数据有限,改进模型也超越了现有的基准。 值得注意的是,它还反映了人类般的水平定位偏差,由于立体声音频结构反映了人的耳朵放置,因此可能倾向于左向右精度。 这些发现强调了感官输入质量和系统架构如何塑造多模态表示精度。
状态空间模型(SSM)已被证明是用于在顺序数据中模拟远程依赖的强大工具。 虽然最近被称为HiPPO的方法已经显示出强劲的性能,并构成了机器学习模型S4和Mamba的基础,但它仍然受到一些特定,表现良好的基础的封闭式解决方案的限制。 SaFARi框架概括了这种方法,使SSM能够从任意帧(包括非正交和冗余框架)构建SSM,从而允许SSM家族中可能存在的“物种”的无限多样性。 在本文中,我们介绍了WaLRUS(使用SSM的远程表示的Wavelets),这是由Daucheies小波构建的SaFARi的新实现。
近年来,视频内容的创建和消费显著增加。 制作引人入胜的内容需要精心策划视觉和音频元素。 虽然视觉提示策展,通过优化视角选择或后期编辑等技术,一直是媒体制作的核心,但其自然对应,音频,并没有经历同等的进步。 这通常会导致视觉和声学显著性之间的脱节。 为了弥补这一差距,我们引入了一项新任务:视觉引导的声学突出显示,旨在改变音频,以提供由随附视频引导的适当突出效果,最终创造更和谐的视听体验。 我们提出了一个灵活的、基于变压器的多模态框架来解决这项任务。 为了训练我们的模型,我们还引入了一个新的数据集 - 泥泞的混合数据集,利用电影中的细致音频和视频制作,这提供了一种自由监督的形式。 我们开发了一个伪数据生成过程来模拟混合不良的音频,通过三步过程来模拟现实世界的场景 - 分离,调整和重新混合。 我们的方法在定量和主观评估方面一直优于几个基线。 我们还系统地研究不同类型的上下文指导和数据集的难度水平的影响。 我们的项目页面在这里:https://wikichao.github.io/VisAH/。
对于所有经验水平的歌手来说,学习技术曲目中最艰巨的挑战之一是在passagio及其周围导航放置和声乐寄存器(胸部语音和头部语音寄存器之间的通道)。 特别是在流行音乐中,单个艺术家可以使用各种音色和纹理来实现所需的质量,因此很难确定歌手正在使用的声乐范围内的声音寄存器。 本文提出了两种方法,通过对mel-spectrogram图像的纹理特征的分析,将男性流行音乐的音频信号中的声乐寄存器进行分类。 此外,我们将讨论这些模型对语音分析工具的实际集成,并介绍一种名为AVRA的并发开发软件,称为自动声机分析。 我们提出的方法通过支持矢量机(SVM)和卷积神经网络(CNN)模型实现了声乐寄存器的一致分类,这支持了在更多语音类型和歌唱类型中提供更强大的分类可能性。
Deepfake音频检测对于像孟加拉语这样的低资源语言具有挑战性,因为数据集有限和声学功能有限。 为了解决这个问题,我们介绍了BangalFake,一个孟加拉Deepfake音频数据集,有12,260个真实和13,260个deepfake话语。 合成语音使用SOTA文本到语音(TTS)模型生成,确保高自然度和质量。 我们通过定性和定量分析来评估数据集。 来自30位母语人士的平均意见评分(MOS)显示3.40(自然性)和4.01(可理解性)的稳健MOS。MFCC的t-SNE可视化突出了真正的与假的差异化挑战。 该数据集是推进孟加拉语深度伪造检测的关键资源,解决了低资源语言研究的局限性。
我们提出了一个浅流匹配(SFM)机制,以增强粗细生成范式中基于流匹配(FM)的文本到语音(TTS)模型。 SFM 使用粗输出表示沿 FM 路径构造中间态。 在训练过程中,我们引入了正交投影方法,以适应性地确定这些状态的时间位置,并应用基于单段分段流的原则性构造策略。 SFM推理从中间状态而不是纯噪声开始,并将计算重点放在FM路径的后期阶段。 我们将 SFM 集成到多个 TTS 模型中,具有轻巧的 SFM 头。 实验表明,SFM在客观和主观评估中始终如一地提高了合成语音的自然性,同时在使用自适应步骤ODE求解器时显着降低了推理。 演示和代码可在https://ydqmkkx.github.io/SFMDemo/。
帕金森氏症(PD)构成了日益严重的全球健康挑战,孟加拉国与PD相关的死亡率显着上升。 在资源受限的环境中,早期发现PD仍然特别具有挑战性,其中基于语音的分析已成为一种有前途的非侵入性和具有成本效益的替代品。 然而,现有的研究主要集中在英语或其他主要语言;值得注意的是,孟加拉语没有PD的语音数据集 - 对文化包容性和可访问的医疗保健解决方案构成了重大障碍。 此外,大多数先前的研究只采用了一组狭窄的声学特征,有限或没有超参数调谐和特征选择策略,并且很少关注模型可解释性。 这限制了稳健和可推广的机器学习模型的开发。 为了解决这一差距,我们介绍了BenSparX,第一个用于PD检测的孟加拉语会话语音数据集,以及为早期诊断量身定制的健壮且可解释的机器学习框架。 拟议的框架包括不同的声学特征类别,系统特征选择方法和最先进的机器学习算法,具有广泛的超参数优化。 此外,为了增强模型预测的可解释性和信任性,该框架集成了SHAP(Sapley Additive ExPlanations)分析,以量化单个声学特征对PD检测的贡献。 我们的框架实现了最先进的性能,通过将框架应用于其他语言的现有PD数据集,使95.77的准确性得到了外部验证,其始终优于最先进的方法。 为了便于进一步研究和可重复性,该数据集已在https : / /github.com/Riad071/BenSParX上公开提供。
自我监督学习(SSL)模型为声音事件检测(SED)提供了强大的表示,但它们的协同潜力仍然没有得到探索。 本研究系统地评估最先进的SSL模型,以指导SED的最佳模型选择和集成。 我们提出了一个框架,通过三种融合策略将异构 SSL 表示(例如 BEATs、HuBERT、WavLM)结合起来:单独的 SSL 嵌入集成、双模融合和完全聚合。 DCASE 2023任务4挑战赛的实验揭示,双模融合(例如,CRNN+BEATs+WavLM)实现了互补的性能提升,而仅CRNN+BEATs仅在单个SSL模型中提供最佳效果。 我们进一步引入了标准化的声音事件边界框(nSEBBs),这是一种自适应后处理方法,可以动态调整事件边界预测,将PSDS1改进为多达4个独立的SSL模型。 这些发现突出了SSL架构的兼容性和互补性,为特定任务的融合和强大的SED系统设计提供了指导。
音乐以各种方式存在,如乐谱图像,符号分数,MIDI和音频。 每种模式之间的翻译被确立为音乐信息检索的核心任务,例如自动音乐转录(音频到MIDI)和光学音乐识别(分数图像到符号乐谱)。 然而,过去大多数关于多式联运翻译的工作都培训了个别翻译任务的专门模型。 在本文中,我们提出了一个统一的方法,我们同时对许多翻译任务进行通用模型。 两个关键因素使这种统一的方法可行:一个新的大规模数据集和每种模式的标记化。 首先,我们提出了一个新的数据集,由从YouTube视频收集的超过1300小时的配对音频分数图像数据组成,这比任何现有的音乐模态翻译数据集都大一个数量级。 其次,我们的统一令牌化框架将分数图像,音频,MIDI和MusicXML分为一系列令牌,使单个编码器解码器Transformer能够将多个跨模态翻译作为一致序列到序列的任务处理。 实验结果证实,我们统一的多任务模型在几个关键领域的单任务基线上有所改善,特别是将光学音乐识别的符号错误率从24.58降低,同时在其他翻译任务中观察到类似的实质性改进。 值得注意的是,我们的方法实现了第一个成功的得分图像条件音频生成,标志着跨模态音乐生成的重大突破。
尽管语音和音乐在自我监督学习(SSL)方面取得了进展,但现有模型单独处理这些领域,限制了它们统一音频理解的能力。 对于需要一般表示的应用程序,例如音频大语言模型,统一模型是可取的。 尽管如此,直接训练语音和音乐的一般模型在计算上是昂贵的。 教师合奏的知识蒸馏可能是一个自然的解决方案,但我们认为,解耦语音和音乐SSL模型的蒸馏允许更多的灵活性。 因此,我们建议学习蒸馏任务向量,然后线性插值它们,形成一个统一的语音+音乐模型。 这种策略通过可调权重实现灵活的域强调,并且训练起来也更简单。 关于语音和音乐基准的实验表明,与合奏蒸馏相比,我们的方法具有卓越的整体性能。
这项研究探讨了使用分段语音声音的声学特征来检测深度伪造音频的潜力。 这些功能具有高度可解释性,因为它们与人类的发音过程有着密切的关系,并且预计deepfake模型将更难复制。 结果表明,法医语音比较中常用的某些分段特征在识别深度伪造方面是有效的,而一些全局特征几乎没有价值。 这些发现强调了在法医语音比较中以不同的方式处理音频deepfake检测的必要性,并为为此目的利用分段功能提供了新的视角。
尽管取得了巨大进步,但通过灵活和可解释的控制实现高保真情绪语音转换(EVC)仍然具有挑战性。 本文介绍了ClapFM-EVC,这是一种新颖的EVC框架,能够产生由自然语言提示或具有可调节情绪强度的参考语音驱动的高质量转换语音。 我们首先提出EVC-CLAP,这是一种情感对比语言-音频预训练模型,以自然语言提示和分类标签为指导,以提取和排列跨语音和文本模式的细粒度情感元素。 然后,具有自适应强度门的FuEncoder通过预训练的ASR模型的Phonetic PosteriorGrams无缝融合情感特征。 为了进一步提高情感表达力和言语自然性,我们提出了一个以这些捕获特征为条件的流动匹配模型,以重建源语音的Mel-spectrogram。 主观和客观的评价证实了ClapFM-EVC的有效性。
我们介绍了PAST,一个新的端到端框架,将语音信息与信号重建联合建模,消除了对外部预训练模型的需求。 与以前依赖预训练自我监督模型的方法不同,PAST采用监督语音数据,通过辅助任务将域知识直接集成到令牌化过程中。 此外,我们还引入了一个可流的、可动态的 PAST 因果变体,实现了实时语音应用。 结果表明,PAST在通用评估指标(包括语音表示和语音重建)中超越了现有的评估基线标记。 值得注意的是,PAST在作为语音语言模型的语音表示时也取得了卓越的表现,进一步突出了其作为口语生成基础的有效性。 为了促进进一步研究,我们发布了完整的实施。 有关代码、模型检查点和样本,请参阅:https://pages.cs.huji.ac.il/adiyoss-lab/PAST
大型音频语言模型(LALM)扩展了大型语言模型,具有语音,音频等多模态理解。 虽然他们在语音和音频处理任务上的表现被广泛研究,但他们的推理能力仍然没有得到探索。 特别是,他们的多跳推理,回忆和整合多个事实的能力,缺乏系统的评价。 现有的基准侧重于一般语音和音频处理任务,会话能力和公平性,但忽略了这一方面。 为了弥补这一差距,我们引入了SAKURA,这是一个基于语音和音频信息评估LALMs多跳推理的基准。 结果表明,LALM很难整合语音/音频表示进行多跳推理,即使它们正确地提取相关信息,也突出了多模态推理中的基本挑战。 我们的研究结果揭示了LALM的关键限制,为未来的研究提供了见解和资源。
自我监督学习(SSL)的最新发展已经证明了扬声器验证(SV)的巨大潜力,但缩小与监督系统的性能差距仍然是一个持续的挑战。 标准SSL框架依赖于从相同的音频语音中提取的锚阳性对。 因此,正向具有与其相应锚点相似的通道特征,即使具有广泛的数据增强。 因此,这种积极的采样策略是一个基本的限制,因为它在学习表示中编码了太多有关记录源的信息。 本文介绍了自我监督正采样(SSPS),这是一种用于在SSL框架中采样适当和多样化的正数的引导技术。 SSPS在表示空间中近距离采样阳性,假设这些伪阳性属于相同的扬声器身份,但对应于不同的记录条件。 该方法在主要 SSL 框架(如 SimCLR、SwAV、 VICReg 和 DINO)中实现 VoxCeleb 基准时,展示了 SV 性能的一致改进。 使用 SSPS、SimCLR 和 DINO 实现 2.57 VoxCeleb1-O。 SimCLR 通过更简单的训练框架为 DINO 带来 58 的性能。 此外,SSPS 降低了类内方差,减少了扬声器表示中的通道信息,同时在没有数据增强的情况下表现出更大的稳健性。
本文介绍了AquaSignal,这是一种模块化和可扩展的管道,用于水下声学信号的预处理,去噪,分类和新奇检测。 AquaSignal 专为在嘈杂和动态海洋环境中有效运行而设计,集成了最先进的深度学习架构,可增强声学信号分析的可靠性和准确性。 该系统在Deepship和加拿大海洋网络(ONC)基准的综合数据集上进行评估,提供了一组不同的真实世界的水下场景。 AquaSignal采用U-Net架构进行去角化,ResNet18卷积神经网络用于对已知声学事件进行分类,以及基于AutoEncoder的模型,用于无监督检测新奇或异常信号。 据我们所知,这是第一个应用和评估海上船舶声学数据技术组合的综合研究。 实验结果表明,AquaSignal提高了信号清晰度和任务性能,实现了71次检测。 尽管与一些最先进的模型相比,分类性能略低,但数据分区策略的差异限制了直接比较。 总体而言,AquaSignal在科学,环境和海事领域展示了实时水下声学监测的强大潜力。
现有的因果语态分离模型往往由于保留历史信息的困难而与非因果模型相比表现不佳。 为了解决这个问题,我们提出了时间频率注意缓存内存(TFACM)模型,该模型通过注意力机制和用于历史信息存储的缓存内存(CM)有效地捕获时空关系。 在TFACM中,LSTM层捕获频率相对位置,而因果建模则使用局部和全局表示应用于时间维度。 CM模块存储过去的信息,因果注意力改进(CAR)模块进一步增强了基于时间的特征表示,以实现更精细的粒度。 实验结果表明,TFACM取得了与SOTA TF-GridNet-Causal模型相当的性能,其复杂度显著降低,可训练参数也更少。 详情请访问项目页面:https : / /cslikai.cn/TFACM / 。
我们展示了一个新颖且实际重要的问题 - 地理 - 背景声景景观(GeoS2L)一代 - 旨在从环境声景中综合地理上逼真的景观图像。 以前的音频到图像生成方法通常依赖于通用数据集,而忽略了地理和环境环境,导致不切实际的图像与现实世界的环境环境环境错位。 为了解决这一限制,我们引入了一种新的地理-上下文计算框架,该框架明确地将地理知识集成到多模态生成建模中。 我们构建了两个大型地理环境多模态数据集,SoundingSVI和SonicUrban,将多样化的声景与现实世界的景观图像配对。 我们提出了SounaDiT,一种基于Diffusion Transformer(DiT)的新型模型,该模型结合了地理环境场景调节,以合成地理上一致的景观图像。 此外,我们提出了一个实际知情的地理环境评估框架,即Place Similarity Score(PSS),跨越元素,场景和人类感知水平,以测量输入声景和生成的景观图像之间的一致性。 广泛的实验表明,SourDiT在视觉保真度和地理设置方面都优于现有的基线。 我们的工作不仅为GeoS2L生成建立了基础基准,而且还强调了将地理领域知识纳入推进多模态生成模型的重要性,在生成式AI,地理,城市规划和环境科学的交叉点开辟新的方向。
目前的语音-LLM在上下文推理和狭义理解方面表现出有限的能力,主要是由于缺乏涵盖这两个方面的问题答案(QA)数据集。 我们提出了从野生语音数据中生成数据集的新框架,该框架将上下文推理与辅助语言信息集成在一起。 它由基于语言语言标签的伪数据冷凝和基于LLM的情境性Paralinguistic QA(CPQA)生成组成。 通过在我们的框架和人类生成的CPQA数据集上创建的数据集上Qwen2-Audio-7B-Instruct模型的评估中,有效性得到了验证。 结果还揭示了语音-LLM在处理移情推理任务方面的局限性,突出了对此类数据集和更强大模型的需求。 拟议的框架首先是此类框架,具有训练具有辅助推理能力的更强大的语音LLM的潜力。