计算机科学
Computer Science
人工智能
Artificial Intelligence
计算与语言
Computation and Language
计算复杂性
Computational Complexity
WaveRoll是一个交互式JavaScript库,可以在浏览器上实现多个MIDI钢琴卷的比较可视化和同步播放。 它解决了自动音乐抄写(AMT)中的特定评估需求,对比了从同一输入产生的多个MIDI输出。 该库在具有同步音频的单个时间对齐的网格上显示多个MIDI轨道,允许用户比较音高和时序,识别错过或额外的音符,并观察发作和偏移差异以及部分级模式。 我们预计这种比较将有助于模型评估和错误分析,并帮助读者更好地理解模型行为。 开放源代码库可在https://github.com/crescent-stdio/wave-roll查阅。
虚拟会议的语言障碍仍然是全球合作的一个持续挑战。 实时翻译提供了希望,但目前的集成往往忽略了感知线索。 这项研究调查了翻译语音的空间音频渲染如何影响多语言会议的理解,认知负荷和用户体验。 我们进行了一个主题内部实验,有8个双语联盟和47名参与者模拟全球团队会议,使用希腊语,卡纳达语,普通话汉语和乌克兰语的英语翻译 - 因其在语法,脚本和资源可用性方面的多样性而被选中。 参与者经历了四种音频条件:有和没有背景混响的空间音频,以及两种非空间配置(二极管,单声道)。 我们测量了听众理解的准确性、工作负载评分、满意度得分和定性反馈。 与非空间音频相比,空间渲染翻译的理解加倍。 参与者报告说,当存在空间线索和声音音色差异时,更清晰和参与。 我们讨论将实时翻译集成到会议平台的设计影响,在远程呈现系统中推进包容性跨语言通信。
将大型生成模型与人类反馈保持一致是一项关键挑战。 在语音合成中,由于缺乏大规模的人类偏好数据集,这尤其明显,这阻碍了真正与人类感知一致的模型的发展。 为了解决这个问题,我们引入了SpeechJudge,这是一个全面的套件,包括一个数据集,一个基准和一个以自然为中心的奖励模型 - 语音合成最基本的主观指标之一。 首先,我们介绍了SpeechJudge-Data,这是一个由99K语音对组成的大规模人类反馈语料库。 该数据集使用一组不同的语音风格和多种语言的多样化高级文本到语音(TTS)模型构建,具有可理解性和自然性偏好的人体注释。 由此,我们建立了SpeechJudge-Eval,一个具有挑战性的语音自然性判断基准。 我们的评估表明,现有的指标和AudioLLM与这项任务作斗争;领先的模型Gemini-2.5-Flash与人类判断的一致不到70%,突出了改进的重大差距。 为了弥补这一差距,我们开发了基于Qwen2.5-Omni-7B的生成式奖励模型(GRM)。 它通过两阶段后培训过程在SpeechJudge-Data上进行培训:监督微调(SFT),具有思想链原理,然后是强化学习(RL)和GRPO关于具有挑战性的案例。 在SpeechJudge-Eval基准测试中,与经典的Bradley-Terry奖励模型(72.7%)相比,SpeechJudge-GRM表现出卓越的性能,实现了77.2%的准确率(在推理时间缩放@10后达到79.4%)。 此外,SpeechJudge-GRM还可以在语音生成模型训练后用作奖励功能,以促进其与人类偏好的一致。
语音大语言模型(SpeechLLMs)在多语言语音到文本翻译(S2TT)方面取得了突破。 然而,现有的方法往往忽略了源语言的语义共性,导致有偏见的翻译性能。 在这项工作中,我们提出了POTSA(语音对齐的平行最佳传输),这是一个基于跨语言并行语音对和最优传输(OT)的新框架,旨在弥合高和低资源翻译差距。 首先,我们引入了一个Bias Compensation模块,以粗糙地对齐跨语言的初始语音表示。 其次,我们将令牌级别的OT约束施加在Q-Former上,使用并行语音对来建立细粒度的一致性。 然后,我们应用一个层调度策略,将OT约束集中在语义上最有利的层。 FLEURS数据集的实验表明,我们的方法实现了SOTA性能,平均超过五种常用语言的+0.93 BLEU和零射语言的+5.05 BLEU,每源语言仅使用10小时的并行语音。
尖峰神经网络(SNN)通过利用其事件驱动的处理范式,为节能语音命令识别(SCR)提供了一条有希望的途径。 然而,由于有限的时间建模和基于二进制的尖峰表示,现有的基于SNN的SCR方法通常难以从语音中捕获丰富的时间依赖性和上下文信息。 为了应对这些挑战,我们首先介绍了多视图尖刻时间感知自注意(MSTASA)模块,该模块将有效的尖刻时间感知注意力与多视图学习框架相结合,以模拟语音命令中的互补时间依赖关系。 在MSTASA的基础上,我们进一步提出了SpikCommander,这是一种完全尖峰驱动的变压器架构,将MTASA与尖峰上下文细化通道MLP(SCR-MLP)集成在一起,共同增强时间上下文建模和通道智能功能集成。 我们在三个基准数据集上评估我们的方法:Spiking Heidelberg Dataset(SHD)、Spiking Speech Commands(SSC)和Google Speech Commands V2(GSC)。 广泛的实验表明,SpikCommander在可比时间步骤下的参数较少的情况下,一直优于最先进的(SOTA)SNN方法,突出了其有效性和效率,以实现强大的语音命令识别。
音乐混合涉及将单个轨道组合成一个有凝聚力的混合物,这是一个以主观性为特征的任务,其中存在多个有效的解决方案用于相同的输入。 现有的自动混合系统将这项任务视为确定性回归问题,从而忽略了这种多种解决方案。 在这里,我们介绍了MEGAMI(Multitrack Embedding Generative Auto Mixing),这是一个生成框架,用于模拟未处理轨道的专业混合的有条件分布。 MEGAMI使用基于每个轨道生成的嵌入的轨迹无关效果处理器,通过排列等效架构处理任意未标记的轨道,并通过域适应实现干和湿录音的培训。 我们使用分配指标的客观评估显示了对现有方法的一致改进,而听力测试表明,不同音乐类型的表演接近人类水平的质量。
第三届关于艺术可解释AI(XAIxArts)的国际研讨会汇集了HCI,交互设计,AI,可解释AI(XAI)和数字艺术的研究人员社区,以探索XAI对艺术的作用。 研讨会在第17届ACM创意和认知会议(C C 2025)上举行。
本文探讨了使用轻量级CNN对环境声音分类(ESC)的降维和集合方法的影响。 我们评估各种超参数设置下的稀疏盐区域池(SSRP)及其变体SSRP-Basic(SSRP-B)和SSRP-Top-K(SSRP-T),并将其与主成分分析(PCA)进行比较。 对ESC-50数据集的实验表明,SSRP-T的准确率高达80.69%,显著优于基线CNN(66.75%)和PCA还原模型(37.60%)。 我们的研究结果证实,经过良好调整的稀疏池策略为ESC任务提供了强大,高效和高性能的解决方案,特别是在资源受限的情况下,平衡准确性和计算成本至关重要。
大型语言模型(LLM)及其多模态扩展越来越受欢迎。 启用多模态的一种常见方法是使用LLM对特定域的编码器进行级联,使生成的模型继承其所有组件的漏洞。 在这项工作中,我们提出了第一个针对语音语言模型的音频后门攻击的系统研究。 我们在四个语音编码器和三个数据集上展示了它的有效性,涵盖了四个任务:自动语音识别(ASR),语音识别以及性别和年龄预测。 该攻击持续获得高成功率,从90.76%到99.41%不等。 为了更好地了解后门的传播方式,我们进行了组件分析,以确定管道中最脆弱的阶段。 最后,我们提出了一个基于微调的防御,以减轻中毒预训练编码器的威胁。
主观房间声学印象对音乐会场地和听觉中音乐的表演和接收起着重要作用。 因此,自20世纪以来,房间声学处理了客观,声学参数和房间声学的主观印象之间的关系。 一种常见的方法是将声学测量与专家对其长期记忆中召回的房间的主观评分相关联,并使用声学测量来解释它们。 另一种方法是让听众在双极尺度上对听觉的房间声学进行评分,并找到客观的相关性。 在这项研究中,我们提出了一种替代的方法来表征房间声学的主观印象。 我们将音乐与双耳室脉冲响应测量相结合,并利用多维度扩展(MDS)来识别房间声学的感知尺寸。 结果表明,对房间声学的感知有5个维度,可以通过(心理)声学测量回声密度,分形相关维度,粗糙度,大声度和早期衰变时间来解释。
音乐编辑是音乐制作的重要一步,它有广泛的应用,包括游戏开发和电影制作。 大多数现有的零拍摄文本引导编辑方法都依赖于预训练的扩散模型,涉及向后扩散过程。 然而,这些方法往往难以保存音乐内容。 此外,文本指令通常无法准确描述所需的音乐。 在本文中,我们提出了两种音乐编辑方法,通过利用乐谱蒸馏来提高原始音乐与编辑音乐之间的一致性。 第一种方法,SterMusic,是一种使用delta去噪评分的粗粒度零镜头编辑方法。 第二种方法SteeMusic+通过操纵代表用户定义音乐风格的概念令牌来实现细粒度的个性化音乐编辑。 SteerMusic+允许将音乐编辑到用户定义的音乐风格中,仅靠文本指令无法实现。 实验结果表明,我们的方法在保持音乐内容一致性和编辑保真度方面优于现有方法。 用户研究进一步证实我们的方法实现了卓越的音乐编辑质量。
视频到音乐(V2M)生成旨在创建与视觉内容一致的音乐。 然而,现有方法仍然存在两个主要挑战:(1)缺乏明确的节奏建模阻碍了视听时间对齐;(2)有效地将各种视觉特征与条件音乐生成仍然微不足道。 为了解决这些问题,我们提出了Diff-V2M,这是一个基于分层条件扩散模型的一般V2M框架,由两个核心组件组成:视觉特征提取和条件音乐生成。 对于节奏建模,我们首先评估几种节奏表示,包括低分辨率的mel-spectrograms,tempgrams和发病检测功能(ODF),并设计一个节奏预测器,直接从视频中推断它们。 为了确保上下文和情感的一致性,我们还提取语义和情感特征。 所有特征都通过分层交叉注意力机制融入生成器中,其中情感特征通过第一层塑造情感音调,而语义和节奏特征在第二交叉注意力层中融合。 为了增强特征集成,我们引入了时间步骤感知融合策略,包括特征性线性调制(FiLM)和加权融合,使模型能够在整个扩散过程中自适应地平衡语义和节奏线索。 广泛的实验将低分辨率的 ODF 识别为建模音乐节奏的更有效信号,并证明 Diff-V2M 在域内和域外数据集上的表现优于现有模型,在客观指标和主观比较方面实现了最先进的性能。 Demo和代码见https://Tayjsl97.github.io/Diff-V2M-Demo/。
无源声学监测可实现大规模的生物多样性评估,但生物声学声音的可靠分类不仅需要高精度,还需要对地面决策进行校准良好的不确定性估计。 在生物声学中,校准受到重叠发声,长尾物种分布以及训练和部署数据之间的分布变化的挑战。 生物声学领域多标签深度学习分类器的校准尚未评估。 我们系统地对BirdSet基准上四个最先进的多标签鸟类声音分类器的校准进行基准测试,使用无阈值校准指标(ECE,MCS)以及歧视指标(cmAP)评估全局,每个数据集和每类校准。 模型校准在数据集和类之间差异很大。 虽然Perch v2和ConvNeXt_BS显示更好的全局校准,但结果因数据集而异。 这两种型号都表示一致的不信任,而AudioProtoPNet和BirdMAE大多过于自信。 令人惊讶的是,对于不太频繁的课程来说,校准似乎更好。 使用简单的临时校准方法,我们展示了一种直接的方法来改进校准。 小型标记校准集足以显著改善Platt缩放的校准,而全球校准参数则受到数据集可变性的影响。 我们的发现强调了评估和改进生物声学分类器中不确定性校准的重要性。
自我对话 - 一种可以无声地发生或大声说话的内部对话 - 在情绪调节,认知处理和动机中起着至关重要的作用,但在日常生活中基本上仍然是无形的和不可估量的。 在本文中,我们介绍了MutterMeter,这是一种移动系统,可以自动检测来自现实世界环境中可耳麦克风捕获的音频的自言自语。 检测自言自语在技术上具有挑战性,因为它具有不同的声学形式,语义和语法不完整以及不规则的发生模式,这与传统语音理解模型背后的假设存在根本性差异。 为了应对这些挑战,MutterMeter采用分层分类架构,通过顺序处理管道逐步集成声学,语言和上下文信息,自适应地平衡准确性和计算效率。 我们使用首个数据集构建和评估MutterMeter,该数据集包括从25名参与者收集的31.1小时的音频。 实验结果表明,MutterMeter以0.84的宏观平均F1分数实现了稳健的性能,优于传统方法,包括基于LLM和语音情感识别模型。
目前的端到端口语模型(SLM)已经取得了显着的进展,但它们仍然会遇到相当大的响应延迟。 这种延迟主要源于语音令牌的自动回归生成以及对语音合成的复杂流匹配模型的依赖。 为了克服这一点,我们引入了VocalNet-M2,这是一种新颖的低延迟SLM,集成了多代码簿令牌化器和多令牌预测(MTP)策略。 我们的模型直接生成多代码簿语音令牌,从而消除了延迟诱导流匹配模型的需求。 此外,我们的MTP战略提高了发电效率,提高了整体性能。 广泛的实验表明,VocalNet-M2实现了第一块延迟的大幅减少(从大约725ms到350ms),同时保持主流SLM的竞争性能。 这项工作还提供了单代码簿和多代码簿策略的全面比较,为实时交互式应用程序开发高效和高性能的SLM提供了有价值的见解。
课堂环境对于有听力障碍的儿童来说尤其具有挑战性,背景噪音,多个说话者和混响会降低言语感知。 这些困难对儿童来说比成人更大,但大多数辅助设备的深度学习语音分离模型是在简化的低混响条件下使用成人声音开发的。 这既忽略了儿童声音的更高光谱相似性,这削弱了分离线索,也忽略了真实教室的声学复杂性。 我们使用MIMO-TasNet解决这一差距,MIMO-TasNet是一种紧凑,低延迟,多通道架构,适合在双边助听器或人工耳蜗植入物中实时部署。 我们模拟了自然主义的课堂场景,在不同的噪音和距离条件下移动儿童 - 儿童 - 成人交谈者配对。 训练策略测试了模型如何通过空间线索适应儿童的演讲。 比较了成人语音、课堂数据和微调变体训练的模型,以评估数据效率的适应。 结果表明,成人训练的模型在干净的场景中表现良好,但课堂特定的培训大大提高了分离质量。 微调只有一半的课堂数据取得了可比的收益,证实了高效的转移学习。 带有漫射喙噪声的训练进一步提高了鲁棒性,模型保留了空间意识,同时推广到看不见的距离。 这些发现表明,空间意识架构与有针对性的适应相结合,可以改善嘈杂教室中儿童的语音可及性,支持未来的设备辅助技术。
声学全息学是一个新兴的领域,其中中空中超声被控制和操纵,用于新颖和令人兴奋的应用。 这些范围从中空中触觉,体积显示,非接触式制造,甚至化学和生物医学应用,如药物输送。 为了开发这些应用程序,需要有一个软件框架来预测声学行为并模拟由此产生的效果,例如施加力或散射模式。 已经有许多软件库和平台试图填补这个角色,但还没有一个单一的软件作为“全栈”解决方案。 我们将这种全栈定义为从抽象到物理化的过程,从设置,建模声学传播,换能器相位检索,声场分析和控制声全字硬件本身开始。 现有方法未能实现其中一个或多个类别。 为了解决这个问题,我们展示了AcousTools,一个基于Python的声学全息库,旨在支持全套声学全息应用,我们展示了AcousTools满足全栈要求的每一步的能力。 AcousTools有可能成为声学全息的标准代码库,具有独特的完整功能套件,包裹在已知易于使用的语言中,AcousTools将提高研究人员开发新应用程序以及准确审查他人工作的能力。 除了软件之外,全栈对研究人员也很有用——提供了一种通过了解它们适合堆栈的方式来查看和比较方法的方法。
在语音转换(VC)中,保存完整的语义信息,同时准确建模目标扬声器的音色和音色至关重要。 本文建议FabasedVC实现VC,在音色,前音和持续时间上与目标扬声器具有增强的相似性,以及改进内容完整性。 它是一个基于端到端的VITS VC系统,集成了相关的文本方式信息,电话级自我监督学习(SSL)功能和持续时间预测器。 具体来说,我们使用文本特征编码器来编码诸如文本、音素、音调和BERT特征等属性。 然后,我们使用两种方法将帧级 SSL 功能处理成电话级功能:基于每个音素持续时间的平均池化和注意力机制。 此外,还纳入持续时间预测器,以更好地调整目标演讲者的语音率和音调。 实验结果表明,我们的方法在自然性、相似性和内容完整性方面优于竞争系统。
语音识别(SER)为了深度学习方法而显著进步,而文本信息进一步增强了其性能。 然而,很少有研究集中在语音制作过程中的生理信息,其中还包括说话特征,包括情绪状态。 为了弥补这一差距,我们进行了一系列实验,以调查SER的语音激发信息和发音运动学的潜力。 由于为此目的缺乏训练数据,我们引入了一个描绘的情感数据集STEM-E2VA,其中包括电球学(EGG)和电磁诠学(EMA)等音频和生理数据。 EGG和EMA分别提供语音激发和发音运动学的信息。 此外,我们使用通过语音反转方法得出的估计生理数据进行情绪识别,而不是收集的EGG和EMA,以探索在实际SER中应用此类生理信息的可行性。 实验结果证实了将有关 SER 语音生产的生理信息纳入其中的有效性,并展示了其在现实场景中实际使用的潜力。
到达方向(DOA)估计在空间音频和声学信号处理中至关重要,在现实世界中具有广泛的应用。 大多数现有的DOA模型都是通过将清洁语音与室脉冲响应(RIR)相结合来训练合成数据,这限制了其由于有限的声学多样性而具有的可推广性。 在本文中,我们使用最近引入的大型语言模型(LLM)构建的数据集来重新审视DOA估计,该数据集提供了更逼真和多样化的空间音频场景。 我们在这个数据集上对几种基于神经的DOA方法进行了基准测试,并提出了LightDOA,这是一种基于深度可分离卷积的轻量级DOA估计模型,专门用于不同环境中的mutil-channel输入。 实验结果表明,LightDOA在各种声学场景中实现了令人满意的准确性和稳健性,同时保持较低的计算复杂性。 这项研究不仅强调了在LLM的帮助下合成的空间音频在推进稳健高效的DOA估计研究方面的潜力,而且还强调了LightDOA作为资源受限应用的高效解决方案。
继续滚动加载更多