同声传译(SI)是翻译行业最具挑战性的领域之一,产品级自动系统长期面临诸多难题:转录和翻译质量欠佳、缺乏实时语音生成能力、多说话人混淆问题,以及在长篇话语中翻译语音膨胀现象。本研究推出Seed-LiveInterpret 2.0,这是一个端到端同声传译模型,具备高保真、超低延迟的语音到语音生成能力,并支持语音克隆功能。作为完全可用的产品级解决方案,Seed-LiveInterpret 2.0通过我们创新的双工语音理解-生成框架直接应对这些挑战。实验结果表明,通过大规模预训练和强化学习,该模型在翻译准确性和延迟之间实现了显著更好的平衡,经专业口译员验证其性能超过70%。
语音语言模型(SLMs)旨在接收语音输入并生成语音响应。然而,当前的SLMs缺乏在响应前进行内部无声思考的能力。相比之下,人类通常在内部进行复杂的心理推理,从而能够清晰简洁地表达想法。因此,将无声思考过程整合到SLMs中是非常必要的。虽然简单地在开始说话前生成完整的思维链(CoT)推理可以使SLMs具备思考能力,但这会导致语音响应的额外延迟,因为CoT推理可能任意长。为解决这个问题,我们提出了STITCH,这是一种新颖的生成方法,交替生成无声推理分块和语音响应分块。由于语音响应分块的音频持续时间远长于生成该分块中token所需的时间,我们利用剩余的空闲时间生成无声推理token。当向用户播放一个音频分块时,模型继续生成下一个无声推理分块,实现同步思考与说话。值得注意的是,STITCH在设计上无法生成无声CoT的基线模型的延迟相当,同时性能优于这些基线模型15%。
我们引入了一种新颖的创造性音频合成技术,该技术通过在潜在矢量级别重新加工颗粒合成的概念来运作。 我们的方法通过将源音频语料库编码到潜在矢量段来创建“粒度代码簿”,然后将目标音频信号的每个潜在粒数与代码簿中最接近的对应物相匹配。 由此产生的混合序列被解码以产生音频,保留目标的时间结构,同时采用源的音色特征。 这种技术不需要模型训练,使用不同的音频材料,并且自然避免通过编解码器在解码过程中的隐式插值典型的传统连接合成的不连续性。 我们在 https://github.com/naotokui/latentgranular/ 中包括补充材料,以及概念验证实现,允许用户在 https://huggingface.co/spaces/naotokui/latentgranular 中尝试自己的声音。
协调良好且与音乐对齐的全息舞蹈能显著增强情感表现力和观众参与度。然而,由于全息3D舞蹈数据集的稀缺性、音乐与舞蹈跨模态对齐的困难性,以及身体、手部和面部相互依赖运动的建模复杂性,生成此类舞蹈仍具挑战性。为解决这些问题,我们引入了SoulDance——一个通过专业动作捕捉系统采集的高精度音乐-舞蹈配对数据集,包含精细标注的全息舞蹈动作。基于此数据集,我们提出了SoulNet框架,旨在生成音乐对齐、运动协调的全息舞蹈序列。SoulNet包含三个核心组件:(1)分层残差向量量化(Hierarchical Residual Vector Quantization),用于建模身体、手部和面部之间复杂精细的运动依赖关系;(2)音乐对齐生成模型(Music-Aligned Generative Model),将这些分层运动单元组合成富有表现力且协调的全息舞蹈;(3)音乐-运动检索模块(Music-Motion Retrieval Module),这是一个预训练的跨模态模型,作为音乐-舞蹈对齐先验,确保生成过程中舞蹈与输入音乐的时间同步和语义连贯性。大量实验表明,SoulNet在生成高质量、音乐协调且对齐良好的全息3D舞蹈序列方面显著优于现有方法。
我们向AudioMOS Challenge (AMC) 2025 Track 3:平均意见评分(MOS)预测介绍了具有多个采样频率(SF)的语音。 我们提交的模型将 SF 无关 (SFI) 卷积层集成到自监督学习 (SSL) 模型中,以实现 MOS 预测的 SFI 语音特征提取。 我们提出了一些提高模型MOS预测性能的策略:从预训练的非SFI-SSL模型中提炼知识,并使用大规模MOS数据集进行预训练。 我们向AMC 2025 Track 3提交的材料在一个评估指标中排名第一,在最终排名中排名第四。 我们还报告我们的消融研究的结果,以调查我们模型的基本因素。
我们引入了一种新颖的创造性音频合成技术,该技术通过在潜在矢量级别重新加工颗粒合成的概念来运作。 我们的方法通过将源音频语料库编码到潜在矢量段来创建“粒度代码簿”,然后将目标音频信号的每个潜在粒数与代码簿中最接近的对应物相匹配。 由此产生的混合序列被解码以产生音频,保留目标的时间结构,同时采用源的音色特征。 这种技术不需要模型训练,使用不同的音频材料,并且自然避免通过编解码器在解码过程中的隐式插值典型的传统连接合成的不连续性。 我们在 https://github.com/naotokui/latentgranular/ 中包括补充材料,以及概念验证实现,允许用户在 https://huggingface.co/spaces/naotokui/latentgranular 中尝试自己的声音。
我们介绍了Inworld TTS-1,这是一套基于两个变形金刚的自动回归文本到语音(TTS)模型。 我们最大的型号TTS-1-Max具有8.8B参数,专为苛刻应用中的高品质和表现力而设计。 TTS-1是我们最有效的模型,具有1.6B参数,专为实时语音合成和设备上的用例而构建。 通过扩展训练时间计算并应用语音语言模型(SpeechLM)组件的预训练,微调和RL对齐的顺序过程,这两种模型在各种基准上实现了最先进的性能,证明了纯粹依赖于扬声器语音的上下文学习的卓越质量。 Inworld TTS-1和TTS-1-Max可以生成高分辨率的48 kHz语音,低延迟,并通过音频标记支持11种语言,具有细粒度的情绪控制和非语言发声。 我们还在 MIT 许可下开源我们的培训和建模代码。
我们引入了基于语音的智能量(SIQ)作为人类认知启发的评估管道的新形式,用于语音理解大型语言模型LLM Voice,旨在评估他们的语音理解能力。 除了流行的语音理解指标,如单词错误率(WER),SIQ在Bloom's Taxonomy激励的三个认知水平上检查LLM Voice:(1)记住(即逐字记录WER);(2)理解(即LLM解释的相似性);(3)应用(即模拟下游任务的QA准确性)。 我们证明SIQ不仅量化了语音理解能力,而且还提供了级联方法(例如ASR LLM)和端到端模型之间的统一比较,确定了现有基准中的注释错误,并检测LLM Voice中的幻觉。 我们的框架代表了首次进行的情报检查,将认知原则与面向语音的基准联系起来,同时暴露了多模式培训中被忽视的挑战。
口音正常化将外国口音的演讲转化为母语演讲,同时保持演讲者的身份。 我们提出了一种新的管道,使用自监督的离散令牌和非并行训练数据。 该系统从源语音中提取令牌,通过专用模型转换它们,并使用流匹配合成输出。 我们的方法在自然性、重度降低和音色保存方面在帧到框架基线上表现出卓越的性能。 通过令牌级别的语音分析,我们验证了基于令牌的方法的有效性。 我们还开发了两种持续时间保存方法,适用于配音等应用。
合成语音的最新进展使音频深度伪造变得越来越现实,带来了重大的安全风险。 现有的检测方法依赖于单一模式,无论是原始波形嵌入还是基于光谱的特征,都容易受到非恶搞干扰的影响,并且通常过度适应已知的伪造算法,导致对看不见的攻击的概括不力。 为了解决这些缺点,我们研究混合融合框架,将基于自监督学习(SSL)的表示与手工制作的光谱描述符(MFCC ,LFCC,CQCC)集成。 通过跨模式对齐和组合互补信息,这些融合方法捕获了单个特征方法通常忽略的微妙工件。 我们探索了几种融合策略,包括简单的连接,交叉注意力,相互交叉关注和可学习的闸门机制,以最佳地将SSL功能与细粒度光谱线索相结合。 我们根据四个具有挑战性的公共基准评估我们的方法,并报告推广业绩。 所有融合变体始终优于SSL仅基线,交叉注意力策略以38实现最佳推广
在这项工作中,我们的目标是模仿人类有选择地参加单个扬声器的能力,即使在多个同时交谈者在场的情况下也是如此。 我们提出了一种新的双耳目标扬声器提取方法,利用听众的头部相关传输功能(HRTF)来隔离所需的扬声器。 值得注意的是,我们的方法不依赖于扬声器嵌入,使其独立于扬声器,并在不同语言的多个语音数据集中实现强大的泛化。 我们使用一个完全复杂值的神经网络,直接在混合音频信号的复杂值短时间傅里叶变换(STFT)上运行。 这偏离了使用光谱图或将STFT的真实和想象成分视为单独的实值输入的传统方法。 我们首先在无噪音的无噪音场景中评估该方法,其中它展示了出色的提取性能,同时有效地保留了目标信号的双耳线索。 然后,我们在温和的混响条件下测试一个修改的变体。 此版本在混响环境中保持稳健,保持语音清晰度,保持源方向性,同时减少混响。
离散语音标记化是语音编解码器中的基本组成部分。 然而,在大规模语音到语音系统中,来自多个量化器的并行流的复杂性和高时维编解码器的计算成本带来了重大挑战。 在本文中,我们介绍了HH-Codec,这是一种神经编解码器,在依赖单定量推断的同时,以每秒24个令牌的速度实现极端压缩,用于24 kHz音频。 我们的方法涉及精心设计的矢量量化空间,用于语音语言建模,优化压缩效率,同时最大限度地减少信息损失。 基于此,我们提出了非对称编码器解码器架构(Audio-VQ-Mel-Audio),利用双重监督和渐进式培训来增强重建稳定性和保真度。 HH-Codec以0.3 kbps的超低带宽在语音重建中实现了最先进的性能。 我们进一步评估其在代码本利用率和生成模型适应方面的有效性,并广泛评估每个模块的必要性。 HH-Codec可在https://github.com/opendilab/HH-Codec上查阅。
全双工语音对话系统(FDSDS)通过允许实时用户中断和反向通道实现更自然的人机交互,而传统的SDS依赖于转弯。 然而,现有的基准缺乏FD场景的指标,例如,在用户中断期间评估模型性能。 在本文中,我们提出了利用 LLM、TTS 和 ASR 解决这一差距的全面 FD 基准测试管道。 它评估了FDDS处理用户中断,管理延迟的能力,并在具有各种新指标的挑战场景中保持稳健性。 我们使用超过40小时的生成语音将基准应用于三个开源FDDS(Moshi,Freeze-omni和VITA-1.5),有293次模拟对话和1,200次中断。 结果表明,所有模型在频繁的中断和嘈杂条件下继续面临挑战,例如未能应对用户中断。 演示、数据和代码将发布。
本文介绍了OmniGSE,这是一种新颖的一般语音增强(GSE)框架,旨在减轻语音信号在现实世界中遇到的各种扭曲。 这些失真包括背景噪声、混响、带宽限制、信号剪切和网络数据包丢失。 现有方法通常侧重于优化单一类型的失真,通常难以有效地处理复杂场景中多个失真同时存在的情况。 OmniGSE通过通过实现跨领域协作优化的两级架构整合判和生成方法的优势来弥合这一差距。 在第一阶段,使用轻量级通道分割的NAC-RoMer增强了连续功能。 在第二阶段,生成离散令牌,通过语言模型重建高质量的语音。 具体来说,我们设计了一个由RootLM和多个BranchLM组成的分层语言模型结构。 RootLM 模拟了跨代码簿层的一般声学特征,而 BranchLM 则明确捕获了不同代码簿级别之间的渐进关系。 实验结果表明,OmniGSE在多个基准测试中超越了现有模型,特别是在涉及复合失真的情况下表现出色。 这些发现强调了该框架在实际应用中强大和多功能的语音增强的潜力。
在客户关系管理(CRM)系统的设计中,准确识别客户类型并提供个性化服务是提高客户满意度和忠诚度的关键。 然而,这一过程面临着辨别客户声音和意图的挑战,一般预训练的自动语音识别(ASR)模型使得难以有效解决行业特定的语音识别任务。 为了解决这个问题,我们创新地提出了针对特定行业ASR模型的微调解决方案,这显著提高了微调ASR模型在行业应用中的性能。 实验结果表明,我们的方法大大提高了ASR模型在行业CRM系统中的关键辅助作用,这种方法在实际工业应用中也被采用。
基于语音的对话式AI系统越来越依赖于将语音到文本(STT)、大型语言模型(LLM)和文本到语音(TTS)组件相结合的级联架构。 然而,对生产环境中不同组件组合的系统评估仍然缺乏研究。 我们使用来自超过30万个AI进行的工作面试的数据,对STT x LLM x TTS堆栈进行了大规模的经验比较。 我们使用 LLM-as-a-Judge 开发自动化评估框架,以评估会话质量、技术准确性和技能评估能力。 我们对四种生产配置的分析表明,Google STT与GPT-4.1在对话和技术质量指标方面显着优于替代品。 令人惊讶的是,我们发现客观质量指标与用户满意度得分密切相关,这表明基于语音的AI系统的用户体验取决于技术性能以外的因素。 我们的研究结果为选择多模态会话AI系统中的组件提供了实用的指导,并为基于语音的交互提供了经过验证的评估方法。
CHiME-7和8远程语音识别(DASR)挑战侧重于多渠道,可推广,联合自动语音识别(ASR)和对话语音的拨号。 来自9个团队提交了32个不同系统,这些挑战为该领域的最新研究做出了贡献。 本文概述了挑战的设计、评估指标、数据集和基线系统,同时分析了参与者提交的关键趋势。 从这一分析中,发现:1)大多数参与者使用端到端(e2e)ASR系统,而混合系统在以前的CHIME挑战中普遍存在。 这种转变主要是由于强大的大规模预训练模型的可用性,这降低了e2e-ASR的数据负担。 2)尽管神经语音分离和增强(SSE)最近取得了进展,但所有团队仍然严重依赖引导源分离,这表明当前的神经SSE技术仍然无法可靠地处理复杂的场景和不同的记录设置。 3)所有最好的系统都采用通过目标扬声器传家化技术进行透析。 因此,在第一次日记中准确的扬声器计数对于避免复合错误至关重要,而CHIME-8 DASR参与者尤其专注于这一部分。 4) 通过会议总结进行下游评估可与转录质量弱相关,因为大语言模型在处理错误方面具有显着的有效性。 在NOTSOFAR-1情景下,即使是时间限制最小排列WER超过50%的系统也可以与最有效的系统(约11%)大致相同。 5)尽管最近取得了进展,但在具有挑战性的声学环境中准确转录自发语音仍然很困难,即使使用计算密集型系统集成。
近年来,口语模型(SLM)取得了快速进展,同时制定了许多评估其性能的基准。 然而,大多数现有基准主要侧重于评估可持续土地管理是否能够执行与大型语言模型(LLM)处理的复杂任务相当的任务,这些任务往往与用户在现实世界中的对话场景中的自然交互方式不一致。 在本文中,我们提出了TELEVAL,一个专门用于评估SLM在现实中国互动环境中作为对话代理的有效性的动态基准。 TELEVAL定义了三个评估维度:显式语义学、Paralinguistic和隐性语义学以及系统能力。 它采用与实际使用情况一致的对话格式,并分别评估文本和音频输出。 TELEVAL特别注重模型从用户语音中提取隐性线索的能力,并在没有额外说明的情况下做出适当的反应。 我们的实验表明,尽管最近取得了进展,但现有的SLM在自然会话任务方面仍有相当大的改进空间。 我们希望TELEVAL能够作为一个以用户为中心的评估框架,直接反映用户体验,并为开发更有能力的对话导向的可持续管理做出贡献。
规范语音功能分类在理解人类语音生成和开发健壮的语音技术方面起着至关重要的作用,特别是在临床环境中,有针对性的语音分析和治疗可以提高疾病诊断准确性和个性化康复。 在这项工作中,我们提出了一个多模态深度学习框架,该框架结合了实时磁共振成像(rtMRI)和语音信号,对三个关键的发音维度进行分类:发音方式,发音和语音。 我们对源自上述关节尺寸的15个语音类进行分类,并通过四种音频/视觉配置来评估系统:单模态rtMRI,单模态音频信号,多模态中间融合和基于对比度学习的音频视觉融合。 USC-TIMIT数据集的实验结果表明,我们基于对比的学习方法实现了最先进的性能,平均F1得分为0.81,比单模基线绝对增加0.23。 结果证实了对比表示学习对多模态表达分析的有效性。 我们的代码和处理数据集将在https : / /github.com/DaE-plz/AC_Contrastive_Phonology上公开发布,以支持未来的研究。
最近对语音驱动的说话人脸生成的研究取得了有希望的结果,但他们对固定驱动语音的依赖限制了进一步的应用(例如,人脸语音不匹配)。 因此,我们将任务扩展到更具挑战性的设置:给定面部图像和文字,生成说话的面部动画及其相应的演讲。 因此,我们提出了一个新的框架,Face2VoiceSync,有几个新的贡献:1)语音面部对齐,确保生成的声音与面部外观相匹配;2)多样性和操纵,使生成语音控制对参数化特征空间;3)高效训练,使用轻量级VAE连接视觉和音频大预训练模型,具有比现有方法少得多的可训练参数;4)新评估指标,公平评估多样性和身份一致性。 实验显示Face2VoiceSync在单个40GB GPU上实现了视觉和音频最先进的性能。
人类通信涉及的不仅仅是明确的语义,隐含的信号和上下文线索在塑造意义方面起着关键作用。 然而,现代语音技术,如自动语音识别(ASR)和文本到语音(TTS)往往无法捕捉这些超出语义的维度。 为了更好地表征和基准测试语音智能的进展,我们引入了语音交互系统能力水平(L1-L5),一个分层框架说明了口语对话系统从基本命令识别到类人的社会互动的演变。 为了支持这些高级功能,我们提出了Beyond-Semantic Speech(BoSS),它指的是语音通信中包含但超越显性语义的一组信息。 它通过情感线索,上下文和修改或扩展意义,如情感线索,上下文动态和隐性语义等多维特征,从而增强了对交际意图和场景的理解。 我们为BoSS提供了一个正式的框架,利用认知相关性理论和机器学习模型来分析时间和上下文语音动态。 我们评估五个不同维度的BoSS相关属性,揭示了当前的口语模型(SLM)很难完全解释非语义信号。 这些发现强调了推进BoSS研究的必要性,以实现更丰富,更具有上下文感知的人机通信。
声音场景的空间语义分割(S5)涉及精确识别活动声音类,并将其源与复杂的声学混合物精确分离。 传统系统依赖于两级管道 - 音频标记,然后是标签条件的源分离 - 但通常受到缺乏对有效分离至关重要的细粒度时间信息的限制。 在这项工作中,我们通过引入S5的新方法来解决这一限制,该方法增强了事件检测和源分离阶段之间的协同作用。 我们的主要贡献是三倍。 首先,我们微调预训练的变形金刚,以检测活跃的声音类。 其次,我们利用这个微调变压器的一个单独的实例来执行声音事件检测(SED),为分离模块提供详细的,时间变化的引导。 第三,我们实施迭代改进机制,通过递归地重复使用分离器从以前的迭代中输出,逐步提高分离质量。 这些进步导致音频标记和源分离性能的显着改进,我们的系统在DCASE挑战赛2025的任务4中排名第二。 我们的实现和模型检查点可在 GitHub 存储库中找到:https : / /github.com/theMoro/dcase25task4 。
端到端口语模型(SLM)的最新进展显著提高了人工智能系统参与自然口语交互的能力。 然而,大多数现有的模型仅将语音视为语言内容的载体,通常可以忽略人类语音中嵌入的丰富的副语言和扬声器特征线索,例如方言,年龄,情感和非语音发声。 在这项工作中,我们介绍了GOAT-SLM,这是一种具有副语言和扬声器特征意识的新型口语模型,旨在将口语建模扩展到文本语义之外。 GOAT-SLM采用双模头架构,将语言建模与声学实现脱钩,从而实现强大的语言理解,同时支持表达和自适应语音生成。 为了提高模型效率和多功能性,我们提出了一个模块化的分阶段培训策略,使用大规模语音文本语料库逐步调整语言,语言学和扬声器特征信息。 多维评估基准TELEVAL的实验结果表明,GOAT-SLM在语义和非语义任务中实现了平衡的性能,并且在处理情感,辩证变异和年龄敏感的交互方面优于现有的开源模型。 这项工作强调了超越语言内容的建模的重要性,并推动了更自然,适应性和社会意识的口语系统的发展。
光学音乐识别(OMR)为历史悠久的中国音乐符号,如suzipu和lülüpu,由于高度的阶级不平衡和有限的培训数据,提出了独特的挑战。 本文介绍了江奎从1202年有影响力的收藏Baishidaoren Gequ的OMR重大进步。 在这项工作中,我们开发并评估稀缺的不平衡数据字符识别模型。 我们通过将字符误差率(CER)从10.4降低来改进以前的基线
多模态大语言模型(MLLM)的最新进展为语音、文本、图像和其他模式的统一建模开辟了新的可能性。 本文基于我们之前的工作,研究了多种输入模式可以提高嘈杂环境中自动语音识别(ASR)准确性的条件和模型架构。 通过合成和真实世界数据的实验,我们发现(1)利用更多的模式通常会提高ASR的准确性,因为每种模式都提供互补的信息,但改进取决于听觉噪声的量。 (2)同步模式(例如唇部运动)在高噪声水平下更有用,而不同步模式(例如图像上下文)在中等噪声水平下最有用。 (3)更高质量的视觉表示始终如一地提高ASR的准确性,突出了开发更强大的视觉编码器的重要性。 (4)曼巴在多模态的好处方面表现出与变形金刚类似的趋势。 (5) 模式的输入顺序及其在损失函数中的权重可以显著影响准确性。 这些发现既提供了实用的见解,又有助于加深我们对在具有挑战性的条件下多模态语音识别的理解。