同声传译(SI)是翻译行业最具挑战性的领域之一,产品级自动系统长期面临诸多难题:转录和翻译质量欠佳、缺乏实时语音生成能力、多说话人混淆问题,以及在长篇话语中翻译语音膨胀现象。本研究推出Seed-LiveInterpret 2.0,这是一个端到端同声传译模型,具备高保真、超低延迟的语音到语音生成能力,并支持语音克隆功能。作为完全可用的产品级解决方案,Seed-LiveInterpret 2.0通过我们创新的双工语音理解-生成框架直接应对这些挑战。实验结果表明,通过大规模预训练和强化学习,该模型在翻译准确性和延迟之间实现了显著更好的平衡,经专业口译员验证其性能超过70%。
语音语言模型(SLMs)旨在接收语音输入并生成语音响应。然而,当前的SLMs缺乏在响应前进行内部无声思考的能力。相比之下,人类通常在内部进行复杂的心理推理,从而能够清晰简洁地表达想法。因此,将无声思考过程整合到SLMs中是非常必要的。虽然简单地在开始说话前生成完整的思维链(CoT)推理可以使SLMs具备思考能力,但这会导致语音响应的额外延迟,因为CoT推理可能任意长。为解决这个问题,我们提出了STITCH,这是一种新颖的生成方法,交替生成无声推理分块和语音响应分块。由于语音响应分块的音频持续时间远长于生成该分块中token所需的时间,我们利用剩余的空闲时间生成无声推理token。当向用户播放一个音频分块时,模型继续生成下一个无声推理分块,实现同步思考与说话。值得注意的是,STITCH在设计上无法生成无声CoT的基线模型的延迟相当,同时性能优于这些基线模型15%。
目标:在低收入国家,由于神经科医生稀缺和诊断工具昂贵,癫痫的诊断率仍然偏低。我们提出了一种基于图的深度学习框架,用于从低成本脑电图(EEG)硬件中检测癫痫,并在尼日利亚和几内亚比绍的 recordings 上进行了测试。我们的重点是公平、可获取的自动评估和可解释性,以揭示癫痫的生物标志物。方法:我们将EEG信号建模为时空图,使用图注意力网络(GAT)对其进行分类,并识别通道间关系和时间动态。为了强调连接性生物标志物,我们调整了原本关注节点的GAT来分析边。我们还设计了适用于低保真 recordings 的信号预处理方法,以及一个轻量级GAT架构,该架构在Google Colab上训练并部署在RaspberryPi设备上。结果:该方法取得了有前景的分类性能,在多次会话中,其准确性和鲁棒性优于基于随机森林和图卷积网络的标准分类器,同时还突出了额颞区的特定连接。结论:这些结果突显了GAT在服务不足地区为癫痫提供有洞察力且可扩展的诊断支持的潜力,为经济实惠且可获取的神经诊断工具铺平了道路。
我们引入了一种新颖的创造性音频合成技术,该技术通过在潜在矢量级别重新加工颗粒合成的概念来运作。 我们的方法通过将源音频语料库编码到潜在矢量段来创建“粒度代码簿”,然后将目标音频信号的每个潜在粒数与代码簿中最接近的对应物相匹配。 由此产生的混合序列被解码以产生音频,保留目标的时间结构,同时采用源的音色特征。 这种技术不需要模型训练,使用不同的音频材料,并且自然避免通过编解码器在解码过程中的隐式插值典型的传统连接合成的不连续性。 我们在 https://github.com/naotokui/latentgranular/ 中包括补充材料,以及概念验证实现,允许用户在 https://huggingface.co/spaces/naotokui/latentgranular 中尝试自己的声音。
协调良好且与音乐对齐的全息舞蹈能显著增强情感表现力和观众参与度。然而,由于全息3D舞蹈数据集的稀缺性、音乐与舞蹈跨模态对齐的困难性,以及身体、手部和面部相互依赖运动的建模复杂性,生成此类舞蹈仍具挑战性。为解决这些问题,我们引入了SoulDance——一个通过专业动作捕捉系统采集的高精度音乐-舞蹈配对数据集,包含精细标注的全息舞蹈动作。基于此数据集,我们提出了SoulNet框架,旨在生成音乐对齐、运动协调的全息舞蹈序列。SoulNet包含三个核心组件:(1)分层残差向量量化(Hierarchical Residual Vector Quantization),用于建模身体、手部和面部之间复杂精细的运动依赖关系;(2)音乐对齐生成模型(Music-Aligned Generative Model),将这些分层运动单元组合成富有表现力且协调的全息舞蹈;(3)音乐-运动检索模块(Music-Motion Retrieval Module),这是一个预训练的跨模态模型,作为音乐-舞蹈对齐先验,确保生成过程中舞蹈与输入音乐的时间同步和语义连贯性。大量实验表明,SoulNet在生成高质量、音乐协调且对齐良好的全息3D舞蹈序列方面显著优于现有方法。
我们引入了一种新颖的创造性音频合成技术,该技术通过在潜在矢量级别重新加工颗粒合成的概念来运作。 我们的方法通过将源音频语料库编码到潜在矢量段来创建“粒度代码簿”,然后将目标音频信号的每个潜在粒数与代码簿中最接近的对应物相匹配。 由此产生的混合序列被解码以产生音频,保留目标的时间结构,同时采用源的音色特征。 这种技术不需要模型训练,使用不同的音频材料,并且自然避免通过编解码器在解码过程中的隐式插值典型的传统连接合成的不连续性。 我们在 https://github.com/naotokui/latentgranular/ 中包括补充材料,以及概念验证实现,允许用户在 https://huggingface.co/spaces/naotokui/latentgranular 中尝试自己的声音。
我们介绍了Inworld TTS-1,这是一套基于两个变形金刚的自动回归文本到语音(TTS)模型。 我们最大的型号TTS-1-Max具有8.8B参数,专为苛刻应用中的高品质和表现力而设计。 TTS-1是我们最有效的模型,具有1.6B参数,专为实时语音合成和设备上的用例而构建。 通过扩展训练时间计算并应用语音语言模型(SpeechLM)组件的预训练,微调和RL对齐的顺序过程,这两种模型在各种基准上实现了最先进的性能,证明了纯粹依赖于扬声器语音的上下文学习的卓越质量。 Inworld TTS-1和TTS-1-Max可以生成高分辨率的48 kHz语音,低延迟,并通过音频标记支持11种语言,具有细粒度的情绪控制和非语言发声。 我们还在 MIT 许可下开源我们的培训和建模代码。
预算规划和维护优化对于基础设施资产管理至关重要,确保成本效益和可持续性。 然而,组合动作空间、资产多样化恶化、严格的预算限制和环境不确定性所产生的复杂性大大限制了现有方法的可扩展性。 本文提出了一种专门为多年基础设施规划量身定制的分层深度强化学习方法。 我们的方法将问题分为两个层次层面:一个在明确可行性范围内分配年度预算的高级预算规划师,以及一个在分配预算内优先考虑资产的低级维护规划师。 通过将宏观预算决策与资产级优先级分开,并将线性编程预测整合到分层软演员-关键框架中,该方法有效地解决了行动空间的指数增长,并确保严格的预算合规性。 评估不同大小(10、15和20个下水道棚)的下水道网络的案例研究说明了拟议方法的有效性。 与传统的Deep Q-Learning和增强的遗传算法相比,我们的方法融合得更快,有效扩展,并且即使在网络规模增长时也能始终如一地提供近乎最优的解决方案。
规范相关性分析(CCA)是一种在两个数据集之间寻找相关特征集的技术。 在本文中,我们提出了CCA对在线流数据设置的新扩展:滑动窗口信息规范相关性分析(SWICCA)。 我们的方法使用流主成分分析(PCA)算法作为后端,并将这些输出与样品的小滑动窗口相结合,实时估计CCA组件。 我们激励和描述我们的算法,提供数值模拟来表征其性能,并提供理论性能保证。 SWICCA方法适用于并可扩展到极高的尺寸,我们提供了一个真实的数据示例,展示了这种能力。
我们引入了基于语音的智能量(SIQ)作为人类认知启发的评估管道的新形式,用于语音理解大型语言模型LLM Voice,旨在评估他们的语音理解能力。 除了流行的语音理解指标,如单词错误率(WER),SIQ在Bloom's Taxonomy激励的三个认知水平上检查LLM Voice:(1)记住(即逐字记录WER);(2)理解(即LLM解释的相似性);(3)应用(即模拟下游任务的QA准确性)。 我们证明SIQ不仅量化了语音理解能力,而且还提供了级联方法(例如ASR LLM)和端到端模型之间的统一比较,确定了现有基准中的注释错误,并检测LLM Voice中的幻觉。 我们的框架代表了首次进行的情报检查,将认知原则与面向语音的基准联系起来,同时暴露了多模式培训中被忽视的挑战。
近年来,频繁出现的中断对全球供应链产生了负面影响。 为了保持竞争力,企业努力通过实施高效和有效的决策策略来应对干扰,保持敏捷。 已经做出了重大努力来开发这些敏捷的中断缓解方法,同时利用集中和分布式决策策略。 尽管在现有研究中分析了集中和分布式方法的权衡,但根据中断的供应链实体的网络属性,尚未发现了解供应链绩效的相关工作。 在本文中,我们从能力和网络拓扑角度对供应链进行表征,并研究基于经典多代理框架的分布式决策方法的使用。 分布式框架的性能通过全面的案例研究进行评估,该案例研究调查了供应链作为网络内网络结构和代理属性的功能在存在中断的情况下的性能。 与集中决策方法的比较突出了基于决策策略和网络架构的性能、计算时间和网络通信之间的权衡。 从业者可以使用我们的研究结果,根据代理能力、网络属性和所需的供应链性能设计响应策略。
口音正常化将外国口音的演讲转化为母语演讲,同时保持演讲者的身份。 我们提出了一种新的管道,使用自监督的离散令牌和非并行训练数据。 该系统从源语音中提取令牌,通过专用模型转换它们,并使用流匹配合成输出。 我们的方法在自然性、重度降低和音色保存方面在帧到框架基线上表现出卓越的性能。 通过令牌级别的语音分析,我们验证了基于令牌的方法的有效性。 我们还开发了两种持续时间保存方法,适用于配音等应用。
自主交付车辆(ADV)越来越多地用于在支持5G网络的智能工厂中运输货物,计算密集型本地化模块为优化提供了重要机会。 我们提出了ACCESS-AV,这是一种节能的车辆对基础设施(V2I)本地化框架,利用智能工厂环境中现有的5G基础设施。 通过机会性地访问定期广播的5G同步信号块(SSB)进行本地化,ACCESS-AV无需专用路边单元(RSU)或额外的车载传感器来实现能源效率和降低成本。 我们使用多信号分类(MUSIC)算法实现了基于AOA的到达角度(AoA)估计方法,该算法通过自适应通信计算策略针对资源受限的ADV平台进行了优化,该策略根据环境条件(如信号噪声比(SNR)和车辆速度)动态平衡能源消耗与定位精度。 实验结果表明,ACCESS-AV实现了平均能量降低43.09
合成语音的最新进展使音频深度伪造变得越来越现实,带来了重大的安全风险。 现有的检测方法依赖于单一模式,无论是原始波形嵌入还是基于光谱的特征,都容易受到非恶搞干扰的影响,并且通常过度适应已知的伪造算法,导致对看不见的攻击的概括不力。 为了解决这些缺点,我们研究混合融合框架,将基于自监督学习(SSL)的表示与手工制作的光谱描述符(MFCC ,LFCC,CQCC)集成。 通过跨模式对齐和组合互补信息,这些融合方法捕获了单个特征方法通常忽略的微妙工件。 我们探索了几种融合策略,包括简单的连接,交叉注意力,相互交叉关注和可学习的闸门机制,以最佳地将SSL功能与细粒度光谱线索相结合。 我们根据四个具有挑战性的公共基准评估我们的方法,并报告推广业绩。 所有融合变体始终优于SSL仅基线,交叉注意力策略以38实现最佳推广
本文介绍了使用随机结构的储罐计算机(SSRC)识别和模拟金融和经济系统的方法。 拟议的框架利用结构保护嵌入和图知情耦合矩阵来建模代理间动力学,增强可解释性。 受限优化方案可确保学习模型满足随机和结构约束。 两个实证案例研究,代理之间的资源竞争的动态行为模型,以及区域通货膨胀网络动态,说明了该方法在捕获和预测复杂的非线性模式以及在不确定性下进行可解释的可解释性分析的有效性。
在这项工作中,我们的目标是模仿人类有选择地参加单个扬声器的能力,即使在多个同时交谈者在场的情况下也是如此。 我们提出了一种新的双耳目标扬声器提取方法,利用听众的头部相关传输功能(HRTF)来隔离所需的扬声器。 值得注意的是,我们的方法不依赖于扬声器嵌入,使其独立于扬声器,并在不同语言的多个语音数据集中实现强大的泛化。 我们使用一个完全复杂值的神经网络,直接在混合音频信号的复杂值短时间傅里叶变换(STFT)上运行。 这偏离了使用光谱图或将STFT的真实和想象成分视为单独的实值输入的传统方法。 我们首先在无噪音的无噪音场景中评估该方法,其中它展示了出色的提取性能,同时有效地保留了目标信号的双耳线索。 然后,我们在温和的混响条件下测试一个修改的变体。 此版本在混响环境中保持稳健,保持语音清晰度,保持源方向性,同时减少混响。
离散语音标记化是语音编解码器中的基本组成部分。 然而,在大规模语音到语音系统中,来自多个量化器的并行流的复杂性和高时维编解码器的计算成本带来了重大挑战。 在本文中,我们介绍了HH-Codec,这是一种神经编解码器,在依赖单定量推断的同时,以每秒24个令牌的速度实现极端压缩,用于24 kHz音频。 我们的方法涉及精心设计的矢量量化空间,用于语音语言建模,优化压缩效率,同时最大限度地减少信息损失。 基于此,我们提出了非对称编码器解码器架构(Audio-VQ-Mel-Audio),利用双重监督和渐进式培训来增强重建稳定性和保真度。 HH-Codec以0.3 kbps的超低带宽在语音重建中实现了最先进的性能。 我们进一步评估其在代码本利用率和生成模型适应方面的有效性,并广泛评估每个模块的必要性。 HH-Codec可在https://github.com/opendilab/HH-Codec上查阅。
全双工语音对话系统(FDSDS)通过允许实时用户中断和反向通道实现更自然的人机交互,而传统的SDS依赖于转弯。 然而,现有的基准缺乏FD场景的指标,例如,在用户中断期间评估模型性能。 在本文中,我们提出了利用 LLM、TTS 和 ASR 解决这一差距的全面 FD 基准测试管道。 它评估了FDDS处理用户中断,管理延迟的能力,并在具有各种新指标的挑战场景中保持稳健性。 我们使用超过40小时的生成语音将基准应用于三个开源FDDS(Moshi,Freeze-omni和VITA-1.5),有293次模拟对话和1,200次中断。 结果表明,所有模型在频繁的中断和嘈杂条件下继续面临挑战,例如未能应对用户中断。 演示、数据和代码将发布。
电网的数字化使得他们在过去十年越来越容易受到网络攻击。 迭代网络安全测试对于对抗新出现的攻击媒介和确保关键基础设施的可靠性是必不可少的。 此外,这些可用于评估网络安全配置,针对各种攻击媒介的网络安全措施的有效性,以及培训智能电网网络安全专家捍卫系统。 开展广泛的实验缩小了学术研究和生产环境之间的差距。 高保真网络范围至关重要,因为使用生产环境进行此类实验和培训往往不可行。 然而,网络范围的设计和实施需要对基础设施的物理和网络方面有广泛的领域知识。 此外,设置和维护网络范围的成本也很大。 此外,大多数现有的智能电网网络范围被设计为一次性专有系统,并且在可配置性,可访问性,可移植性和可重复性方面受到限制。 为了应对这些挑战,本文介绍了自动化的智能电网网络网络生成框架。 最初定义了一种基于人/机器友好的基于XML的建模语言,称为智能网格建模语言,它集成了IEC 61850系统配置语言文件。 随后,开发了一种工具链,用于解析SG-ML模型文件并自动实例化功能智能电网网络范围。 开发的SG-ML模型可以很容易地共享和/或修改,以复制或自定义任何网络范围。 Auto-SGCR的应用通过具有大型变电站模型的案例研究进行演示。 工具链以及SG-ML模型都是开源的。
本文介绍了OmniGSE,这是一种新颖的一般语音增强(GSE)框架,旨在减轻语音信号在现实世界中遇到的各种扭曲。 这些失真包括背景噪声、混响、带宽限制、信号剪切和网络数据包丢失。 现有方法通常侧重于优化单一类型的失真,通常难以有效地处理复杂场景中多个失真同时存在的情况。 OmniGSE通过通过实现跨领域协作优化的两级架构整合判和生成方法的优势来弥合这一差距。 在第一阶段,使用轻量级通道分割的NAC-RoMer增强了连续功能。 在第二阶段,生成离散令牌,通过语言模型重建高质量的语音。 具体来说,我们设计了一个由RootLM和多个BranchLM组成的分层语言模型结构。 RootLM 模拟了跨代码簿层的一般声学特征,而 BranchLM 则明确捕获了不同代码簿级别之间的渐进关系。 实验结果表明,OmniGSE在多个基准测试中超越了现有模型,特别是在涉及复合失真的情况下表现出色。 这些发现强调了该框架在实际应用中强大和多功能的语音增强的潜力。
在客户关系管理(CRM)系统的设计中,准确识别客户类型并提供个性化服务是提高客户满意度和忠诚度的关键。 然而,这一过程面临着辨别客户声音和意图的挑战,一般预训练的自动语音识别(ASR)模型使得难以有效解决行业特定的语音识别任务。 为了解决这个问题,我们创新地提出了针对特定行业ASR模型的微调解决方案,这显著提高了微调ASR模型在行业应用中的性能。 实验结果表明,我们的方法大大提高了ASR模型在行业CRM系统中的关键辅助作用,这种方法在实际工业应用中也被采用。
我们介绍了由简单图建模的复制数据库上的对称私有信息检索(SPIR)问题。 在这个模型中,每个顶点对应一个服务器,如果并且只有当它们之间存在边缘时,才会在两个服务器上复制一条消息。 我们考虑实现 SPIR 所必需的服务器端共随机性在服务器上也根据图形在服务器上复制的设置,我们将其称为消息特异性的常见随机性。 在这种设置中,我们通过提出一个可实现的 SPIR 方案,在 SPIR 容量上建立一个下限,即对一般图形的最大下载速率。 接下来,我们证明,对于任何SPIR方案都是可行的,消息特定随机性的最小大小应该等于消息的大小。 最后,通过提供匹配的上限,我们得出路径和常规图形类的确切 SPIR 容量。
基于语音的对话式AI系统越来越依赖于将语音到文本(STT)、大型语言模型(LLM)和文本到语音(TTS)组件相结合的级联架构。 然而,对生产环境中不同组件组合的系统评估仍然缺乏研究。 我们使用来自超过30万个AI进行的工作面试的数据,对STT x LLM x TTS堆栈进行了大规模的经验比较。 我们使用 LLM-as-a-Judge 开发自动化评估框架,以评估会话质量、技术准确性和技能评估能力。 我们对四种生产配置的分析表明,Google STT与GPT-4.1在对话和技术质量指标方面显着优于替代品。 令人惊讶的是,我们发现客观质量指标与用户满意度得分密切相关,这表明基于语音的AI系统的用户体验取决于技术性能以外的因素。 我们的研究结果为选择多模态会话AI系统中的组件提供了实用的指导,并为基于语音的交互提供了经过验证的评估方法。
从人类观察中融合信息可以帮助机器人克服协作任务中的传感限制。 然而,不确定性感知的融合框架需要代表人类输入不确定性的接地可能性。 本文介绍了一个特征金字塔可能性接地网络(FP-LGN),通过学习相关的地图图像特征及其与空间关系语义的关系来为空间语言提供理由。 该模型被训练成概率估计器,使用三阶段课程学习捕捉人类语言中的缓解不确定性。 结果表明,FP-LGN在平均负日志可能性(NLL)中匹配了专家设计的规则,并以较低的标准差表现出更大的稳健性。 协同传感结果表明,接地的可能性成功地实现了异构人类语言观测和机器人传感器测量的不确定意识融合,实现了人机协作任务性能的显着改善。
通过车对电网(V2G)系统技术将电动汽车(EV)集成到电网中,每天都在增加,但这些现象既有优点也有缺点。 V2G可以通过提供分布式储能和辅助服务来提高电网的可靠性。 然而,另一方面,它的范围包括国家电网的网络物理攻击表面,在监控和监督控制和数据采集(SCADA)系统中引入了新的漏洞。 本文调查了自动驾驶汽车到电网(AV2G)通信基础设施造成的恶意,并评估了它们对SCADA系统可靠性的影响。 本文介绍了使用贝叶斯攻击图结合基于IEEE RTS-79系统数据的概率容量中断建模的定量可靠性评估。 这项工作介绍了基于AV2G的攻击如何通过使用蒙特卡洛模拟方法降低系统性能,突出了智能电网设计中网络安全硬化策略的必要性。