节能音频分类的内存纳米线网络:减少延迟的预处理无水库计算
高效的音频功能提取对于低延迟,资源受限的语音识别至关重要。 传统的预处理技术,如Mel Spectrogram,Perceptual Linear Prediction(PLP)和Learable Spectrogram,实现了高分类精度,但需要大型特征集和显著计算。 神经形态计算的低延迟和功率效率优势为音频分类提供了强大的潜力。 在这里,我们引入了记忆纳米线网络作为神经形态硬件预处理层,用于口语数字分类,这是以前没有证明的能力。 Nanowire网络直接从原始音频中提取紧凑,信息丰富的功能,在精度,从原始音频大小(数据压缩)减少尺寸和训练时间效率之间实现有利的权衡。 与最先进的软件技术相比,纳米线功能在次次训练延迟下达到66倍数据压缩(XGBoost)66倍,精度达到97.9%,压缩255倍(Random Forest)。 在多个分类器中,纳米线特性始终以超过62.5倍的压缩精度达到90%以上,优于传统技术(如MFCC)在效率方面提取的功能,而不会损失性能。 此外,纳米线功能实现了96.5%的精度分类多扬声器音频,优于所有最先进的功能精度,同时实现最高的数据压缩和最低的训练时间。 Nanowire网络预处理还增强了音频数据的线性分离性,提高了简单的分类器性能和跨扬声器的通用性。 这些结果表明,记忆纳米线网络提供了一种新颖,低延迟和数据高效的特征提取方法,从而实现高性能的神经形态音频分类。
声音处理无序系统与神经网络音频与语音处理应用物理学