问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

环境声音分类的深度CNN模型研究

创作时间:
作者:
@小白创作中心

环境声音分类的深度CNN模型研究

引用
1
来源
1.
https://www.cnblogs.com/mcu-ai-QH/p/18206168

环境声音分类(ESC)是智能声音识别(SSR)中的基本且必要的步骤。近年来,随着SSR在音频监控系统、智能设备应用和医疗保健中的实际应用,ESC问题引起了人们的广泛关注。本文提出了一种新的ESC分类CNN架构,该模型在DCASE-2017 ASC和UrbanSound8K数据集上的分类准确率分别达到96.23%和86.70%。

一、引言

智能声音识别(SSR)是一种用于检测现实生活中存在的声音事件的现代技术。SSR主要基于分析人类听力系统并将这种感知能力嵌入人工智能应用中。环境声音分类(ESC)是SSR的基本且必要的步骤。随着SSR在音频监控系统、智能设备应用和医疗保健中的实际应用,ESC问题近年来引起了人们的广泛关注。

ESC由两个主要部分组成:基于音频的特征和分类器。对于特征提取,音频信号首先使用窗函数(例如汉明窗或汉恩窗)划分为帧。然后,从每帧中提取的这组特征用于训练或测试处理。基于梅尔滤波器的特征(梅尔频率倒谱系数(MFCC)是ESC中常用的特征,其效率可以接受。此外,大量研究表明,在ESC任务中,串联特征比仅使用一组特征表现更好。然而,更多串联的传统特征无法提高分类性能。因此,适当的特征串联策略是声音分类的重要组成部分。

人工神经网络(ANN)、支持向量机(SVM)、隐马尔可夫模型(HMM)和高斯混合模型(GMM)是声音和其他类别中广泛使用的分类器。然而,这些传统分类器旨在对缺乏时间和频率不变性的明显变化进行分类。近年来,深度学习(DL)模型已被证明比传统分类器更能解决复杂的分类问题。卷积神经网络(CNN)是最广泛使用的深度学习模型之一,训练CNN模型在几乎所有分类应用中都表现出了良好的性能。此外,由预训练的CNN模型和传统分类器组成的混合方法已被用来提高分类性能。如使用预训练的CNN模型提取深层特征,SVM和KNN算法用于高光谱图像分类。利用预先训练的CNN模型(例如AlexNet和VGG16)从EMG信号中提取深层特征。使用SVMclassifier可以实现最佳准确度。然而,流行的用于特征提取的预训练CNN模型无法完全表示声音特征,因为它们仅使用图像进行训练。此外,ESC问题并不总是需要识别高分辨率图像所需的大输入量和非常深的网络结构。在这种状态下,由于可学习参数的减少,获得了较低的计算成本。

二、方法

本文针对ESC问题提出了一种由深度特征提取和分类阶段组成的方法。为此,使用频谱图图像构建并训练了端到端CNN模型。这样,我们就得到了自己的预训练CNN模型。然后,丢弃所构建的CNN模型的全连接层以进行特征提取。因此,获得了灵活的CNN架构,其中所有层的大小和数量都可以由作者自由更改。在本研究的分类阶段,使用随机子空间KNNensembles模型,该模型使用子空间特征集中的许多预测分数的投票。分类精度用于评估我们提出的方法的性能。我们进一步将所提出的方法与其他预训练的CNN模型和分类器的分类性能进行比较。与UrbanSound˷K[5]和DCASE-2017ASC[6]数据集上的其他研究相比,所提出的方法的分类精度得到了显著提高。

该方法的示意图如图1所示。该方法首先利用频谱图方法将输入声音信号转换为时频图像。在实验过程中调整了窗口类型、窗口长度和重叠大小等谱图参数。随后,使用viridis颜色图保存频谱图图像,并调整其大小以适合所提出的CNN模型的输入。所提出的CNN模型如图2所示,由三个卷积层、三个最大池化层和归一化层以及三个全连接层组成。softmax层和分类层位于最后一个全连接层之后。所用数据集的其余部分用于特征提取和测试过程。该特征集是通过连接所提出的CNN的第一和第二全连接层的输出来实现的。最后,使用鲁棒分类算法的随机子空间KNN系综测试了所提出方法的性能。


图1:所提出方法的示意图


图2:所提出的CNN模型架构

三、CNN模型

CNN旨在处理取自多维数据的数据,即由三个2D数据(包括3D通道中的像素密度)组成的彩色图像。CNN包括共享权重、局部连接、池化和其他层。卷积层、ReLU层和池化层是最常用的CNN层。卷积层的基本目的是确定前一层特征的局部连接,并将其信息映射到特定的特征图。ReLU是一种非线性激活函数,应用于使用卷积层创建的特征图。最大池化层的任务是组合从前一层传递的相似特征。最大池化层通过计算与滤波器重叠的特征图上的字段的最大值来实现下采样操作。CNN结构,其中从全连接(fc)层到分类层,一般类似于多层感知器神经网络(MLP)。fc层的任务与MLP中的隐藏层相同。fc层将下一层中的每个神经元连接到前一层中的每个神经元。Softmax函数通常在CNN中使用,将前一层的非归一化值与预测类别分数的可能性分布进行匹配。批归一化层用于减少CNN的训练时间和对网络初始化的敏感性。因此,该层是选择用于所提出的CNN架构中的归一化过程。

四、随机子空间KNN

随机子空间方法使用随机子空间集合来提高k最近邻(KNN)分类器的分类精度。该方法基于随机操作,在创建每个分类器时随机选择学习模型的多个组件。该方法将训练数据集细分为随机子空间,并利用随机子空间构成的训练集上的测试样本进行欧几里德距离和切比雪夫距离计算。根据最近邻的数量(K),最合适的子空间类成员由距离和多数投票决定。然后,每个子空间集合附带的类成员资格被组装在类向量(C)中。在C中以最高平均分数实现分类。

五、数据集

在这项工作中,考虑了两个流行的数据集来评估ESC问题。UrbanSound8K数据集由十个类别标签组成,包括空调、汽车喇叭、儿童、狗吠钻孔、发动机空转、枪声、手提钻、警报器和街头音乐。该数据集包含8732个音频文件,每个音频文件的录制时长最长为4秒,音频文件以22.05KHz采样频率录制。此外,音频文件的记录长度和每个类别中的文件数量也不相同。

DCASE-2017ASC数据集由两部分组成,包括包含4680个音频文件的开发数据集和包含1620个音频文件的评估数据集。每个音频文件的持续时间为10秒。各类文件数量均衡,所有音频文件均以44.1KHz采样频率录制。该数据集包含十五个类别,其中标签为海滩、公共汽车、咖啡馆/餐厅、汽车、市中心、森林小路、杂货店、家庭、图书馆、地铁站、办公室、公园、住宅区、火车、电车。

六、实验结果

表1显示了在DCASE-2017ASC数据集上所提出的方法与其他CNN模型和分类器的比较。表2显示了在UrbanSound8K数据集上所提出的方法与其他CNN模型和分类器的比较。实验结果表明,所提出的方法在两个数据集上都取得了较高的分类准确率,分别为96.23%和86.70%。


表1:DCASE-2017ASC数据集上的比较结果


表2:UrbanSound8K数据集上的比较结果

七、结论

本文提出了一种新的ESC分类CNN架构。所提出的CNN模型不太深,不会需要太多的训练时间。此外,所提出的新CNN模型的成绩与预训练的CNN模型相当。实验结果表明,所提出的方法在DCASE-2017ASC和UrbanSound8K数据集上都取得了较高的分类准确率,分别为96.23%和86.70%。这表明所提出的方法在ESC问题上具有很好的性能和潜力。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号