摘要:声学场景中包含着很多长时特征和短时特征。本文提取环境声的能量信息,批量生成声音场景的三维语谱图,作为卷积神经网络的输入。神经网络采用卷积层和下采样层重复交叠,整体网络采用六层网络结构,最终经过softmax方法进行多分类。实验采用DCASE2017竞赛数据集作为素材,对15类6300段音频进行训练测试,结果表明,语谱图特征与卷积神经网络相结合的算法能够很好的提取长时特征和短时特征,使得最终分类准确率较高,优于网站基线系统的分类结果。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社。
中国传媒大学学报杂志, 双月刊,本刊重视学术导向,坚持科学性、学术性、先进性、创新性,刊载内容涉及的栏目:会讯、学术理论、技术应用、技术管理、教学研究、研究通讯等。于1994年经新闻总署批准的正规刊物。