导读:本文包含了音频分类论文开题报告文献综述及选题提纲参考文献,主要关键词:深度学习,音频场景分类,卷积神经网络,膨胀卷积
音频分类论文文献综述
陈艳[1](2019)在《基于深度学习的音频场景分类方法研究》一文中研究指出在声音信号检索(Sound Information Retrieval,SIR)领域,音频场景分类(Environmental Sound Classification,ESC)作为该领域的热点问题,致力于通过分析从各种音频信号中提取的复杂特性,识别其对应的特定场景所包含的语义标签,从而对其周围环境进行感知和理解,最终实现特定音频场景的分类。常用音频信号特征提取方法为梅尔频率倒谱系数(MEL Frequency Cepstrum Coefficient,MFCC)。这种方法虽然抗干扰能力强,能够抓取音频数据中最有辨识度的部分,但却只能分析信号的短时特征,往往不足以完整刻画整个音频数据的结构特点。近年来深度学习技术日益成熟并作为最有效的特征提取方法之一,已在机器学习、图像识别、自然语言处理等诸多领域取得突破性进展~([1])。卷积神经网络(Convolutional Neural Networks,CNN)作为典型的深度学习网络框架,具有权值共享和局部连接等特性,特别是带有池化层的卷积神经网络在对城市声音声源分类方面卓有成效。然而,池化操作往往会导致信息的大量丢失,从而影响分类结果准确性。本文在CNN具有良好结构特征分析能力的基础上,将传统音频信号特征提取方法MFCC进行了进一步结构特征分析,探索更好的深度学习方法以解决传统的音频场景分类问题。首先通过深度学习的经典模型CNN进行实验,并采用了结构特殊的膨胀卷积方法对比,发现膨胀卷积由于其“网格型”结构可以在原始参数不增加的情况下,扩大感受野范围,覆盖更多帧,从而很好代替传统带有池化操作的卷积运算。同时,通过对膨胀卷积结构特点的进一步研究,发现膨胀系数变大或扩大膨胀卷积层数将使实验精度降低。认为在膨胀卷积模型中存在固有“网格”缺陷,因此会丢失很大信息,过度放大的感受野使得框架太大而不能获得声音信号随时间变化的特性。可以预见,基于深度学习的音频场景分类问题在今后的工作中还存在很多值得深入探究的内容。本文主要研究内容及取得成果如下:(1)整理总结国内外音频信号处理问题及深度学习技术的发展现状,发现传统音频信号处理只能分析信号的短时特征,后续识别问题步骤繁多复杂,且主要基于一般浅层分类器的应用。通过研究典型深度学习方法,寻找适合的结构化模型在语音识别分类上进行实践应用。(2)深度学习的方法多种多样,不同结构对不同场景特征敏感度不同,识别性能存在差距。本文研究了带有池化操作的传统卷积神经网络的音频场景特征提取分类方法。并在模型设计中引入了膨胀卷积思想,通过这种特殊结构的卷积操作形式,在城市声源数据集中取得了比传统卷积神经网络更好的结果。(3)深入研究膨胀卷积的结构对实验结果的影响,发现扩大膨胀率或膨胀卷积层数将使实验分类精度降低。这可能是音频信号具有短时稳定性,膨胀模型有“网格”连接缺陷,经过MFCC处理的特征再通过这种网格结构,覆盖帧的范围严重改变,最终影响整体音频信号的特征提取。(本文来源于《山西大学》期刊2019-06-01)
郑安琪[2](2019)在《基于能量占比的语音音乐混合音频精细分类方法研究》一文中研究指出随着互联网技术的迅猛发展和多媒体应用的快速增加,音视频、图像等多媒体数据已经成为信息技术中主要的媒体形式。其中,音频信息是重要的多媒体数据。音频分类也成为音频数据处理时最常用的预处理技术。但是现有的音频分类方法多是将音频分类为某一单一类别,而语音音乐混合类数据是互联网中常见的音频数据,若仅标记为混合类,不够精细。故本文中提出对语音音乐混合类音频(以下简称混合音频)数据进行更加精细的标注,通过借鉴音频分类分割等方法,研究估计混合音频中语音和音乐能量占比的方法。本文针对混合音频的语音成分能量占比估计问题,分析了语音音乐在结构上的差异、研究了区分性特征提取方法、语音音乐分类方法、能量估计方法等。论文的主要内容如下:(1)基于LSTM的能量占比多分类方法将混合音频中的语音成分能量占比估计问题,转化为能量占比的分类问题,将分类器得到的结果作为混合音频中语音成分的能量占比。选取音频分类中常见的音频基本特征,对3s长的混合音频构建LSTM分类器,作为本文的基线系统。评价方法为平均误差。(2)基于语音短时停顿的能量占比估计方法利用语音中往往含有短时停顿,从而在混合音频中会出现无语音的纯音乐段这一特点估算语音成分的能量占比。该方法首先训练一个CNN二分类器,用来检测混合音频中的纯音乐段,然后通过音乐能量平稳的特点估计音乐成分的能量,计算语音成分能量占比数值。实验结果表明,该方法具有较好的效果。(3)基于和谐度特征组的能量占比分类方法针对在语音中没有停顿或者太短以至于检测不到的问题,本文提出了一种不依赖语音停顿的分类方法。该算法采用了和谐度和基频特征,对和谐度进行改进并构建了基于节拍分段的和谐度统计特征,使用CNN-LSTM网络进行分类,取得了很好的分类效果。(本文来源于《哈尔滨工业大学》期刊2019-06-01)
陈长风[3](2019)在《基于CNN-LSTM的歌曲音频情感分类》一文中研究指出歌曲中含有丰富的人类情感信息,而研究歌曲情感分类有助于对海量音乐数据进行组织和检索。事实上,从歌曲音频信号中可提取时域和频域内的多项特征参数。针对情感分类主题,提取了梅尔频率倒谱系数、过零率以及频谱质心等音频特征,分别将单一特征和融合特征输入分类器,以研究不同特征参数对情感分类的影响,并且以卷积神经网络作为特征选择层,构建了两种组合网络分类模型。实验证明,相较于传统的分类算法,CNN-LSTM组合模型在歌曲音频情感分类任务上具有更高的准确率。(本文来源于《通信技术》期刊2019年05期)
王玥[4](2019)在《砼路面宽带阵列音频信号的时频分析与CNN脱空分类研究及应用》一文中研究指出水泥混凝土路面(砼路面)具有承载能力强、耐高温、使用寿命长等优点,被广泛应用于公路系统建设中。但随着交通流量日益增大,砼路面被日常车辆反复碾压,加上自然因素,直接影响到了路面板的强度与承受能力,使其内部结构发生改变,从而缩短使用寿命。其中路面脱空便是最重要的损坏现象之一,脱空的后果不仅使路面板出现裂缝或者断板现象,而且影响着交通运输的安全,所以对于砼路面的脱空检测分类研究具有较大意义。本文首先研究了国内外脱空检测方法,针对传统声振检测法提出采用麦克风阵列来进行音频信号的采集;其次在传统相干信号子空间(CSM)法上给出改进CSM法,即基于差分空间平滑CSM法来对砼路面宽带阵列音频信号进行波达角估计;然后将信号作自适应波束形成与Wigner-Ville时频分析处理,获取定向音频信号和时频特征图;最后将得到的时频图作为基础脱空检测数据,通过不同的卷积神经网络结构模型对其进行分类与结果对比分析。在网络结构模型中,首先研究了LeNet-5和VGGNet-16,然后针对VGGNet-16的优缺点给出两种不同的改进方法,一种是在第四个卷积层模块后加入大小为11?的卷积核,并与第五个卷积层模块输出结果特征拼接,然后进入全连接层;另一种是去掉前两个全连接层,加入全局平均池化。两种改进方法的主要目的是保证时频图像特征完整、降低计算复杂度和减轻过拟合现象。通过对采集到的音频数据处理分析,结果表明在DOA估计过程中,与传统宽带信号声源定位方法相比较,基于差分空间平滑的CSM法的准确性更高。此外,在卷积神经网络分类过程中,本文采用的典型网络结构LeNet-5和VGGNet-16的分类准确率分别为92.2%和96.5%。而两种改进的VGGNet-16结构分类准确率分别为97.9%和98.1%。后期通过对自适应波束成形后的音频信号加入不同强度的高斯白噪声,来分析网络模型的鲁棒性。结果发现当信号的信噪比越低,分类准确率就越低,对于不同信噪比,网络模型的下降快慢程度不同,抗噪声干扰能力也就不同。(本文来源于《长安大学》期刊2019-04-08)
付炜,杨洋[5](2018)在《基于卷积神经网络和随机森林的音频分类方法》一文中研究指出针对传统音频分类方法手动构造特征导致过程繁琐且准确率不高的问题,提出了一种基于改进的卷积神经网络和随机森林的音频分类方法。首先,将长音频数据分段;然后,对每段音频进行短时傅里叶变换,得到每段音频的频谱图;其次,将每段音频对应的频谱图输入到卷积神经网络中,自动提取音频的高层特征;最后,将提取的高层特征输入到随机森林,训练分类器。实验结果表明:与基于隐马尔可夫模型(HMM)的方法相比,该算法准确率提高了16. 2%;与基于支持向量机(SVM)的方法相比,准确率提高了12%。所提算法能够有效提高音频分类的准确率,且能自动提取音频高层特征,降低了特征构造的复杂度。(本文来源于《计算机应用》期刊2018年S2期)
陈坤,韩立新[6](2018)在《基于音频与歌词的音乐情感分类研究》一文中研究指出针对单一音频与单一歌词对音乐情感分类的不足,以及现有多模态融合分类算法精度不高等问题,提出一种新的基于音频与歌词的多模态融合音乐情感分类方法。首先分别对音频和文本单独处理,在音频方面,利用CapsNet网络对音频进行决策分类;在歌词方面,首先利用word2vec训练词向量,然后将词向量组合得到歌词句子向量,并利用LSTM模型决策分类。最后利用改进的多模态决策层融合方法将两者进行融合,最终得到音乐所属的情感类别。实验结果表明,提出的单一音频与单一歌词的音乐情感分类方法分别可以达到60.9%和53.2%的准确率,且改进的多模态融合方法较传统线性加权的决策层多模态融合有6.4%的提升效果。(本文来源于《电子测量技术》期刊2018年22期)
周金傲,龙华[7](2018)在《基于音频特征参数的多语种分类算法》一文中研究指出伴随着国际化的趋势,音频语种识别问题越来越受到重视。但是,现有的语种识别系统不能满足现代化日益增长的需求。处理小语种和混淆度高的语种分类时,语种识别具有局限性,多语种分类算法的精度和识别率也不理想。针对多语种分类算法精度不高的情况,提出了一种基于改进音频特征参数的多语种分类算法。利用支持向量机作为分类器,设计了多特征语种识别系统,对多语种进行语种识别实验,提取每个语种的特征参数,分别选择单一特征参数集和融合特征参数集输入到SVM分类器中进行测试和训练,分别得到多语种分类的识别率。实验结果证明,使用改进的多语种分类算法可以有效提高多语种分类的精度。(本文来源于《通信技术》期刊2018年10期)
周耐[8](2018)在《基于稀疏表示和主题模型的音频分类识别研究》一文中研究指出音频信息作为人们对外界环境感知的一种重要手段,在视线遮挡、光照条件差及隐私场合等情况下可以对视觉信息起到辅助作用,且具有视觉信息无法替代的作用。随着多媒体信息的快速发展和音频信息量的急速增长,人们对音频信息管理和应用的需求越来越大,音频信息的研究得到越来越广泛的关注。音频信息具有广泛的应用前景,例如音频情感感知,智能家居工程以及基于音频信息的场景识别等。音频事件分类和音频场景识别是音频分类领域的两个重要研究方向,近年来得到研究者们的广泛关注。本论文基于稀疏表示技术和主题模型技术对音频事件分类及音频场景识别展开研究,主要研究工作包括:(1)本文提出了一种基于堆迭基稀疏表示的音频事件分类方法。该方法通过K-SVD算法为每一类音频事件分别训练创建音频字典,在得到每一类音频事件的基函数以后,通过将各类的基函数进行堆迭得到一个大型的音频字典,最后基于新创建的大型音频字典提取音频信号的稀疏表示特征。在分类阶段,本文提出通过计算样本在各类音频事件上的权重值,然后根据权重值的大小进行判别的分类策略。在进行语音-音乐二类分类实验时,本文提出的分类方法的分类正确率高达100%。在TIMIT数据库上进行说话人识别实验时,其分类准确率高达95%,比英国萨里大学Syed Zubair提出的最大值池化稀疏方法提高了13%。(2)本文提出了一种基于音频事件和主题模型的音频场景识别方法。与传统的基于文档-字共现矩阵(document-word co-occurrence matrix)进行主题分析的方法不同,本文提出的算法通过创建音频文档-音频事件共现矩阵进行主题分析,算法的创新性体现在:1)与传统的基于文档-字共现矩阵进行主题分析的方法相比,本文基于音频文档-音频事件共现矩阵进行主题分析能更好地提取音频文档的主题分布,更好地表达音频文档,进而获得更好的识别效果;2)提出了一种简单的音频文档-音频事件共现矩阵的统计方法;3)提出了一种对音频文档的事件分布进行加权的方法,这种加权方法可以突出反映音频文档独特主题的重要音频事件,并且可以抑制许多主题共有的音频事件。在AASP数据库和DEMAND数据库上的实验表明,在识别性能上,本文提出的基于音频文档-音频事件共现矩阵的音频场景识别方法优于传统的基于音频文档-音频字共现矩阵的音频场景识别方法。(本文来源于《山东师范大学》期刊2018-06-06)
胡耀文,龙华,孙俊,周涛,邵玉斌[9](2018)在《基于音频特征的乐器分类研究》一文中研究指出针对现有乐器分类研究中存在的使用特征量过多、分类准确率有待提高等问题,提出了一种特征量少、准确度高的乐器分类方法。基于Relief算法的主成分特征提取方法,计算出各特征量的权重,设计3层的神经网络分类器。根据所提算法和分类器,使用8项音频特征与传统的24项MFCC特征,分别对中西方9种乐器进行了分类实验,并分别使用权重最高的4、5、6项特征进行分类实验。结果表明,所提出的音频特征相比于传统MFCC特征对乐器分类的平均准确率更高,达到94.84%,且特征量更少,说明基于Relief算法的主成分特征提取方法能有效减小低相关性特征对分类准确率的影响。(本文来源于《软件导刊》期刊2018年06期)
李晓霞[10](2018)在《基于深度学习的音频信号砼路面脱空分类研究及应用》一文中研究指出近年来,随着经济的快速发展,我国公路的建设也迅速发展起来。作为我国公路交通的主要路面,水泥混凝土路面因具有稳定性强、刚度大及荷载能力强等特点在我国公路交通系统中占有很大比例,然而它经常受到板底脱空的威胁,板底脱空是砼路面最常见的危害之一,严重影响着道路交通的运输安全,因此尽快准确地检测出水泥混凝土路面的脱空状况显得尤为重要。传统声振无损检测法中用单麦克风接收音频信号时不仅抗干扰能力差且空间分辨率低,本文针对上述缺点运用麦克风阵列接收采集的实验数据;通过对采集的数据进行去躁、声源定位及语音增强等处理;并对音频信号进行Wigner时频分析提取有效特征,最后用深度学习的方法对其进行分类,以此来评估水泥混凝土路面的脱空状况并得出分类的准确率。同时,在用深度学习的方法进行分类时,本文也将用DBN网络分类模型和CNN网络分类模型的分类结果进行对比,并在文章最后给出了分类准确率的对比结果。本文在实测数据的基础上,运用相关软件对处理后的数据进行仿真,DBN网络分类模型采用MATLAB中深度学习工具箱DeepLearnToolbox对处理后的数据进行仿真,而CNN网络分类模型是在Caffe平台GPU计算条件下进行仿真实验的,实验结果表明:本文采用的深度学习方法中DBN网络模型和CNN网络模型的分类准确率分别为97.33%和99.1%,比传统SVM方法的分类准确率分别高9.83%和11.6%,验证了本文方法的可行性,可准确判断出砼路面的脱空情况。而在深度学习的方法中,CNN网络模型比DBN网络模型的分类准确率高1.77%,可知CNN网络模型分类的准确率更高。(本文来源于《长安大学》期刊2018-04-02)
音频分类论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
随着互联网技术的迅猛发展和多媒体应用的快速增加,音视频、图像等多媒体数据已经成为信息技术中主要的媒体形式。其中,音频信息是重要的多媒体数据。音频分类也成为音频数据处理时最常用的预处理技术。但是现有的音频分类方法多是将音频分类为某一单一类别,而语音音乐混合类数据是互联网中常见的音频数据,若仅标记为混合类,不够精细。故本文中提出对语音音乐混合类音频(以下简称混合音频)数据进行更加精细的标注,通过借鉴音频分类分割等方法,研究估计混合音频中语音和音乐能量占比的方法。本文针对混合音频的语音成分能量占比估计问题,分析了语音音乐在结构上的差异、研究了区分性特征提取方法、语音音乐分类方法、能量估计方法等。论文的主要内容如下:(1)基于LSTM的能量占比多分类方法将混合音频中的语音成分能量占比估计问题,转化为能量占比的分类问题,将分类器得到的结果作为混合音频中语音成分的能量占比。选取音频分类中常见的音频基本特征,对3s长的混合音频构建LSTM分类器,作为本文的基线系统。评价方法为平均误差。(2)基于语音短时停顿的能量占比估计方法利用语音中往往含有短时停顿,从而在混合音频中会出现无语音的纯音乐段这一特点估算语音成分的能量占比。该方法首先训练一个CNN二分类器,用来检测混合音频中的纯音乐段,然后通过音乐能量平稳的特点估计音乐成分的能量,计算语音成分能量占比数值。实验结果表明,该方法具有较好的效果。(3)基于和谐度特征组的能量占比分类方法针对在语音中没有停顿或者太短以至于检测不到的问题,本文提出了一种不依赖语音停顿的分类方法。该算法采用了和谐度和基频特征,对和谐度进行改进并构建了基于节拍分段的和谐度统计特征,使用CNN-LSTM网络进行分类,取得了很好的分类效果。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
音频分类论文参考文献
[1].陈艳.基于深度学习的音频场景分类方法研究[D].山西大学.2019
[2].郑安琪.基于能量占比的语音音乐混合音频精细分类方法研究[D].哈尔滨工业大学.2019
[3].陈长风.基于CNN-LSTM的歌曲音频情感分类[J].通信技术.2019
[4].王玥.砼路面宽带阵列音频信号的时频分析与CNN脱空分类研究及应用[D].长安大学.2019
[5].付炜,杨洋.基于卷积神经网络和随机森林的音频分类方法[J].计算机应用.2018
[6].陈坤,韩立新.基于音频与歌词的音乐情感分类研究[J].电子测量技术.2018
[7].周金傲,龙华.基于音频特征参数的多语种分类算法[J].通信技术.2018
[8].周耐.基于稀疏表示和主题模型的音频分类识别研究[D].山东师范大学.2018
[9].胡耀文,龙华,孙俊,周涛,邵玉斌.基于音频特征的乐器分类研究[J].软件导刊.2018
[10].李晓霞.基于深度学习的音频信号砼路面脱空分类研究及应用[D].长安大学.2018