导读:本文包含了连续语音识别论文开题报告文献综述、选题提纲参考文献,主要关键词:神经网络,语音识别,词汇量,声学,模型,语音,卷积。
连续语音识别论文文献综述写法
李海强[1](2019)在《基于HTK的汉语离散和连续数字语音识别研究》一文中研究指出互联网技术不断发展,产生了许多新生技术,这些技术在互联网的带动下蓬勃发展,对社会发展起到了很大的促进作用,特别是目前市场上流行的语音交互技术,其所取得的成绩是举世瞩目。该技术可以促进机器和人进行交互,能让机器识别人的语音命令,并对语音命令做出动作的回复,这种技术也被称为语音识别系统,而该系统核心的内容就是本文研究的离散和连续数字语音识别。同时,该技术应用领域广泛,目前在很多领域包括国防、工业、通信等方面都有着密切的关联。虽然在各项研究领域中,已经存在不少关于该方面的研究,但是依旧存在很多的问题亟待解决。在以上背景下,本文研究利用HTK(Hidden Markov Model Toolkit)的结构及其工具包搭建相关系统;通过对基于HTK的汉语离散和连续语音数字识别的研究,完成了对影响系统识别率叁个因素的测试,即测试了声学模型,高斯混合分量和梅尔倒谱系数。在此基础之上,再继续对语音拨号系统进行研究,最终实现了对人的名字,以及相应的电话号码的识别。在完成了以上研究的基础上,进行了优化语音识别网络的研究,通过对原识别方法的分析,导出了一种优化语音识别网络的方法,并且从理论上证明和实验上验证了其正确性。最后进行了基于ATK(API of HTK)的实时语音识别的初步研究。讨论了使用ATK建立一套实时语音识别系统的过程,并且实现了基于ATK的实时语音拨号系统,但是识别效果不理想,需不断优化。(本文来源于《哈尔滨理工大学》期刊2019-06-01)
刘雪燕[2](2019)在《高噪声背景下舰船指挥舱大词汇量连续语音识别方法》一文中研究指出传统的舰船指挥舱大词汇量连续语音识别方法存在着识别错误率高的缺陷,为此提出高噪声背景下舰船指挥舱大词汇量连续语音识别方法研究。对采集的连续语音信号进行预加重和预处理,以预处理后的连续语音信号为基础,采用多通道语音增强方法对连续语音信号进行增强,得到纯净连续语音信号估计,采用CDMFCC方法对纯净连续语音信号特征参数进行提取,通过CDHMM方法实现了高噪声背景下舰船指挥舱大词汇量连续语音的识别。通过实验得到,提出的舰船指挥舱大词汇量连续语音识别方法识别错误率比传统方法低了16%,说明提出的舰船指挥舱大词汇量连续语音识别方法识别性能更好。(本文来源于《舰船科学技术》期刊2019年08期)
黎煊,赵建,高云,刘望宏,雷明刚[3](2019)在《基于连续语音识别技术的猪连续咳嗽声识别》一文中研究指出针对现有基于孤立词识别技术的猪咳嗽声识别存在识别声音种类有限,无法反映实际患病猪连续咳嗽的问题,该文提出了基于双向长短时记忆网络-连接时序分类模型(birectional long short-termmemory-connectionist temporal classification,BLSTM-CTC)构建猪声音声学模型,进行猪场环境猪连续咳嗽声识别的方法,以此进行猪早期呼吸道疾病的预警和判断。研究了体质量为75 kg左右长白猪单个咳嗽声样本的持续时间长度和能量大小的时域特征,构建了声音样本持续时间在0.24~0.74 s和能量大于40.15 V~2·s的阈值范围。在此阈值范围内,利用单参数双门限端点检测算法对基于多窗谱的心理声学语音增强算法处理后的30 h猪场声音进行检测,得到222段试验语料。将猪场环境下的声音分为猪咳嗽声和非猪咳嗽声,并以此作为声学模型建模单元,进行语料的标注。提取26维梅尔频率倒谱系数(Mel frequency cepstral coefficients,MFCC)作为试验语段特征参数。通过BLSTM网络学习猪连续声音的变化规律,并利用CTC实现了端到端的猪连续声音识别系统。5折交叉验证试验平均猪咳嗽声识别率达到92.40%,误识别率为3.55%,总识别率达到93.77%。同时,以数据集外1 h语料进行了算法应用测试,得到猪咳嗽声识别率为94.23%,误识别率为9.09%,总识别率为93.24%。表明基于连续语音识别技术的BLSTM-CTC猪咳嗽声识别模型是稳定可靠的。该研究可为生猪健康养殖过程中猪连续咳嗽声的识别和疾病判断提参考。(本文来源于《农业工程学报》期刊2019年06期)
刘宇[4](2018)在《基于深度学习的大词汇量连续语音识别的研究》一文中研究指出自动语音识别的主要目的是让机器可以“听懂”人们说话的内容,并将语音信号转化为文本信息,能实现人类与机器之间快速、无障碍的交流。近年来,随着深度学习技术的广泛应用,DNN-HMM语音识别架构逐渐取代了传统的GMM-HMM语音识别架构,成为当前大词汇量连续语音识别系统的主流架构。本文以深度学习为基础,从特征提取和声学模型两个方面展开深入研究,具有较高的理论意义和研究价值。首先,阐述了语音识别技术的国内外研究现状,介绍了深度学习理论基础和语音识别关键技术,对基于深度学习的大词汇量连续语音识别系统的整体方案进行了设计。着重分析原始声学特征提取和DNN-HMM声学模型存在的不足之处,明确本论文研究的关键技术是语音特征提取和声学模型优化。其次,针对MFCC、Fbank、瓶颈特征等常用语音特征对语音前后帧相关性信息提取不足导致识别率不高的问题,提出一种基于重迭组套索稀疏深度神经网络的语音瓶颈特征提取改进方法。该方法利用重迭组套索算法对DNN进行改进,并从MFCC声学特征中提取到具有语音相关性信息的语音瓶颈特征。实验结果表明,利用DNN得到的语音瓶颈特征与原始的MFCC相比,语音识别率得到显着提高。然后,为解决DBLSTM中常出现的梯度消失和模型过拟合问题,提出利用Maxout神经元和Dropout正则化算法改进DBLSTM-HMM声学模型。为适应DBLSTM对语音信息每个时间步长的双向依赖性,进一步提出利用CSC-BPTT训练算法训练DBLSTM神经网络。实验结果表明本文改进的DBLSTM-HMM声学模型优于DNN-HMM、RNN-HMM等典型的声学模型,语音识别性能得到较大的提高。最后,利用本文改进的语音特征提取方法和声学模型构建基于DBLSTM-HMM的大词汇量连续语音识别系统,并在THCHS-30中文语料库和自制语料库中进行实验验证和分析。实验结果表明,本文建立的语音识别系统与传统的基于DNN-HMM的语音识别系统相比,WER低7.44%,系统泛化能力更强,语音识别率更高。(本文来源于《重庆邮电大学》期刊2018-05-17)
柯旺松[5](2018)在《卷积神经网络在大词汇量连续语音识别中的运用研究》一文中研究指出语音识别技术经过多年发展已取得了长足的进步,在孤立词识别方面已经取得了很大的成功,在识别率上已经达到了接近完全正确的高度,但是在大词汇量连续语音识别(LVCSR)方面仍有较大提高的空间。近年来,深度学习在大词汇量连续语音识别领域的运用受到广泛的重视。本文研究了卷积神经网络(CNN)在大词汇量连续语音识别中的运用,选题具有重要的理论与实际意义。论文首先描述了语音识别技术的研究背景和现状,论述了语音识别与人工神经网络的相关知识,包括语音识别的基本原理、语音识别系统的构成、以及人工神经网络的BP算法和卷积神经网络的训练算法。其次,描述了大词汇量连续语音识别中存在的难点,分析了卷积神经网络在LVCSR中的优势,搭建了本文大词汇量连续语音识别系统;并重点阐述了LVCSR中的CNN网络结构,分析了网络各层的特点,说明了各层参数的设计方法。最后,选用中文语音库TIMIT和英文语音库thchs30,对卷积神经网络在LVCSR中的运用进行了实验测试。对FBANK语音特征和广泛使用的MFCC语音特征进行了比较,FBANK语音特征在CNN模型中有着更低的词错误率。通过对卷积层卷积核大小和池化层池化面积大小的调优,实现对卷积神经网络结构的优化,获得了词错误率相对较低的网络模型。英文数据库TIMIT优化后的词错误率为19.1%,相比于GMM-HMM方法的单音素模型的词错误率32.7%和叁音素模型的词错误率25.6%,CNN模型提高了识别正确率;中文语音库thchs30优化后的词错误率为27.34%,相比于GMM-HMM方法的单音素模型的50.88%和叁音素模型的35.97%,CNN模型也提高了识别正确率。实验中还通过在线识别的方法,展示了优化后的CNN在LVCSR中的识别结果和性能提升。研究表明,卷积神经网络在LVCSR中能够减少语音识别的词错误率,但仍然有很多的研究工作要做,如结合大数据的学习更好提升语音识别的性能等。(本文来源于《华中科技大学》期刊2018-05-01)
李云红,王成,王延年[6](2018)在《基于混合DBNN-BLSTM模型的大词汇量连续语音识别》一文中研究指出深度置信神经网络(DBNN)模型和双向长短时记忆神经网络模型(BLSTM)在单独进行特征提取时识别率不理想,长短时记忆单元(LSTM)与BLSTM模型可以更好解析语音数据特征.因此将DBNN模型和BLSTM模型相结合,提出一种大词汇量连续语音识别(LVCSR)的声学模型建立方法,并在Keras深度学习框架下进行实验.实验结果表明,使用改进的DBNNBLSTM模型进行大词汇量连续语音识别,识别精度有所提高,比BLSTM模型的语音识别率提高5%.(本文来源于《纺织高校基础科学学报》期刊2018年01期)
李明浩[7](2018)在《基于深度神经网络的连续语音识别研究》一文中研究指出语音识别是模式识别的重要研究分支,也是当下人工智能时代人们重点关注的一项交互技术。近50多年来,传统语音识别技术逐渐地趋于稳定,而随着21世纪初深度神经网络理论的广泛关注,语音识别技术也随之有了迅猛的发展。从理论研究到产品应用,多样的深度神经网络模型在复杂的语音识别任务中取得了不俗的成果。本文的研究初衷是探讨在连续语音识别任务中应用不同的深度神经网络模型,完成的主要工作有两点:(1)研究了基于自动编码器结构的声学特征提取方法,针对现实应用场景中存在的噪声污染、多声源干扰等复杂环境下的语音识别任务,提出了一种堆迭式压缩降噪自动编码器模型,使得提取出的声学特征具有更强的抗干扰能力和表征能力。在2个标准语料库上进行的对比实验中,分别验证了网络模型深度以及使用不同编码器结构对提取声学特征的影响。经实验结果表明,堆迭式压缩降噪自动编码器模型能够通过自身的泛化能力,提取出更能代表语音信号本身的深层次特征,且在识别率指标上较其他的编码器网络模型结构有2%--4%的绝对提升。(2)研究了基于循环神经网络的端到端语音识别过程,分别使用CTC训练准则和注意力机制训练准则,在双向循环神经网络的基础上,建立了从声学特征(输入端)到不同输出单元(输出端)的整体性训练序列映射的神经网络模型。在与传统识别系统的对比实验中,分别经WSJ-14小时语料训练和WSJ-80小时语料训练后的实验结果表明,端到端语音识别过程若在有限的资源条件下进行训练,模型的优势并不突出,但从总体上讲,若能得到相对足够的训练语料进行辅助支撑,且在语言模型等文本语料的额外帮助的情况下,在词错误率指标上会取得明显的下降效果。(本文来源于《吉林大学》期刊2018-04-01)
龚文彦[8](2018)在《基于卷积神经网络的连续语音识别算法研究》一文中研究指出目前,语音识别日渐成为优质服务行业产品的必备功能,因此语音识别的准确度及高效性成为产品走向应用的关键。业内研究表明,识别高效性与训练效率的高低有着直接的关系,而导致训练效率高低的主要原因在于声学模型权值的适应性调整是否能完全契合训练误差变化而带来的冗余计算及拟合程度低的问题。另外,要提高语音识别的准确率,改进端点检测方法与进行数据集增噪是其关键。结合国内外的研究成果,分析研究语音与噪声的属性特征差异来增强短时能量,用以提高门限判决灵敏度;采用对差异性数据集进行加噪处理,增强识别鲁棒性。通过改进反向传播算法来约束权值变化范围,避免振荡现象,缩短训练时间。最后,搭建语音识别原型系统,验证算法有效性。本文的主要工作如下:(1)提出增强短时能量的双门限端点检测法和差异性数据集加噪法。针对背景噪声的随机性而导致端点检测准确度不高和模型在特定环境下语音识别率低的问题,本文通过分析短时能量和自相关函数余弦角值之间的特征属性异同点,计算经自相关函数余弦角值端点检测法得到的语音段短时能量,将有效语音短时能量与自相关函数余弦角值相比,达到增强语音短时能量的目的,从而增强阈值判决端点位置的能力。又从谱减法的逆向角度出发,将具有环境特殊性的背景噪声加入经端点检测后的训练集语音中,通过训练集的频谱域来补偿数据集,减少了训练集与应用环境下语音的差异,增加了训练数据量并提高了模型对含噪语音识别的鲁棒性。(2)提出一种缩小权值范围反向传播(NWBP)算法。在真实音识别系统中,存在着海量训练数据和卷积神经网络的超大规模模型参数导致的训练效率低等问题,针对这些问题,NWBP算法围绕网络参数训练后期寻找误差极小值时易出现的振荡现象,采用K-MEANS算法获取逼近误差极小值的种子节点,利用边界值规则缩小权值变化范围来减少振荡现象发生,使得网络误差尽快收敛,提高训练效率。通过仿真实验,NWBP算法在复杂卷积神经网络的权值训练过程中相比其他算法拟合程度和收敛速度得到提升,一定程度上减少了冗余计算,缩短了训练时间,且该算法相比在简单网络中更能体现加快网络收敛的优势。(3)搭建语音识别原型系统。在SRILM语言模型训练工具和PocketSphinx解码器工具的基础上,设计并实现原型系统的各模块功能,采用不同环境下的语料来验证提出算法的有效性。(本文来源于《江苏大学》期刊2018-04-01)
曹冠彬[9](2017)在《基于HMM的连续语音识别技术研究》一文中研究指出进入二十一世纪,人工智能飞速发展,语音识别技术是人工智能的一个重要方面。随着软硬件技术的发展,连续语音识别技术已经取得很大进展。连续语音识别系统的性能与两个重要因素有关,一是语音识别模型,二是连续语音切分。对于语音识别模型,可以选取对时序信号有着较强处理能力的隐马尔可夫模型或者拥有自主学习能力的人工神经网络模型。本文对比分析了叁种常用的语音识别模型,选取隐马尔可夫模型研究了汉语连续语音识别技术。连续语音的切分一直是语音识别技术的一个难点,在海量训练语音条件下,通过基于模型的切分方法能够在一定程度上实现连续语音切分;当训练语音不足时,汉语连续语音的切分就会存在很多问题。本文分析了汉语的发音特点和语音结构特征,利用语谱图和基音周期轨迹,研究了汉语连续语音的多级切分方法。全文的主要研究内容如下:(1)语音信号特征分析。对汉语连续语音识别来说,切分是一个难点。要想实现连续语音的切分,首先需要了解汉语语音信号的特点。本文分析了汉语语音信号在不同域的特性,着重利用语谱图分析了语音信号的频谱特征,利用倒谱特征获得了浊音信号的基音周期轨迹。(2)语音识别模型对比分析。本文研究了叁种语音识别模型,分别是矢量量化、高斯混合模型和隐马尔可夫模型。利用现有实验语音库对叁种语音识别模型进行了对比实验,分析各个模型的优缺点。(3)汉语连续语音多级切分方法。本文首先研究了基于时域特征参数的端点检测技术和基于倒谱的端点检测技术,分析了现有语音切分技术存在的不足。然后在分析汉语语音信号特征的基础上,利用相干分析、基音周期轨迹和语谱图灰度均值分析等技术,研究了汉语连续语音的多级切分方法。本文利用多级切分技术对麦克风信道下的连续汉语语音进行切分实验,切分准确率达到91%左右。相较于基于时域特征的切分方法和基于频域特征的切分方法,多级切分方法的准确率有着显着提升。(本文来源于《南京理工大学》期刊2017-12-01)
周楠[10](2017)在《基于深度学习的藏语非特定人连续语音识别研究》一文中研究指出高斯混合-隐马尔科夫模型(GMM-HMM)在语音识别技术中取得巨大成功,但随着语音数据量的增加,模型参数剧增,使得模型参数训练不充分,影响语音识别率。在大数据背景下,由于深度学习能够对海量数据具有超强的建模能力,被广泛的应用于模式识别各个领域。近年来,随着深度神经网络技术的发展,该模型提取的特征具有较高的稳健性和语义区分性,其在英语、汉语等主要语种的语音识别任务上的优势得到了实验验证,但深度学习在藏语非特定人连续语音识别任务上的应用尚未深入研究,因此,本文主要探讨深度神经网络和深度瓶颈神经网络在藏语拉萨话连续语音识别任务中的应用。1、基于GMM-HMM的藏语拉萨话连续语音识别研究GMM-HMM语音识别声学模型采用MFCC特征进行建模,模型具有完善的理论体系,训练效率高。本文在HTK平台上实现了基于GMM-HMM的声学模型和3-gram语言模型,通过识别解码得到单音节正确率为82.90%,准确率为79.35%。对比分析了不同高斯混合度对系统识别率的影响,在一定训练数据量的条件下,随着高斯混合度的增加,识别率会上升,但达到一定值时,由于数据稀疏性,识别率会有所下降。2、基于DNN-HMM的藏语拉萨话连续语音识别研究由于GMM-HMM声学模型采用MFCC特征进行建模,每帧MFCC特征通常只包含毫秒的语音信号,信息量不足,容易受到噪声污染,其抗噪能力弱。本文主要从深度神经网络的网络结构、预训练、参数设置等方面进行了研究,并在kaldi平台上搭建了用于藏语语音特征提取的深度神经网络,将训练好的深度神经网络的输出层特征用于训练HMM的声学模型。该系统单音节正确率为85.39%,准确率为84.68%。3、基于深度瓶颈特征的藏语拉萨话连续语音识别研究由于DNN的后验特征无法用于成熟、高效GMM-HMM声学建模框架中。具有狭窄瓶颈的深度神经网络可以解决此问题,其提取的瓶颈特征不仅具有语音长时相关性和紧凑表示的特点,并且可以代替传统的MFCC特征进行GMM-HMM声学建模。基于该思想,本文研究了基于瓶颈特征及其与MFCC复合特征的藏语连续语音识别技术。实验结果显示瓶颈复合特征具有更好的语音信号表征特性,系统识别率最高,单音节正确率为86.44%,准确率为85.80%。4、藏语拉萨话在线语音识别系统在kaldi语音识别系统平台上搭建了基于深度瓶颈特征的藏语拉萨话在线语音识别系统,该系统能够通过麦克风输入藏语语音,系统自动调用训练好的声学模型、语言模型以及词典等文件通过识别解码将识别结果显示在控制台上。(本文来源于《中央民族大学》期刊2017-11-20)
连续语音识别论文开题报告范文
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
传统的舰船指挥舱大词汇量连续语音识别方法存在着识别错误率高的缺陷,为此提出高噪声背景下舰船指挥舱大词汇量连续语音识别方法研究。对采集的连续语音信号进行预加重和预处理,以预处理后的连续语音信号为基础,采用多通道语音增强方法对连续语音信号进行增强,得到纯净连续语音信号估计,采用CDMFCC方法对纯净连续语音信号特征参数进行提取,通过CDHMM方法实现了高噪声背景下舰船指挥舱大词汇量连续语音的识别。通过实验得到,提出的舰船指挥舱大词汇量连续语音识别方法识别错误率比传统方法低了16%,说明提出的舰船指挥舱大词汇量连续语音识别方法识别性能更好。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
连续语音识别论文参考文献
[1].李海强.基于HTK的汉语离散和连续数字语音识别研究[D].哈尔滨理工大学.2019
[2].刘雪燕.高噪声背景下舰船指挥舱大词汇量连续语音识别方法[J].舰船科学技术.2019
[3].黎煊,赵建,高云,刘望宏,雷明刚.基于连续语音识别技术的猪连续咳嗽声识别[J].农业工程学报.2019
[4].刘宇.基于深度学习的大词汇量连续语音识别的研究[D].重庆邮电大学.2018
[5].柯旺松.卷积神经网络在大词汇量连续语音识别中的运用研究[D].华中科技大学.2018
[6].李云红,王成,王延年.基于混合DBNN-BLSTM模型的大词汇量连续语音识别[J].纺织高校基础科学学报.2018
[7].李明浩.基于深度神经网络的连续语音识别研究[D].吉林大学.2018
[8].龚文彦.基于卷积神经网络的连续语音识别算法研究[D].江苏大学.2018
[9].曹冠彬.基于HMM的连续语音识别技术研究[D].南京理工大学.2017
[10].周楠.基于深度学习的藏语非特定人连续语音识别研究[D].中央民族大学.2017