汉语连续语音论文_曹冠彬,张二华,王凯龙

导读:本文包含了汉语连续语音论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:模型,语音,词表,马尔,神经网络,声调,语音识别。

汉语连续语音论文文献综述

曹冠彬,张二华,王凯龙[1](2019)在《连续汉语语音切分技术研究》一文中研究指出连续语音识别技术融合了声学、语音学和语言学知识,是当前人工智能研究领域的热点之一。连续语音的切分是语音识别的重要基础。传统的双门限端点检测技术、基于模型的端点检测技术等方法在语音切分中的效果不尽如人意。论文针对该问题,分析了汉语的语音结构和发音特点,研究了连续汉语语音的多级切分方法,综合利用双门限端点检测技术、基于倒谱的端点检测技术和相干分析等技术,实现了汉语连续语音的切分。(本文来源于《计算机与数字工程》期刊2019年07期)

李海强[2](2019)在《基于HTK的汉语离散和连续数字语音识别研究》一文中研究指出互联网技术不断发展,产生了许多新生技术,这些技术在互联网的带动下蓬勃发展,对社会发展起到了很大的促进作用,特别是目前市场上流行的语音交互技术,其所取得的成绩是举世瞩目。该技术可以促进机器和人进行交互,能让机器识别人的语音命令,并对语音命令做出动作的回复,这种技术也被称为语音识别系统,而该系统核心的内容就是本文研究的离散和连续数字语音识别。同时,该技术应用领域广泛,目前在很多领域包括国防、工业、通信等方面都有着密切的关联。虽然在各项研究领域中,已经存在不少关于该方面的研究,但是依旧存在很多的问题亟待解决。在以上背景下,本文研究利用HTK(Hidden Markov Model Toolkit)的结构及其工具包搭建相关系统;通过对基于HTK的汉语离散和连续语音数字识别的研究,完成了对影响系统识别率叁个因素的测试,即测试了声学模型,高斯混合分量和梅尔倒谱系数。在此基础之上,再继续对语音拨号系统进行研究,最终实现了对人的名字,以及相应的电话号码的识别。在完成了以上研究的基础上,进行了优化语音识别网络的研究,通过对原识别方法的分析,导出了一种优化语音识别网络的方法,并且从理论上证明和实验上验证了其正确性。最后进行了基于ATK(API of HTK)的实时语音识别的初步研究。讨论了使用ATK建立一套实时语音识别系统的过程,并且实现了基于ATK的实时语音拨号系统,但是识别效果不理想,需不断优化。(本文来源于《哈尔滨理工大学》期刊2019-06-01)

曹宜倩[3](2017)在《汉语大学生连续语流中英语音段产出及错误类型的探讨》一文中研究指出本研究旨在探讨汉语大学生英语语音音段产出状况,并对其错误类型进行归类。调查结果表明,辅音音段产出较差,而元音音段产出较好。(本文来源于《长江丛刊》期刊2017年03期)

刘从桂[4](2014)在《噪声环境下汉语连续语音声调识别研究》一文中研究指出汉语不同于英语的一种语音,最显着的差别在于语调,汉语是个有调语言,而英语中并不存在调一说。因此声调成为了汉语一个非常重要的特征,并运用到许多语音研究领域,比如语音合成,语音识别,以及语音编码。本文我们研究对象是标准普通话。孤立字声调模型相对稳定,因此,孤立字的声调识别相对而言比较容易。而连续语音的声调识别却并不容易,主要原因是连续语音的声调协同作用。协同作用是导致连续语音声调模型多样性。传统的方法是对每个变调进行建模从而进行模式识别,但是,标准声调的变调模型之间往往存在重迭。这是很多连续声调识别方法难以提高识别率的根本原因。语音不可避免会被噪声污染,而噪声往往会影响声调的检测。为此,语音增强预处理是非常有必要的。本文主要研究内容和创新成果如下:1.提出新的子空间语音增强算法子空间算法主要包括信号维数估计和信号空间滤波处理过程。传统子空间算法运用噪声估计来确定信号维度,这并不合理,因为,实际噪声多数都是非稳定的。对此,本文运用基于重建误差函数的方法估计信号维数。其主要原理是基于主要成分分析方法(PCA)计算重建误差,误差越小,重建信号就是最优的,从而估计出信号维数。考虑到噪声的非稳定性,运用跟踪算法实时地估计噪声。理论上,信号子空间中减法运算是可以去噪的,这种算法类似谱减法语言增强。但是,子空间内单纯减去噪声的方法并不能有效实现去噪。为此,我们运用了维纳滤波的算法代替减法算法来去除混合子空间内的噪声。实验证明,本文提出的新的子空间算法能有效实现语音增强。2.提出了新的基于稀疏的语音增强方法语言信号是近似稀疏的,而且多数的能量都存在于低频段。本文结合这一特点设计了复合稀疏字典进行语音增强,即是运用稀疏字典来描述语音低频部分,运用固定字典描述语音高频部分。因为,高频段的语音成分也是不可忽视的,所以运用一个固定字典去描述也是非常有必要的。实验证明这种方法非常有效。然而,这种方法并不适合所有情况,当信噪比比较小或者比较大时,复合字典的性能急速下降。我们认为这种现象主要是语音和噪声之间的分类明显造成的,这种情况下,我们认为噪声也是稀疏性的,我们运用复合字典分别描述噪声和语音。实验表明,这种算法能有效改进高信噪比和低信噪比条件下的语音增强性能。3.基于相邻声调信息进行连续声调识别传统连续声调的识别算法并没有考虑这种模板重迭现象。本文的声调识别方法中,所有声调被划分为四个声调模型,运用模糊算法实现声调预识别。同时结合相邻声调相互影响规律,对已知连续声调序列进行预测,从而形成声调字典。最后结合声调识别结果和预测结果得到声调识别结果。为了验证声调识别算法对本算法的影响,本文也运用了支持向量机和时间规整化模板匹配算法进行对比分析。实验结果表明本文的声调识别算法优于传统算法,不会受到声调识别算法的影响。相对于无监督的识别算法,有监督的算法更加稳定有效。(本文来源于《中国科学技术大学》期刊2014-05-08)

沈彩凤,俞一彪[5](2013)在《一种新的汉语连续语音声调评测算法》一文中研究指出提出一种新的连续语音的声调评测算法,该算法可应用于计算机辅助语言学习系统和普通话水平测试中的声调评测。考虑到连续语音声调受上下文之间的相互影响,采用叁音节单元建立高斯混合模型(Gaussian Mixture Model,GMM),叁音节中辅音部分用Spline插值法拟合声调曲线来反映音节间基音频率的转移信息,并利用Fujisaki模型去除语句的语调和说话人个性特征,只对基频曲线中的声调特征建模。实验结果显示,相比于传统方法,采用叁音节Spline插值和Fujisaki改进特征的方法使得机器与人工打分的相似度在测试集中分别提高了8.75%和14.09%。(本文来源于《声学技术》期刊2013年04期)

齐耀辉,潘复平,葛凤培,颜永红[6](2013)在《汉语连续语音识别系统中叁音子模型的优化》一文中研究指出为了更准确地估计状态聚类前有调叁音子的模型参数,从而提高聚类后捆绑状态的精度及系统的识别性能,针对汉语连续语音识别中,有些有调叁音子的训练样本数非常少,而其对应的无调叁音子的训练样本数相对较多的情况,提出用其对应的无调叁音子的模型参数进行初始化,并用最大后验概率准则训练模型。汉语大词汇量连续语音识别实验表明,该方法可以提高训练语料中稀疏叁音子聚类前的模型精度,从而提高系统的识别性能。(本文来源于《计算机应用研究》期刊2013年10期)

蒋瑞,李海峰,马琳[7](2012)在《基于ANN/HMM混合模型汉语大词表连续语音识别系统》一文中研究指出提出一种基于隐马尔可夫模型(Hidden Markov model,HMM)和人工神经网络(Artificial Neural Network,ANN)混合模型的汉语大词表连续语音识别系统。在混合模型系统中,多种模型协同工作。ANN负责建模音素发音物理特性,HMM联合语言学模型识别待识语料。这样,混合模型系统能够结合HMM和ANN两种模型的优点:HMM对时间序列结构建模能力强;ANN的非线性预测能力强,建模能力强,鲁棒性,便于硬件实现。实验结果表明,HMM/ANN混合模型系统有效结合了两种模型的优点,提高了识别率。(本文来源于《智能计算机与应用》期刊2012年05期)

蒋瑞[8](2012)在《基于ANN/HMM混合模型汉语大词表连续语音识别系统建立》一文中研究指出语音识别是一门内涵丰富、应用广泛的技术,在一些应用领域中正迅速成为一个关键的具有竞争力的技术,如用于自动口语翻译,实现跨语言交流。本文以汉语大词表连续语音识别为应用背景,主要研究了基于人工神经网络模型(ANN)与隐马尔可夫模型(HMM)相结合的混合模型。本文详细分析了ANN和HMM的优点与缺点。深入研究了五种主要的ANN/HMM混合模型:早期模拟HMM算法的尝试;用ANN估计HMM的状态后验概率;基于全局最优训练方法的混合模型;ANN作为离散型HMM的矢量量化器;ANN作为HMM的后处理器。本文研究了ANN/HMM混合模型的优势,并提出了一种基于隐马尔可夫模型和人工神经网络混合模型的汉语大词表连续语音识别系统。在混合模型系统中,多种模型协同工作。ANN是状态级模型,负责建模音素发音物理特性;HMM联合语言学模型识别待识语料。这样,混合模型系统能够结合HMM和ANN两种模型的优点:HMM对时间序列结构建模能力强;ANN的非线性预测能力强,建模能力强,鲁棒性,便于硬件实现。最后,考虑到音节发音的发音变化性和神经网络的结构特点,将多路径建模技术引进系统,明显减少了删除错误,增强了系统的建模能力。实验结果表明,HMM/ANN混合模型系统有效结合了两种模型的优点,提高了识别率。(本文来源于《哈尔滨工业大学》期刊2012-06-01)

秦宇强[9](2012)在《汉语语音基于包络频谱调制模式的连续情绪计算》一文中研究指出在智能人-机交互系统中,语音连续情绪计算是目前流行的研究领域,并且得到了广泛的应用。虽然许多科研人员已经提出了解决语音离散情绪识别的可能性,并取得了一些成果,但至今在语音连续情绪上仍没有满意的结论。本文的主要研究内容是汉语语音连续情绪计算,即从语音信号中识别说话人当时所处的连续情绪状态。文章描述了一个基于听觉心理学的连续情绪计算模型-包络频谱调制模式(envelope spectral modulation patterns, ESMP)与情绪心理学维数(效价维、激励维、支配维和能量维)之间的分布关系,用于人类语音连续情绪的自动识别。ESMP是从听觉感应长期临界频谱表示中提取的,包含了频谱和临界调制频率成分,从而通过人类语音知觉频谱特征而不是传统的韵律特征来传递情绪信息。本文以汉语语音连续情绪计算为重点,主要研究内容包括:①模糊连续情绪语料数据库的建立;②人主观辨听实验:语音情绪维数分析;③机器实验:包络频谱特征提取、频谱计算和情绪分类。汉语普通话模糊连续情绪语音采集:在分析当前国际上一些情绪语料数据库的基础上,独立设计文本,确定录音人数、语音种类(自然、模仿、诱出)、模糊情绪种类和语料数目。所研究的情绪为5种模糊基本情绪状态:(稍微、比较和非常)喜、怒、惊、悲和惧,1种模糊二次派生情绪(稍微、比较和非常)惊喜,另取参考语音信号表征没有情绪时的状态。通过对采集的模糊情绪语音数据进行第一次主观听辨实验,最后建立汉语模糊情绪语音数据库第二次、叁次主观辨听实验:实验研究了上述情绪在V-A-D上的分布情况。每一维可划分7个水平,然后请正常听力的人对第一次主观辨听实验选出的情绪语料进行再次辨听,并且鉴定每个情绪语料的7个水平在V-A-D叁维空间的分布。从而得到每种情绪在V-A-D叁维空间的分布结果。计算机实验:首先,分析了情绪语音相对于参考(无情绪)语音的包络特征(上下包络线、包络谱和包络特征向量)。然后,使用全相经验模态分解(ensemble empirical mode decomposition, EEMD)分段幂函数插值(PPF)算法提取这些特征,通过对情绪语音信号进行EEMD得到一系列情绪本征模态函数(emotional intrinsic mode functions, IMFe),提取每一级IMF。的频率倒谱系数作为表征说话人情绪的特征参数,对得到的情绪特征参数用矢量量化进行识别。根据IMF。频谱变换获得包络线和包络谱,同时通过快速傅立叶变换(FFT)也得到了包络特征向量。在提取包络特征的基础上,文章进一步研究了汉语情绪语音的功率频谱密度和能量频谱,进而得到了ESMP。利用Matlab软件仿真了模糊情绪的EEMD和包络频谱特性,得到模糊情绪的ESMP。(?)同时,根据ESMP的峰值(PV)、峰值瞬时(IP)、形心(C)、等距宽度(EW)和横坐标均方(MSA),进一步在V-A-D-P四维空间中分析了维数水平和ESMP之间的关系。在汉语语音模糊情绪分类上,文章提出一种新颖的、基于ESMP提取和模糊支持向量回归(FSVR)分类器(classifier)的互相关性算法。该算法应用于汉语语音模糊情绪((稍微、比较和非常)喜、惊和惊喜)的分类上。同时,FSVR分类器使用了模糊连续二分(FCB)过程,并且适用于情绪语音互相关的包络频谱特征。这种借助FSVR分类器的包络频谱互相关性算法,可以大幅提高汉语语音模糊情绪识别率,并且在识别非常喜情绪时准确率甚至可以达到92.58%。综上所述,在进行了主观辨听实验和机器实验后,文章确切的得出了结论:人辨听实验与机器实验的结果基本一致,而且使用ESMP可以大大提高汉语语音模糊情绪的识别率。作为一种新的尝试,文章提出的一个新颖特征(ESMP)和两个新算法(EEMD和FSVR)都具有一定的理论依据和较好的实用效果,为今后的语音连续情绪计算和人-机语音情绪交互研究奠定了良好的基础。(本文来源于《太原理工大学》期刊2012-05-01)

杨嵩[10](2012)在《基于HTK的连续汉语数码语音输入系统研究》一文中研究指出HTK是英国剑桥大学开发的一套基于C语言的语音处理工具箱,广泛应用于语音识别、语音合成以及字符识别等领域。文章在详细介绍了语音识别的过程、原理及相关概念的基础之上,介绍了HTK的基本原理和软件结构,以及使用HTK完成语音识别任务的整个过程。最后,讨论声学单元等一系列的模型参数的选择,使用HTK搭建一个简单连续汉语语音输入系统。(本文来源于《计算机与数字工程》期刊2012年04期)

汉语连续语音论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

互联网技术不断发展,产生了许多新生技术,这些技术在互联网的带动下蓬勃发展,对社会发展起到了很大的促进作用,特别是目前市场上流行的语音交互技术,其所取得的成绩是举世瞩目。该技术可以促进机器和人进行交互,能让机器识别人的语音命令,并对语音命令做出动作的回复,这种技术也被称为语音识别系统,而该系统核心的内容就是本文研究的离散和连续数字语音识别。同时,该技术应用领域广泛,目前在很多领域包括国防、工业、通信等方面都有着密切的关联。虽然在各项研究领域中,已经存在不少关于该方面的研究,但是依旧存在很多的问题亟待解决。在以上背景下,本文研究利用HTK(Hidden Markov Model Toolkit)的结构及其工具包搭建相关系统;通过对基于HTK的汉语离散和连续语音数字识别的研究,完成了对影响系统识别率叁个因素的测试,即测试了声学模型,高斯混合分量和梅尔倒谱系数。在此基础之上,再继续对语音拨号系统进行研究,最终实现了对人的名字,以及相应的电话号码的识别。在完成了以上研究的基础上,进行了优化语音识别网络的研究,通过对原识别方法的分析,导出了一种优化语音识别网络的方法,并且从理论上证明和实验上验证了其正确性。最后进行了基于ATK(API of HTK)的实时语音识别的初步研究。讨论了使用ATK建立一套实时语音识别系统的过程,并且实现了基于ATK的实时语音拨号系统,但是识别效果不理想,需不断优化。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

汉语连续语音论文参考文献

[1].曹冠彬,张二华,王凯龙.连续汉语语音切分技术研究[J].计算机与数字工程.2019

[2].李海强.基于HTK的汉语离散和连续数字语音识别研究[D].哈尔滨理工大学.2019

[3].曹宜倩.汉语大学生连续语流中英语音段产出及错误类型的探讨[J].长江丛刊.2017

[4].刘从桂.噪声环境下汉语连续语音声调识别研究[D].中国科学技术大学.2014

[5].沈彩凤,俞一彪.一种新的汉语连续语音声调评测算法[J].声学技术.2013

[6].齐耀辉,潘复平,葛凤培,颜永红.汉语连续语音识别系统中叁音子模型的优化[J].计算机应用研究.2013

[7].蒋瑞,李海峰,马琳.基于ANN/HMM混合模型汉语大词表连续语音识别系统[J].智能计算机与应用.2012

[8].蒋瑞.基于ANN/HMM混合模型汉语大词表连续语音识别系统建立[D].哈尔滨工业大学.2012

[9].秦宇强.汉语语音基于包络频谱调制模式的连续情绪计算[D].太原理工大学.2012

[10].杨嵩.基于HTK的连续汉语数码语音输入系统研究[J].计算机与数字工程.2012

论文知识图

左图是含噪汉语连续语音“他去...汉语连续语音零声母音节个中音素...基于元音检测的汉语连续语音声韵...汉语连续语音基于小波分析的连续语音识别系统的整体...“863”汉语普通话连续语音库语音波形

标签:;  ;  ;  ;  ;  ;  ;  

汉语连续语音论文_曹冠彬,张二华,王凯龙
下载Doc文档

猜你喜欢