导读:本文包含了语音自然度论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:自然,语音,模型,间隙,语音合成,边界,基频。
语音自然度论文文献综述
汤梦,朱杰[1](2019)在《一种基于LSTM的合成语音自然度评价方法的研究》一文中研究指出目前的语音合成技术越来越成熟,而对于合成语音质量的度量还没有比较好的客观评价体系。文中在传统的主观评分体系基础上,分析了影响合成语音质量的关键因素,利用深度学习方法建立了合成语音质量评价系统,对汉语合成语音的自然度进行客观评价。该方法得到的语音质量评分结果与人工打分的主观评价结果相比,五分制条件下的均方根误差为0.4分,相关系数为0.68。(本文来源于《信息技术》期刊2019年05期)
肖磊[2](2019)在《语音驱动的高自然度人脸动画》一文中研究指出语音动画,旨在根据给定的语音序列,合成具有与其同步一致的唇部运动的人脸动画。自动化的语音动画合成,在现代电影工业及数字游戏等行业中具有重要的地位,对虚拟角色的构建与表达具有决定性的影响。此外,认知心理学的研究表明,相比于单一的听觉输入,听觉和视觉的多模态输入能够更有效地促进对语音信息的理解,但语音与唇部运动之间的不匹配,则会使得人们对自己所听到的内容产生怀疑甚至改变。因此,本文的目的在于设计一种新的语音驱动人脸动画合成方法,使合成的人脸动画具有与输入语音一致的唇部运动及高自然度的动画效果。针对叁维人脸动画系统,我们结合参数模型和形状融合模型进行设计,首先基于选定的发音器官控制点对人脸下半部分区域的运动进行参数化建模,实现对唇部及其附近区域的精细控制,并使下齿保持与唇部协调一致的运动;同时利用形状融合方法对参数模型生成的动画进行表情及面部微动作的编辑,并进一步将形状融合模型的个性化生成与参数模型的精细控制相结合,实现基于任意对象叁维人脸模型的高自然度动画生成。对于语音驱动的发音器官运动合成,我们将其显式分为特征提取、上下文编码及多分支解码叁部分,首先参考计算机视觉领域,利用稠密连接的卷积神经网络提取语音序列的泛化性特征;随后采用双向循环神经网络进行时序编码以实现对音素协同发音现象的有效建模;最后应用多域学习策略设计多分支输出结构以提高发音器官运动轨迹的合成精度。为了对语音驱动的高真实感视频进行生成,我们将人脸视频信息分解为表观信息和形状序列信息,先由语音生成叁维唇部运动,对其提取关键点并与选定对象的人脸关键点进行融合,随后编辑其头部姿态并进行轮廓拟合,从而得到所需的形状序列;其次,利用固定的参考图像基于设计的网络结构进行训练以提取相关的表观信息;最后,设计嵌套级联的生成器并采用空间与时间判别器对目标视频的生成进行训练,即可基于形状序列和参考图像生成相应的真实人脸视频。基于上述研究方法,本文设计并实现了一套完整的语音驱动人脸动画合成系统,能够基于给定的语音序列合成相应的叁维人脸动画,并进一步生成二维人脸视频。实验表明我们设计的系统具有良好的实用性,可应用于任意说话人的语音输入,并合成任意对象叁维人脸模型的与输入语音同步的高自然度人脸动画,且可以进而生成具有照片级真实感的时序相关的长时人脸视频。(本文来源于《中国科学技术大学》期刊2019-05-01)
戈永侃[3](2016)在《改进语音合成自然度的研究》一文中研究指出语音合成是将文本状态的文字信息转化为可听的声音信息,使以往只能用视觉接受的文字信息,也可以通过听觉来获取。它在汽车导航、盲人辅助、信息查询等领域有着广泛的应用。作为人机交互的核心技术之一,语音合成已成为近几年自然语言处理领域的研究热点之一。本文在研究基于隐马尔科夫统计参数语音合成的基础上,针对声学模型中的激励与频谱模型展开研究,具体研究工作如下:(1)针对传统的统计参数语音合成算法中,使用固定参数的后置滤波器来缓解频谱过平滑问题,提出一种基于后置滤波器参数自适应的语音合成改进算法。该方法拟合出代表频谱失真程度的谱平坦度特征与最优后置滤波器参数之间的关系,在合成阶段根据语音谱的平坦度自适应选择最优的滤波参数来对合成语音频谱的共振峰区域增强。仿真实验结果表明,该方法能够有效地减轻语音的频谱过平滑,主观测试结果表明,合成语音的自然度提高。(2)针对语音合成算法中使用高斯白噪声和脉冲串来表示清浊音的激励信号,合成的语音较为嘈杂,提出使用谐波加噪声激励模型对语音的声门波信号建模。该方法将语音信号逆滤波得到声门波信号,然后对声门波信号进行谐波分析,并计算谐波信号的线谱对参数作为谐波特征进行训练建模;在语音合成时分别重构出声门波的低频段谐波部分与高频段噪声部分,并将两者混合作为语音的激励信号送入语音合成器合成出语音。仿真实验结果表明,该方法生成的语音频谱更为接近自然语音,能够有效地减轻合成语音的机器声,语音听感好于脉冲激励模型。(3)针对使用正弦模型的语音合成算法中只对正弦信号的幅度特征进行建模,而相位特征则由于难以参数化被舍弃的缺点,提出具有相位特征的正弦模型语音合成算法。该方法提取语音正弦模型的正则倒谱系数参数作为幅度特征,并计算相对相位偏移参数代表相位信息。由于相对相位偏移参数无法直接建模,使用解卷后的相对相位偏移参数的谱包络特征作为相位特征,以使得在合成阶段可以恢复相位信息并重构语音信号。仿真实验结果表明,通过对正弦信号的相位建模可以提高合成语音听感的自然度。(本文来源于《江南大学》期刊2016-06-01)
[4](2012)在《语音合成自然度的客观度量实验研究》一文中研究指出随着语音合成技术的发展,合成语音的音质和可懂度不断提高,而如何进一步提高其自然度成为语音合成方面的重要问题。本文总结了近年来主流的波形拼接式语音合成系统在自然度方面影响主观感受的四类问题,分析了它们对自然度主观感受的影响、产生的原因以及进行测试和改进的方法。考虑到不自然点的定位与检测对于自然度问题发现与改进的重要作用,本文针对其中与语音相关的两类问题,音调连续性和结尾自然度,分别提出了基频连续性和波形包络在停顿前的连续性两种不自然点的客观度量方法,并在此基础上进一步设计了语音自然度中不自然点的自动定位与检测算法。实验数据表明,人工听辨发现的音调不自然点都可以通过基频不连续点检测出来,并且在较为挑剔的自然度评判中,该算法有较高的准确率;而通过波形包络在长停顿前的不连续点检测,可以非常精确地发现结尾不自然的点。在语音合成系统的评测和改进工作中,本文提出的客观度量和不自然点自动检测方法提供了比人工听辨更可信的数据参考,具有较高的实用价值。(本文来源于《第十届中国语音学学术会议(PCC2012)论文集》期刊2012-05-18)
吕鹏[5](2010)在《语音合成自然度的研究》一文中研究指出随着社会的不断进步,人们在关于语音处理方面的研究已经取得了很多研究成果,尤其是语音合成的可懂度已经达到了相当高的要求,但是在语音自然度方面仍然与人们的预期要求有一定的差距,这将严重影响语音合成技术的进一步发展。本文主要研究在语音合成的基础上,针对现在的语音合成自然度不高的问题提出的改进方法,主要过程为以自我录制的语音库的语音合成为例,利用波形拼接的方法对语音自然度进行改进,并通过主客观评测方式验证语音自然度的改进效果。主要内容如下:1)从语音学的基本要素出发,分析语音合成的基本要素,研究一些影响语音合成自然度的相关问题,并从中分析出语音合成与语音识别等的关系。2)以音节为单位制作语音库,并通过对语音的无声段处理,消除掉影响语音信号连接的停顿较长的问题,并分析出合成语音时不必要的部分,运用波形拼接算法中的TD-PSOLA和FD-PSOLA方法分别对语音的时长和频率进行调整,使其在韵律控制上更加贴近自然发音,同时利用语音韵律参数声音及图像的对比来看出语音合成前后及与自然音之间的差距,进而分析出语音自然度的改进程度。3)最后本文对语音合成自然度的系统进行了仿真实验,经系统仿真后在语音的自然度上有了一定的提高,并利用主客观的方法对合成结果进行了评测,效果非常理想。本文的研究为语音合成自然度的进一步研究提供了很好的基础和方案。(本文来源于《河北科技大学》期刊2010-03-10)
丁耀娥[6](2009)在《基于VQ模型和BP网络的高自然度语音转换》一文中研究指出说话人语音转换技术是把源说话人说的语音转换为像是目标说话人所说的语音的技术。说话人语音转换具有广泛的应用领域,比如文语转换(Text一to-Speech, TTS)系统、配音系统和保密通信等。本文提出了一种基于VQ模型与BP网络的高自然度语音转换方法。算法分为叁个部分:前两部分用VQ模型实现了语音的谱包络及其激励的转换,第叁部分采用BP算法实现语音的韵律转换规则建模。算法针对基音周期内残差波形的特点提出了循环互相关函数,有效地实现了残差波形聚类;针对汉语语音超音段发音特点进行韵律调整,有效实现了汉语语音转换并得到高自然度合成语音。本文主要工作包括:(1)基于VQ模型实现了语音的谱包络转换。谱包络采用20阶LPC系数转换形成的线谱对频率系数LSF表示。相对于LPC参数,LSF具有更好的内插特性和量化特性。训练分别得到128个源语音的码向量和128个目标语音的码向量和由每一个源语音码向量到目标语音码向量的映射码书,映射码书就为目标语音向量的线性合成时的加权系数。转换后的语音的LSF系数更接近于目标说话人语音的LSF系数。(2)基于VQ模型实现了其激励的转换。对残差的转换分为两阶段,一是残差能量的转换,采用线性转换的方法;二是对残差波形的转换,采用的方法是基于VQ码本映射的模型。在残差波形转换中,定义了循环互相关函数,并以最大互相关值的相反数作为波形间的距离测度。转换后的语音残差信号更多的保留了目标说话人的信息。(3)采用BP算法实现语音的韵律变换规则建模。提取源说话人和目标说话人的相对基频曲线。用叁层BP网络进行训练得到映射权值。在变换后的相对基频曲线加上目标语音的平均基频就得到转换后的基频曲线。算法针对汉语语音超音段发音特点进行韵律调整,有效实现了汉语语音变换并得到高自然度合成语音,实验表明是一种有效的汉语语音转换算法。(本文来源于《苏州大学》期刊2009-05-01)
郑玉玲[7](2008)在《韵律词边界的协同发音问题——对语音合成自然度的思考》一文中研究指出就目前语音合成自然度的现状,探讨了合成语音中韵律词边界V#C、VN#C之间的无声间隙和过渡音存在的问题,以及由此造成的合成语音中词或短语之间的顿挫感和个别音段自然度较差的问题。该文在基于对普通话协同发音生理(EPG)研究的基础上,揭示了韵律词边界存在的协同发音现象并提出了解决合成自然度问题的方案。结果表明:韵律词边界闭塞(GAP)和停顿(SP)的区别在于,停顿表现在元音韵尾无过渡音且时长延长,辅音无声段时间较长,而闭塞则不同;语料库中增加擦音前韵尾的标注信息作为合成的匹配规则,可以消除合成中擦音前的顿挫感;韵尾过渡音中舌前辅音前面的韵尾F 2上升,舌前辅音中的翘舌音/zh,ch,sh,r,l/使韵尾的F 3下降。舌根音、唇音和唇齿音使前面的韵尾F 2下降;语调短语的韵律词边界没有V#C、VN#C的过渡音且边界间是停顿而非闭塞,不存在协同发音现象。(本文来源于《清华大学学报(自然科学版)》期刊2008年S1期)
郑玉玲[8](2007)在《韵律词边界的协同发音问题——对语音合成自然度的思考》一文中研究指出就目前语音合成自然度的现状,探讨了韵律词边界的无声间隙和过渡音存在的问题,以及可能对合成自然度产生的影响。文章结合近年来基于动态腭位(EPG)的协同发音研究成果,对协同发音成因的进一步认识,提出了韵律词边界存在的的协同发音问题和解决问题的初步方案。主要有韵律词之间V#C、VN#C的闭塞(GAP)和停顿((Silent Pause))的区别;消除擦音前的无声段解决方案;韵尾过渡音的上升与下降的规律;协同发音与韵律层级的关系等。(本文来源于《第九届全国人机语音通讯学术会议论文集》期刊2007-10-01)
初敏,陈一宁,赵勇,李愈胜[9](2006)在《语料库标注精度对合成语音自然度的影响》一文中研究指出在将一个只有录音数据及相应文稿的原始语料库转换成一个可以用于波形拼接合成的语音数据库之前,有两部分工作是必要的,包括将录音高中的语音单元与实际语音波形对齐以得到拼接需要用的各种音段,以及标注出各种韵律结构的边界和重音。虽然研究人员已经提出各种算法自动得到上述标注数据,这些自动标注的精度通常与人工标注的精度还有一定差距。为了缩小这些差距,往往需要进行适量的人工标注或校验。本文通过一系列感知实验来探讨提高语料库标注的精度对合成语音自然度的影响程度。实验结果表明,精确的韵律标注对提高自然度的贡献最大,提高语音单元的边界的精度对提高自然度也有一定作用,而校对了1%的词汇中的各种错误的没有带来明显的自然度改进。(本文来源于《第七届中国语音学学术会议暨语音学前沿问题国际论坛论文集》期刊2006-10-20)
赵博,蔡莲红[10](2005)在《合成语音自然度客观测度》一文中研究指出目前合成语音的自然度有待提高,论文根据目前的研究现状提出了一种合成语音自然度的客观评价方法,该方法主要从语音韵律特征的主要参数出发,计算同一发音人的自然语音和合成语音之间的基频、时长、音强等参数的差距,其中由于两种语音基频时间不匹配,所以采用DTW(Dynamic Time Warping)算法来对两种语音的基频进行了时间弯折对准。最后再将计算结果与主观评测(MOS)的结果进行比较。实验数据表明,论文提出的基频曲线失真测度与MOS之间具有很强的相关性,从韵律特征角度给出的评价结果能够衡量合成语音的自然度。(本文来源于《计算机工程与应用》期刊2005年07期)
语音自然度论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
语音动画,旨在根据给定的语音序列,合成具有与其同步一致的唇部运动的人脸动画。自动化的语音动画合成,在现代电影工业及数字游戏等行业中具有重要的地位,对虚拟角色的构建与表达具有决定性的影响。此外,认知心理学的研究表明,相比于单一的听觉输入,听觉和视觉的多模态输入能够更有效地促进对语音信息的理解,但语音与唇部运动之间的不匹配,则会使得人们对自己所听到的内容产生怀疑甚至改变。因此,本文的目的在于设计一种新的语音驱动人脸动画合成方法,使合成的人脸动画具有与输入语音一致的唇部运动及高自然度的动画效果。针对叁维人脸动画系统,我们结合参数模型和形状融合模型进行设计,首先基于选定的发音器官控制点对人脸下半部分区域的运动进行参数化建模,实现对唇部及其附近区域的精细控制,并使下齿保持与唇部协调一致的运动;同时利用形状融合方法对参数模型生成的动画进行表情及面部微动作的编辑,并进一步将形状融合模型的个性化生成与参数模型的精细控制相结合,实现基于任意对象叁维人脸模型的高自然度动画生成。对于语音驱动的发音器官运动合成,我们将其显式分为特征提取、上下文编码及多分支解码叁部分,首先参考计算机视觉领域,利用稠密连接的卷积神经网络提取语音序列的泛化性特征;随后采用双向循环神经网络进行时序编码以实现对音素协同发音现象的有效建模;最后应用多域学习策略设计多分支输出结构以提高发音器官运动轨迹的合成精度。为了对语音驱动的高真实感视频进行生成,我们将人脸视频信息分解为表观信息和形状序列信息,先由语音生成叁维唇部运动,对其提取关键点并与选定对象的人脸关键点进行融合,随后编辑其头部姿态并进行轮廓拟合,从而得到所需的形状序列;其次,利用固定的参考图像基于设计的网络结构进行训练以提取相关的表观信息;最后,设计嵌套级联的生成器并采用空间与时间判别器对目标视频的生成进行训练,即可基于形状序列和参考图像生成相应的真实人脸视频。基于上述研究方法,本文设计并实现了一套完整的语音驱动人脸动画合成系统,能够基于给定的语音序列合成相应的叁维人脸动画,并进一步生成二维人脸视频。实验表明我们设计的系统具有良好的实用性,可应用于任意说话人的语音输入,并合成任意对象叁维人脸模型的与输入语音同步的高自然度人脸动画,且可以进而生成具有照片级真实感的时序相关的长时人脸视频。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
语音自然度论文参考文献
[1].汤梦,朱杰.一种基于LSTM的合成语音自然度评价方法的研究[J].信息技术.2019
[2].肖磊.语音驱动的高自然度人脸动画[D].中国科学技术大学.2019
[3].戈永侃.改进语音合成自然度的研究[D].江南大学.2016
[4]..语音合成自然度的客观度量实验研究[C].第十届中国语音学学术会议(PCC2012)论文集.2012
[5].吕鹏.语音合成自然度的研究[D].河北科技大学.2010
[6].丁耀娥.基于VQ模型和BP网络的高自然度语音转换[D].苏州大学.2009
[7].郑玉玲.韵律词边界的协同发音问题——对语音合成自然度的思考[J].清华大学学报(自然科学版).2008
[8].郑玉玲.韵律词边界的协同发音问题——对语音合成自然度的思考[C].第九届全国人机语音通讯学术会议论文集.2007
[9].初敏,陈一宁,赵勇,李愈胜.语料库标注精度对合成语音自然度的影响[C].第七届中国语音学学术会议暨语音学前沿问题国际论坛论文集.2006
[10].赵博,蔡莲红.合成语音自然度客观测度[J].计算机工程与应用.2005