文本语音转换论文开题报告文献综述

文本语音转换论文开题报告文献综述

导读:本文包含了文本语音转换论文开题报告文献综述、选题提纲参考文献,主要关键词:语音,文本,可编程,频率,模型,特征,协议。

文本语音转换论文文献综述写法

王天琦,王学明,王恒[1](2019)在《IPv6下的TTS文本语音转换》一文中研究指出通过对TTS文语转换技术和IPv6协议的详细介绍,指出TTS应用的广泛及其在IPv6协议下进行数据传输时的安全和质量保障。提出由于IPv6的应用使得在移动端TTS技术也可以流畅地传输数据,并对基于IPv6下的TTS文语转换进行展望。(本文来源于《信息技术与信息化》期刊2019年01期)

张俊祺[2](2019)在《面向领域的语音转换后文本纠错研究》一文中研究指出随着信息时代的发展,人们每天产生的信息都呈指数爆炸式地增长。这些信息都蕴含着有价值的数据有待人们去挖掘。比如,银行,保险等传统行业公司,每天都会收到大量客服来电,而公司亟待从这些海量对话数据里面,进行对话质量分析,挖掘用户意图等。但在对这些数据分析之前,首先遇到的困难是,这些对话数据大多数是通过语音识别后转为文本,在语音转换过程中,由于受到噪声,用户口音等干扰,导致语音识别后的文本存在错误,从而降低了文本的可分析性。因此,运用自然语言处理的方法,结合对话自身的特性,对这些文本进行纠错,一方面能提高对话语音转换的正确率,另一方面也有利于文本数据进行进一步的分析,最大化地挖掘数据中的价值。虽然文本纠错一直以来有人研究,但大多是面向开放领域的规范文本(报纸,书刊类文本),而面对口语化程度高、特定领域文本的纠错,则鲜有研究,而且是一大挑战。在查错方面,本文提出利用组合N-gram模型,融合双向长短期记忆神经网络Bi-LSTM语言模型,对句子进行评估,提高查错的精确率。定位到错误点后,则需要进行纠错。在纠错方面,本文提出多策略产生候选集的方法,针对不同的错误类型,采取不同的方法产生候选集。首先是基于领域本体知识库与拼音串前缀树来产生候选集。因为专有名词的识别通常出错较多,使用拼音串前缀树能快速找出相应的候选词汇。在得到由本体知识库产生的候选集后,需要结合本体知识库和对话的上下文,计算出候选词汇的支持度,最终排序得到TOP-1作为纠错方案。第二策略是结合领域的语言知识库,查询词语的搭配、并结合拼音相似度等信息得出候选集,尝试对文本错误进行纠正,若领域的语言知识库没能产生有效候选集,则查询通用领域语言知识库来产生候选集合。最后,分别用候选词替换原有词语,然后用Bi-LSTM语言模型计算整个句子的概率,并以这个指标对候选集进行排序,取TOP-1作为纠正方案。在纠错知识库的构建上,本文提出结合依存句法自适应地构建领域语言知识库,使到算法能自学习到新领域中的领域词语及搭配。最终,本文以金融领域为例,设计并实现出一套面向金融领域对话文本的纠错框架,能够对金融领域内带有错误的对话进行修正,并具有良好的领域迁移能力。(本文来源于《华南理工大学》期刊2019-01-09)

凌云志[3](2018)在《非平行文本下基于变分自编码模型和瓶颈特征的高质量语音转换研究》一文中研究指出语音是说话人发声时产生的信号,其中包含语义信息、说话人个性信息和情绪等多种自然信息,具有易于采集的特点。语音转换技术就是对源说话人的个性特征参数进行转变,使其具有目标说话人的个性特征信息,并保持语音的语义信息不变。近年来,深度学习概念的提出和国内外在深度学习研究上的火热,深度学习的方法受到了国内外语音研究者的高度关注,有一部分研究者利用深度学习的方法在语音转换的研究上进行了尝试,并取得了喜人的成果。由于深度学习中的各种模型具备解析复杂信号各种本征特征的能力,这大大提高了研究者们在做语音转换研究的效率,且随着深度学习研究的不断深入,各种新概念和模型被应用到语音转换的研究中,解决了在语音转换中的各种实际问题。将深度学习的方法应用到语音转换技术的研究中,有助于推动语音信号处理其他领域不断向前发展,可以大大提高各种语音智能设备,以及智能化人机交互的效率。因此,利用深度学习的方法对语音转换进行研究前景广大、且具备深远理论研究价值和实践价值。本文重点研究了基于变分自编码器模型和瓶颈特征的语音转换模型。针对VAE模型中的解码训练阶段,隐层特征的标签未得到充分利用的问题,通过深度神经网络(Deep Neural Network,DNN)对语音特征参数进行训练得到的Bottleneck特征作为VAE模型解码训练的标签,再利用VAE模型进行语音转换训练。该算法充分利用了 VAE模型中的标签特性,提高了语音转换性能。进一步地,在目标说话人训练数据有限的情形下,提出了一种对提取Bottleneck特征的深度神经网络的训练过程进行干预和自适应的方法,丰富了目标说话人个性特征空间,从而解决了开集下的多对多语音转换(Many-to-Many,M2M)问题。通过实验分析,该模型在客观评价方面,MCD值比使用one-hot标签的VAE语音转换模型的低,在非平行文本及不同转换情形下MCD值平均下降了 5.39%,表明了该模型频谱的失真程度更低,转换语音与目标语音的频谱相似性更好;在主观评价方面PESQ-MOS值比使用说话人one-hot标签的VAE语音转换模型的高,PESQ-MOS值平均提高了 24%,表明该模型转换语音的音质更优。而在目标说话人不充分训练的VAE+Bottleneck模型实验中,通过对DNN训练过程进行干预,且通过人耳听觉测试,29.0%的测试结果表明在该方法下得到的转换语音与VAE+Bottleneck语音转换系统在充分训练时得到的转换语音没有差别。理论分析和实验证明,该模型与使用说话人one-hot标签进行训练的VAE语音转换模型相比,转换后的频谱相似度和PESQ-MOS值都更高,这表明该模型在个性相似性和合成语音音质方面都有一定性能的改进,并且在一定程度上解决了开集下的M2M转换问题。(本文来源于《南京邮电大学》期刊2018-11-14)

王程程,冯瑶[4](2018)在《气象“12121”声讯服务系统文本语音自动转换的作用》一文中研究指出气象部门自从引入"12121"自动答讯系统之后,在预报服务方面有了长足的进步,"12121"系统包含丰富的气象信息,如何快速有效地进行更新变成"12121"维护工作的重点,目前录入的"12121"语音包括市(县)天气预报、旅游景点天气预报、市区3~5天天气预报、乡镇天气预报。本文主要介绍如何利用"12121"系统自带的功能,通过一段程序对其进行文本语音快速批量转换,该方法对提高预报人员工作效率具有明显的作用。(本文来源于《吉林农业》期刊2018年21期)

吕中良[5](2017)在《基于改进的BLFW下平行和非平行文本的语音转换算法研究》一文中研究指出在语音信号处理领域,语音转换是指将一个说话人(源说话人)的语音转换成听起来像另一个说话人(目标说话人)的所发出的语音,同时保持语义不变。语音中包含着丰富的信息,包括语义信息、个性信息、语言信息和情感信息等,而语音转换主要关注点在于语音的声学本质特征:频谱特性和韵律特征。在语音转换的多种应用场景中,如娱乐和跨语言转换应用中,需要语音转换系统能够提供高质量的语音和实现非平行文本下的语音转换。现有的语音转换系统面临着两个主要问题:一方面是转换后的语音不能同时获得较高的相似度和较好的音质效果,而不得不在转换后语音的相似度和音质上权衡,另一方面是转换函数的训练依赖于平行语料,限制了语音转换系统的通用性。首先为了实现较高音质和相似度转换的语音转换,本文提出基于自适应高斯分类的双线性频率弯折加幅度调节算法,它采用自适应高斯分类更好地对语音的声学特征分布建模,在实现合理分类的基础上进行语音转换。经过主观和客观评价,本文提出的方法比固定的分类数的双线性频率弯折加幅度调节算法转换后的语音的平均MOS值提高了4.7%,平均MCD值降低了2.7%,这说明本文提出的方法对语音转换系统的性能有一定的改进。其次,为了解决语音转换方法对平行语料的依赖,本文使用基于单元挑选和声道长度归一化的方法对非平行语料进行对齐,然后将基于自适应高斯分类的双线性频率弯折加幅度调节方法应用于非平行文本下的语音转换领域。经过主观和客观评价实验对比,证实这种方法比非平行文本下INCA方法的转换后的语音的平均MOS值提高了7.1%,平均MCD值降低了4.0%,表明转换后的语音音质更好,相似度更高。而与传统的平行文本下的高斯混合模型语音转换方法相比平均MCD值高了5.1%,平均MOS值低了3.9%,表明其转换性能仍有一定的差距,但是本方法是在非平行文本条件下开展的,具有更强的通用性。(本文来源于《南京邮电大学》期刊2017-10-26)

杨颖,曹红兵,吴方,杨晴龙[6](2016)在《语音-文本转换技术在手机软件开发中的应用》一文中研究指出语音-文本转换旨在将说话人语音中的词汇内容转换为计算机可读的文本输入,使计算机具有能够"听懂"人类语音的能力。基于Android智能手机平台,利用国内先进的语音-文本转换技术设计并实现了两款手机软件——商品订单查询和手机语音笔记。商品订单查询的语音功能提供了更为便捷的个性化操作。手机语音笔记的主要功能包括单人录音和多人协作录音,尤其是多人协作录音实现了多人语音交流的记录和分享。这两款手机软件具有一定的实际应用价值。(本文来源于《安庆师范学院学报(自然科学版)》期刊2016年03期)

天涯衰草[7](2016)在《将语音内容转换成文本信息》一文中研究指出很多学生在上课时会将老师的讲课内容录下来,然后再整理出相关的文字信息,需要花费不少时间。所以要想减少整理所需的时间,只能借助于机器将语音转换为文本。那么,通过什么方式可以实现这个目的呢?其实要想解决这个问题也非常的简单,利用一款名为"录音宝"的APP就可以解决(下载地址:http://dwz.cn/2R89ef)。首先安装启动"录音宝"APP,点击屏幕正中的录音按钮,就可以开始音频的录制操作。(本文来源于《电脑爱好者》期刊2016年08期)

王鑫[8](2015)在《概念语音转换中的声学建模与文本生成方法研究》一文中研究指出语音合成旨在使计算机模仿人类的言语表达能力,具体包括文语转换(Text-to-Speech)和概念语音转换(Concept-to-Speech)等。文语转换旨在将输入的文字转换成自然流畅的语音。但人类不仅能朗读文本,还能根据头脑中的概念遣词造句并将句子通过言语讲出来。要使计算机具备这种言语表达能力就需要依靠概念语音转换。概念语音转换将抽象语义表示转换为可懂的、表达该语义的语音波形。建立一个概念语音转换系统可以通过级联自然语言生成(Natural Language Generation)与文语转换(Text-to-Speech)模块实现,前者将抽象语义转换为表层文本,后者将文本转换为语音。但目前概念语音转换领域的研究共识是需要在简单级联的系统中增加一个特别的韵律符号预测模块,该模块利用生成文本过程中产生的各类语言学信息预测韵律符号,并期望依靠这类“正确”的语言学信息提高韵律符号预测精确度。这一方法体现了系统模块间信息共享的思想,但概念语音转换不同模块之间的信息共享的途径不止如此。本文研究概念语音转换中基于模块问信息共享的声学建模与文本生成方法。首先,本文将自然语言生成模块提供的语言学信息传播到基于隐马尔科夫模型(Hidden Markov Model, HMM)的统计参数语音合成模块当中,以优化系统的声学建模能力,降低声学特征预测误差;其次,本文利用语言学信息取代韵律特征用于声学建模,以克服传统方法中韵律符号预测不精确以及韵律模型构建代价高的问题;最后,本文研究结合合成质量评估的文本生成方法,通过对输入语义对应的多个备选文本合成语音的质量进行自动评估,优化文本生成结果,提高输出合成语音的自然度。整篇文章安排如下:第一章为绪论,将从人类的言语表达能力出发介绍概念语音转换,并将其与文语转换进行对比。本章也将介绍国内外概念语音转换的研究现状。第二章将具体介绍结合外部韵律模型的中文概念语音转换系统结构,以及各个模块的原理、实现方法。具体包括中文自然语言生成、中文韵律建模以及基于HMM的统计参数语音波形生成方法。这一系统也将作为中文概念语音转换基线系统。在此基础上,本章将分析基线系统的不足。第叁章将针对基线系统的不足介绍第一种优化方法。该方法将自然语言生成模块提供的语言学信息加入到统计声学模型的上下文标签中,从而为声学模型聚类提供更多可能的组合方式。实验证明加入语言学信息能够提高语音基频建模的精度。第四章将进一步介绍结合语言学特征的声学建模优化方法。该方法一方面使用语言学信息替代声学模型上下文标签中的韵律特征,另一方面提出了增加跳转的HMM声学模型结构。两者相结合,可以使概念语音转换系统摆脱对韵律特征的依赖。实验表明该方法在实际环境中能够取得与传统方法相当或更好的合成语音质量。第五章将讨论结合合成质量评估的文本生成方法,该方法首先利用规则将输入语义转换为意思相同但措辞不同的多个备选文本,然后使用基于K-NN的合成音节可接受度自动评价方法对备选文本对应中的音节逐个进行评价,进一步使用基于规则的整句可接受度评价方法对备选文本对应的合成语音质量进行自动评价。最终选择评价质量较好的备选文本作为文本生成结果。实验结果表明该方法可以提升输出合成语音的自然度。第六章将总结全文,并讨论中文概念语音转换值得深入研究的后续工作。(本文来源于《中国科学技术大学》期刊2015-05-01)

陈瑞[9](2011)在《一种基于SOPC的语音-文本转换技术》一文中研究指出为增加大型系统数据输入方式的多样化和灵活性,提出一种基于片上可编程系统(System On Programmable Chip,SOPC)的语音-文本转化方法。通过采用SOPC软硬协同设计实现基于线性预测编码(Linear Predictive Coding,LPC)算法的语音信号处理。与其他现有的实现方式比较,该方法可大大节约系统硬件资源,具有更优的处理性能,适用于大型系统用户数据输入源。(本文来源于《西安邮电学院学报》期刊2011年01期)

杨希,黄发明,陈雪芹[10](2009)在《浅谈双顺达“12121”系统文本语音批量转换技巧》一文中研究指出气象部门自从引入"12121"自动答讯系统之后,在预报服务方面有了长足的进步,"12121"系统包含丰富的气象信息,如何快速有效地对它进行更新变成我们"12121"维护工作的重点,本文简单介绍如何利用"12121"系统自带的功能,通过一段小程序对其进行快速批量转换,该方法对提高工作效率较为明显的作用。(本文来源于《科技资讯》期刊2009年06期)

文本语音转换论文开题报告范文

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

随着信息时代的发展,人们每天产生的信息都呈指数爆炸式地增长。这些信息都蕴含着有价值的数据有待人们去挖掘。比如,银行,保险等传统行业公司,每天都会收到大量客服来电,而公司亟待从这些海量对话数据里面,进行对话质量分析,挖掘用户意图等。但在对这些数据分析之前,首先遇到的困难是,这些对话数据大多数是通过语音识别后转为文本,在语音转换过程中,由于受到噪声,用户口音等干扰,导致语音识别后的文本存在错误,从而降低了文本的可分析性。因此,运用自然语言处理的方法,结合对话自身的特性,对这些文本进行纠错,一方面能提高对话语音转换的正确率,另一方面也有利于文本数据进行进一步的分析,最大化地挖掘数据中的价值。虽然文本纠错一直以来有人研究,但大多是面向开放领域的规范文本(报纸,书刊类文本),而面对口语化程度高、特定领域文本的纠错,则鲜有研究,而且是一大挑战。在查错方面,本文提出利用组合N-gram模型,融合双向长短期记忆神经网络Bi-LSTM语言模型,对句子进行评估,提高查错的精确率。定位到错误点后,则需要进行纠错。在纠错方面,本文提出多策略产生候选集的方法,针对不同的错误类型,采取不同的方法产生候选集。首先是基于领域本体知识库与拼音串前缀树来产生候选集。因为专有名词的识别通常出错较多,使用拼音串前缀树能快速找出相应的候选词汇。在得到由本体知识库产生的候选集后,需要结合本体知识库和对话的上下文,计算出候选词汇的支持度,最终排序得到TOP-1作为纠错方案。第二策略是结合领域的语言知识库,查询词语的搭配、并结合拼音相似度等信息得出候选集,尝试对文本错误进行纠正,若领域的语言知识库没能产生有效候选集,则查询通用领域语言知识库来产生候选集合。最后,分别用候选词替换原有词语,然后用Bi-LSTM语言模型计算整个句子的概率,并以这个指标对候选集进行排序,取TOP-1作为纠正方案。在纠错知识库的构建上,本文提出结合依存句法自适应地构建领域语言知识库,使到算法能自学习到新领域中的领域词语及搭配。最终,本文以金融领域为例,设计并实现出一套面向金融领域对话文本的纠错框架,能够对金融领域内带有错误的对话进行修正,并具有良好的领域迁移能力。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

文本语音转换论文参考文献

[1].王天琦,王学明,王恒.IPv6下的TTS文本语音转换[J].信息技术与信息化.2019

[2].张俊祺.面向领域的语音转换后文本纠错研究[D].华南理工大学.2019

[3].凌云志.非平行文本下基于变分自编码模型和瓶颈特征的高质量语音转换研究[D].南京邮电大学.2018

[4].王程程,冯瑶.气象“12121”声讯服务系统文本语音自动转换的作用[J].吉林农业.2018

[5].吕中良.基于改进的BLFW下平行和非平行文本的语音转换算法研究[D].南京邮电大学.2017

[6].杨颖,曹红兵,吴方,杨晴龙.语音-文本转换技术在手机软件开发中的应用[J].安庆师范学院学报(自然科学版).2016

[7].天涯衰草.将语音内容转换成文本信息[J].电脑爱好者.2016

[8].王鑫.概念语音转换中的声学建模与文本生成方法研究[D].中国科学技术大学.2015

[9].陈瑞.一种基于SOPC的语音-文本转换技术[J].西安邮电学院学报.2011

[10].杨希,黄发明,陈雪芹.浅谈双顺达“12121”系统文本语音批量转换技巧[J].科技资讯.2009

标签:;  ;  ;  ;  ;  ;  ;  

文本语音转换论文开题报告文献综述
下载Doc文档

猜你喜欢