导读:本文包含了语音编码器论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:编码器,语音,线性,语料,特征,多项式,神经网络。
语音编码器论文文献综述
雷沛之,傅洪亮,陶华伟,姜芃旭,赵力[1](2019)在《基于栈式去噪自编码器的语音测谎算法》一文中研究指出为了进一步提高谎言语音检测的准确率,提出了一种基于栈式去噪自编码器的语音测谎算法(SDA-SVM)。该算法首先采用OpenSMILE提取了384维语音特征;然后构建了两层去噪自编码网络对语音特征进行变换加工;最后,采用SVM分类器对语音是否为谎言进行分类识别。所用语音来源为CSC测谎语料库,实验结果显示:相比传统的SVM分类,所提算法的检测准确率至少提升1.85%。(本文来源于《电子器件》期刊2019年03期)
许瑞龙[2](2019)在《基于自动编码器和生成对抗网络的语音增强方法研究》一文中研究指出语音增强是语音信号处理领域的一个重要分支。语音是人类用于交换信息的最便捷的手段,但是在各类语音通信、人机语音交互的场景中,语音信号经常受到各种噪声的干扰。语音增强作为避免或减少噪声干扰的方法与手段,受到了广泛地研究。过去的几十年里,大量的无监督的语音增强方法和有监督的语音增强方法被相继提出。较早提出的方法中,一般是先估计噪声谱,再从带噪语音谱中减去估计的噪声谱,从而获得增强后的语音谱。早期的方法经常假设语音和噪声是相互独立且服从高斯分布,但是噪声往往是随机的、非线性的且非平稳的,导致这些方法的效果不佳,如会残留许多噪声或者引起失真。近年,随着深度学习技术的发展,并且深度学习在语音相近领域的成功应用,基于深度学习的语音增强研究也正成为热点研究。在基于深度学习的语音增强系统中,深度学习模型被设计成一个精细的降噪滤波器或者叫生成器。同时,在大量平行语料的训练下,模型可以充分学习带噪语音和干净语音之间的复杂的非线性的函数关系。另外,模型训练一般是离线的,它能提取一些噪声的特征,因而它可以较好地抑制甚至滤除一些非平稳噪声。鉴于深度学习模型在语音增强中较好的性能,本文开展了大量的研究。首先,将深度降噪自动编码器(Deep AutoEncoder,DAE)用于语音增强的任务,并对该模型进行了一系列的研究;然后,将深度自动编码器与生成对抗网络(Generative Adversarial Network,GAN)相结合,提出了AECGAN网络并应用于本文语音增强中。基于DAE的语音增强方法,先将时域语音信号加窗分帧,再进行短时傅里叶变换,然后将多帧语音谱输入到模型中,输出单帧语音谱,并将输出语音谱进行波形重构,得到增强后的时域语音信号。该模型使用有监督的方法训练,使用L2正则化、Dropout、批标准化(BN)等方法泛化模型,使模型更具鲁棒性。实验结果表明,基于DAE的语音增强方法性能优于传统方法,提升语音质量的同时,还能提升语音可懂度。改进的基于AE-CGAN增强模型是一种端到端的时域语音增强模型,该模型的输入是时域语音信号,输出同样是时域语音信号。该模型无需对语音与噪声间的关系进行假设,无需人工提取语音特征,而是通过端到端的方式自动提取语音特征。AE-CGAN是一种结合自动编码器和生成对抗网络的综合学习框架,使用卷积神经网络,通过卷积网络强大的特征提取能力,将干净语音信号从带噪语音信号中提取出来。模型使用半监督的学习方式,并且联合显式损失函数和隐式损失函数,进行对抗式训练。为了使网络更轻更快更深更宽,模型使用全卷积网络、批标准化(BN)、Parametric ReLu激活函数,同时为了防止梯度爆炸,训练时加入权重裁剪(Weight Clipping),使网络参数保持在一个合理的范围之内。实验结果表明,基于AE-CGAN的语音增强方法优于传统方法和DAE的方法,去噪能力更强,经过处理后语音质量和可懂度大幅度提升,听起来比较饱满,不低沉,更为自然。(本文来源于《江西理工大学》期刊2019-05-20)
黄国捷,金慧,俞一彪[3](2018)在《增强变分自编码器做非平行语料语音转换》一文中研究指出提出一种增强变分自编码器进行非平行语料语音转换的新方法。源语音首先经过编码网络生成一个服从高斯分布的语音编码,解码网络将该语音编码重构为指定的目标语音,最后通过增强网络优化生成的目标语音。增强网络的一个输入对应一个输出的,这使得整体转换系统有较好的去噪能力。此外,本文还引入了循环训练方法以改善转换语音的目标倾向性。实验结果显示,与基准语音转换系统相比,本文提出的增强变分自编码器语音转换系统在跨性别语音转换上的客观评价指标谱失真上下降10. 3%,在主观评价指标相似度与清晰度方面同样有所改善。这一结果表明,本文提出的方法能够使转换语音具有良好目标倾向性,同时有较好的语音转换质量。(本文来源于《信号处理》期刊2018年10期)
雷沛之,傅洪亮[4](2018)在《基于去噪自编码器的语音情感识别》一文中研究指出为了更加准确地进行语音情感识别,提出了一种基于去噪自编码器的语音情感识别模型。该模型用Open SMILE提取了语音中的声学特征,利用构建好的去噪自编码器获得更高阶的特征,用SVM分类器对语音中的情感进行识别分类。在EmoDB情感语料库上进行了实验,结果表明,与直接使用SVM进行分类相比,该模型对语音情感的识别准确率至少提高了2%。(本文来源于《计算机与网络》期刊2018年18期)
杨万钊[5](2018)在《语音/音频混合编码器中的信号分类算法研究》一文中研究指出语音/音频混合编码器依据输入信号的类型,选择对应的编码算法,在统一框架下获得了对语音和音乐信号的最佳编码增益。信号类型判断的准确率是混合编码器编码质量的决定性因素之一。3GPP 编码标准 AMR-WB+(Extended Adaptive Multi-Rate-Wideband codec)和 EVS(Codec for Enhanced Voice Service)是混合编码器的典型代表。AMR-WB+的编码模式有闭环模式和开环模式,闭环模式拥有较高的编码质量,但计算复杂度也高;开环模式的计算复杂度显着下降,但信号分类准确率较低,导致编码质量欠佳。而EVS标准不存在闭环模式,编码复杂度低,但其基于高斯混合模型(Gaussian Mixed Model,GMM)的信号分类准确率仍有提升空间。针对上述问题,本文考虑到神经网络在信号分类中的突出表现,以及音频信号连续样本之间的时间相关性,提出基于循环神经网络(Recurrent Neural Net-work,RNN)的语音/音乐信号分类算法,针对上述两个编码标准的实际情况,进行网络设计、优化与实现。主要工作与贡献包括:(1)面向AMR-WB+的RNN分类器从AMR-WB+编码参数中选取特征,并以闭环模式选择的信号类型作为数据标签,构成训练数据,对设计的RNN网络进行训练,建立适用于AMR-WB+开环模式的语音/音乐分类算法。目标是使开环模式下的信号分类结果拟合闭环模式下的模式选择结果,从而以开环模式的计算复杂度,获得闭环模式的编码质量。为满足该需求,本文设计实现了面向AMR-WB+的RNN分类器,在实验过程中解决了训练数据不平衡等问题,并从优化编码信噪比的角度针对性地对RNN网络进行输出控制,使得重建音频信号的信噪比得到最大化的提升。实验结果显示,本文提出的面向AMR-WB+的RNN分类算法复杂度与开环模式相当,分类准确率的提升率达到接近20%,编码主观质量与闭环模式相当。(2)面向EVS的RNN分类器EVS无法利用类似AMR-WB+闭环编码的方式获得数据标签,只能依靠主观判断得到数据标签。为保证主观标签的可靠性,必须保证数据的纯度。为此,本文选择专业音频数据库中的语音和音乐数据,构成训练集和测试集。以EVS原有分类器的分类特征作为本文的分类特征。经过分析和实验,确定RNN网络的相关参数。实验结果显示,对语音和音乐数据,基于RNN的分类器的分类准确率均优于EVS原有分类器,尤其是对音乐数据,分类准确率提升更为明显。本文所做工作对于提升语音/音频混合编码器的性能具有重要意义。(本文来源于《武汉大学》期刊2018-04-01)
张玲[6](2018)在《基于SILK的宽带变速率语音编码器的研究》一文中研究指出采用更宽的带宽和更高的采样频率可以提高语音编码质量,能够为用户提供更舒适的听觉体验。由于SILK既能够提供宽带变速率语音编码,也能够在低带宽的环境中提供较优质的通话质量,因此SILK的应用前景被广泛关注。设计出一种基于SILK的宽带变速率高质量的语音编码器,并将其应用于实时语音通信环境,具有重要的研究意义和应用价值,其关键算法的研究和编码性能的进一步提升是本文研究的重点。由于SILK多用于以互联网为传输承载的网络电话(Voice over Internet Protocol,VoIP)中,而互联网只提供一种尽力而为的服务,常常由于网路延时、拥塞和错误传播等原因造成语音数据包丢失,严重影响了接收端的语音质量。为了有效解决VoIP中的丢包问题,本文在研究基于SILK宽带变速率语音编码器的丢包处理技术的基础上,提出了一种将内插法(Interpolation)和本文所提的改进型低比特冗余编码(Improved Low Bit Rate Redundancy,ILBRR)算法相结合的丢包处理算法(简称I-ILBRR算法)。并测试了在不同丢包率下,采用该算法的SILK和标准SILK编码器合成语音的质量。实验结果表明,采用I-ILBRR算法的SILK编码器容错能力更强。由于采用I-ILBRR算法会增加SILK语音编码器的平均编码速率,为了提高SILK的编码效率,本文对输入语音信号进行模拟,并提出了一种预测噪声整形量化(Predictive Noise Shaping Quantizer,PNSQ)算法,以此达到降低编码比特率的目的。首先,在输入语音信号中添加特定噪声,使得编码端生成一种可以和频谱特征相匹配的模拟信号,然后对该模拟信号进行长时预测和短时预测,提高预测滤波器的预测增益,减少量化索引的熵,从而减少传输编码语音信号所需的比特数。其次,在SILK编码器中采用PNSQ算法,既不需要额外的边带信息,也不用改变比特流格式,能提高编码效率。测试结果表明,本文所提算法在保证合成语音质量基本不变的前提下,平均编码比特率降低了1.5223 kbps。(本文来源于《重庆邮电大学》期刊2018-03-26)
田媛[7](2018)在《基于Linux平台上线性预测语音编码器性能分析》一文中研究指出线性预测编码器是一类非常重要的语音编码器。文中主要描述了几种线性预测语音编码算法的软件及实现,即码激励线性预测编码(CELP)、低延迟CELP(LD-CELP)和混合励磁线性预测(MELP),编码速率分别为4.8、16、2.4kb/s。几种语音编码器的C语言程序已在Linux平台上可编译和执行,并对结果进行了以MOS为标准的主观测试。波形分析主要使用了Praat和Adobe Audition软件。结果表明,MELP和CELP的质量相当,而LD-CELP编码器的质量则要高得多,虽然是以牺牲较高的比特率为代价。(本文来源于《重庆大学学报》期刊2018年01期)
涂中文,赵艳明,宋金宝[8](2017)在《基于自动编码器的语音音色客观评价》一文中研究指出本文详细介绍了嗓音识别和深度学习的基本原理,然后阐述了怎样将深度学习理论应用于嗓音质量识别分析的研究中,从基于深度学习的语音特征参数提取和神经网络模型建模两方面入手,首先提取不同的音频特征参数,然后构建以稀疏编码器为核心的堆栈式自动编码器,"封顶"softmax分类器以构成完整的深度学习网络,最后测试了不同特征参数、不同的网络层数和网络节点数对于实验准确率的影响。(本文来源于《中国传媒大学学报(自然科学版)》期刊2017年04期)
陈浩[9](2017)在《基于eX-CELP的低速率语音编码器的研究及实现》一文中研究指出市场的需求以及通信技术的发展极大的推动了语音编码技术的研究及应用。在通信系统中,频带资源十分宝贵。经过低速率语音编码器编码后的语音,占用的传输带宽较少。因此低速率语音编码技术成为了提高频带资源利用率的主要手段。采用码激励线性预测技术(Code Excited Linear Prediction,CELP)的语音编码器具有编码速率低、合成语音质量高的特点,广泛应用于移动通信和多媒体通信中。由第叁代伙伴计划(3rd Genrration Partnership,3GPP)公布的可选模式声码器(Selectable Mode Vocoder,SMV)采用扩展码激励线性预测(Extend Code Excited Linear Prediction,eX-CELP)技术,在低速率编码时,取得了良好的合成语音质量,但算法复杂度很高,限制了其应用范围。本文从降低SMV算法复杂度和SMV的DSP实现两方面进行了研究。首先,本文深入分析了SMV的基本原理及实现过程,并在此基础上,调整算法结构,选择编码速率,实现了基于eX-CELP的4kb/s变速率语音编码器。其次,本文对SMV的语音激活检测模块、固定码本搜索模块进行了改进。考虑到语音激活检测算法的复杂度,本文将语音信号的能量、以及背景噪声电平作为判决的主要依据,直接将语音信号能量与门限电平比较,降低了算法的复杂度,并在一定程度上保证了语音激活检测算法的准确率。SMV的固定码本采用多子码本结构,针对固定码本搜索运算量大的缺点,本文首先对固定码本搜索中的基音增强算法进行改进,限定基音周期增强的子帧数目。其次在进行脉冲子码本搜索时,先进行子码本的选择,然后再进行子码本搜索。根据语音帧分类信息等语音参数,缩小其子码本选择的范围,从而降低固定码本搜索的复杂度。实现了一种改进的4kb/s变速率语音编码器。并在此基础上,测试编码器的性能。最后,将实现的编码器移植到了TMS320C6713 DSK硬件平台上,对其进行优化后,测试复杂度。结果表明,改进后的语音激活检测模块比原有模块的运算量减少了28.99%,改进后的固定码本搜索模块比原有模块的运算量减少了47.74%,改进后的编码器比原有编码器的运算量减少了18.7%左右。(本文来源于《重庆邮电大学》期刊2017-04-06)
王蓉蓉,曾毓敏,周挺挺,李平[10](2016)在《改进的基于GMM谱包络拟合的语音编码器》一文中研究指出提出了1种改进的基于多项式拟合和高斯混合模型的甚低码率语音编码器(polynomial fitting and Gaussian mixture model,PGMM)。该编码器将固定数量的语音帧划分为1个片段,利用相邻帧间的相关性对片段内的高斯混合模型参数进行多项式拟合,并用PGMM模型拟合语音谱包络。仿真结果表明,PGMM算法极大地降低了编码器的编码速率,在0.86kb/s时仍然可以获得理想的解码语音。(本文来源于《中国科技论文》期刊2016年20期)
语音编码器论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
语音增强是语音信号处理领域的一个重要分支。语音是人类用于交换信息的最便捷的手段,但是在各类语音通信、人机语音交互的场景中,语音信号经常受到各种噪声的干扰。语音增强作为避免或减少噪声干扰的方法与手段,受到了广泛地研究。过去的几十年里,大量的无监督的语音增强方法和有监督的语音增强方法被相继提出。较早提出的方法中,一般是先估计噪声谱,再从带噪语音谱中减去估计的噪声谱,从而获得增强后的语音谱。早期的方法经常假设语音和噪声是相互独立且服从高斯分布,但是噪声往往是随机的、非线性的且非平稳的,导致这些方法的效果不佳,如会残留许多噪声或者引起失真。近年,随着深度学习技术的发展,并且深度学习在语音相近领域的成功应用,基于深度学习的语音增强研究也正成为热点研究。在基于深度学习的语音增强系统中,深度学习模型被设计成一个精细的降噪滤波器或者叫生成器。同时,在大量平行语料的训练下,模型可以充分学习带噪语音和干净语音之间的复杂的非线性的函数关系。另外,模型训练一般是离线的,它能提取一些噪声的特征,因而它可以较好地抑制甚至滤除一些非平稳噪声。鉴于深度学习模型在语音增强中较好的性能,本文开展了大量的研究。首先,将深度降噪自动编码器(Deep AutoEncoder,DAE)用于语音增强的任务,并对该模型进行了一系列的研究;然后,将深度自动编码器与生成对抗网络(Generative Adversarial Network,GAN)相结合,提出了AECGAN网络并应用于本文语音增强中。基于DAE的语音增强方法,先将时域语音信号加窗分帧,再进行短时傅里叶变换,然后将多帧语音谱输入到模型中,输出单帧语音谱,并将输出语音谱进行波形重构,得到增强后的时域语音信号。该模型使用有监督的方法训练,使用L2正则化、Dropout、批标准化(BN)等方法泛化模型,使模型更具鲁棒性。实验结果表明,基于DAE的语音增强方法性能优于传统方法,提升语音质量的同时,还能提升语音可懂度。改进的基于AE-CGAN增强模型是一种端到端的时域语音增强模型,该模型的输入是时域语音信号,输出同样是时域语音信号。该模型无需对语音与噪声间的关系进行假设,无需人工提取语音特征,而是通过端到端的方式自动提取语音特征。AE-CGAN是一种结合自动编码器和生成对抗网络的综合学习框架,使用卷积神经网络,通过卷积网络强大的特征提取能力,将干净语音信号从带噪语音信号中提取出来。模型使用半监督的学习方式,并且联合显式损失函数和隐式损失函数,进行对抗式训练。为了使网络更轻更快更深更宽,模型使用全卷积网络、批标准化(BN)、Parametric ReLu激活函数,同时为了防止梯度爆炸,训练时加入权重裁剪(Weight Clipping),使网络参数保持在一个合理的范围之内。实验结果表明,基于AE-CGAN的语音增强方法优于传统方法和DAE的方法,去噪能力更强,经过处理后语音质量和可懂度大幅度提升,听起来比较饱满,不低沉,更为自然。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
语音编码器论文参考文献
[1].雷沛之,傅洪亮,陶华伟,姜芃旭,赵力.基于栈式去噪自编码器的语音测谎算法[J].电子器件.2019
[2].许瑞龙.基于自动编码器和生成对抗网络的语音增强方法研究[D].江西理工大学.2019
[3].黄国捷,金慧,俞一彪.增强变分自编码器做非平行语料语音转换[J].信号处理.2018
[4].雷沛之,傅洪亮.基于去噪自编码器的语音情感识别[J].计算机与网络.2018
[5].杨万钊.语音/音频混合编码器中的信号分类算法研究[D].武汉大学.2018
[6].张玲.基于SILK的宽带变速率语音编码器的研究[D].重庆邮电大学.2018
[7].田媛.基于Linux平台上线性预测语音编码器性能分析[J].重庆大学学报.2018
[8].涂中文,赵艳明,宋金宝.基于自动编码器的语音音色客观评价[J].中国传媒大学学报(自然科学版).2017
[9].陈浩.基于eX-CELP的低速率语音编码器的研究及实现[D].重庆邮电大学.2017
[10].王蓉蓉,曾毓敏,周挺挺,李平.改进的基于GMM谱包络拟合的语音编码器[J].中国科技论文.2016