说话人分割论文-王昊楠

说话人分割论文-王昊楠

导读:本文包含了说话人分割论文开题报告文献综述及选题提纲参考文献,主要关键词:说话人分割,深度学习,重迭语音检测,语音检测

说话人分割论文文献综述

王昊楠[1](2018)在《具备鲁棒性的说话人分割机制的设计与实施》一文中研究指出说话人分割机制的主要任务是对含有多个说话人的音频信号进行自动分割,使得理想情况下,分割后的每个语音片段只包含一个说话人。说话人分割机制综合了语音信号处理和模式识别等多项技术,在语者识别、说话人动态监测、音频信息检索等方面有着极为广泛的应用,是近几年语音信号处理领域的研究热点之一。论文所完成的主要工作包括:(1)设计并实施了基础性的说话人分割机制,进行了必要的测试与分析;(2)基于GBDT算法,设计并实施了重迭语音检测机制。(3)基于深度学习技术,设计并实施了语音非语音检测机制,在多种音频场景下验证了其性能,并将其应用到说话人分割机制中,取得了一定的效果;(4)基于深度学习技术,设计并实施了语音增强机制,在一定程度上保证了说话人分割机制的性能;(本文来源于《北京邮电大学》期刊2018-01-25)

朱唯鑫[2](2017)在《多人对话场景下的说话人分割聚类研究》一文中研究指出说话人分割聚类是对一段多人混合的连续语音自动切分,获得"什么时候谁在说话"这个信息的技术。当前在两人电话对话数据上,说话人分割聚类系统取得了很好的性能;但是在会议、电视广播多人对话等复杂场景下还是面临着很多挑战,存在的问题包括:一般说话人数不定且没有人数的先验信息;说话人交谈时轮换快,每个说话人的语音长度不定;语音中存在着多种多样的噪声等。如何有效的解决这些问题,提升分割聚类系统的鲁棒性成为重要的研究方向,也是本文主要的研究内容。本文针对电视多人访谈节目中说话人分割与聚类的问题进行研究,论文的主要工作和创新如下:第一,主流算法的融合改进。在论文第二章中,在典型的分割聚类算法的基础上,采用深度神经网络(Deep Neural Network,DNN)取代传统的贝叶斯信息量的方法来实现语音的分割,由于DNN强大的区分能力,提高了变化点检测的准确率;在聚类方面,采用了共识聚类的方法对多套系统进行融合,提高了类别的纯度,加强了初始模型的鲁棒性,从而降低了系统的错误率。第二,噪声环境下特征降噪。在论文第叁章中,利用回归深度神经网络(Re-gression DNN)去拟合带噪音频的声学特征到干净音频的声学特征的映射函数,用这个回归网络提取出降噪后的特征削弱了噪声的信息,将该降噪特征用于分割聚类系统,降低了系统的错误率。进一步,利用共识聚类对降噪特征和原始特征系统进行融合,显着的提升了系统的性能。第叁,时长鲁棒的类别模型训练算法。多说话人场景下,每个说话人的语音长度是不定的,在论文第四章中,针对传统的最大后验估计(Maximum A Posteriori,MAP)得到的类别模型受类别时长的影响导致模型参数偏移的问题,提出在MAP过程中,对相对因子根据时长进行规整,提高类别模型参数的时长鲁棒性。实验结果表明,对于归一化交叉似然比(Normalized Cross Likelihood Ratio,NCLR)和T-Test度量距离,规整后的类别模型带来了性能的提升。第四,高区分性的人数判定算法。在论文第五章中,围绕人数确定进行研究。在门限法确定人数的基础上,采用Ts准则确定人数,该准则无需在开发集设定门限,实验结果表明,Ts准则和门限法融合提升了人数确定的准确率。另外,将估计的语句类间类内分布的均值与开发集门限相结合,设定自适应的门限,提高了人数确定准确率。最后,提出一种改进的T-Test度量距离,改进的方法详尽的利用了似然比得分分布的统计信息,更具区分性,从而在人数确定上更加准确。(本文来源于《中国科学技术大学》期刊2017-05-01)

朱唯鑫,郭武[3](2016)在《采用长度规整MAP的说话人分割聚类》一文中研究指出本文首次提出了长度规整的最大后验估计(MAP)方法,并将其应用到说话人分割聚类中的交叉似然比(CLR)和T-Test这两种度量距离上。传统的MAP方法需要在通用背景模型(UBM)基础上进行统计量的计算,进而对模型参数进行自适应偏移,因此偏移的程度与语音片段的长度正相关。当在度量两个长度不相同的语音片段的相似性时,传统的MAP方法会使得说话人模型刻画不准确,从而影响距离度量。本文在MAP过程中,根据语音的长度对相关因子进行规整,然后再进行模型参数的调整,从而使得模型参数与语音长度无关,更能体现说话人的身份信息。在中文多人电视访谈节目数据的分割聚类评测任务上,采用长度规整的MAP方法相对于传统方法都有明显提升,在CLR度量准则下分割聚类错误率相对下降了3.5!,在T-Test度量准则下分割聚类错误率相对下降了10.7!。(本文来源于《信号处理》期刊2016年07期)

许燕[4](2016)在《说话人分割聚类中的建模方法研究》一文中研究指出随着互联网时代的到来,以及大数据的发展,每天接受的信息大幅增长,这些信息中包含着电话通信、电视和网络等语音信息,同时随着科技的不断发展和电子设备的大量普及,有声邮件、语音搜索等在日常生活中扮演着越来越重要的角色。面对这些如雨后春笋般出现的信息,如何从中有效提取有用的信息,是目前研究的难点和热点。说话人分割聚类融合了多种音频处理技术,并能够实现对说话人类别和说话内容的精确管理,因此说话人分割聚类技术引起了众多学者的兴趣,比如麻省理工、法国LIMSI、剑桥、伯克利等已经展开研究,且取得了一定成果,但是说话人分割聚类中仍有几大难点难以解决,比如复杂场景下建模不准确、短时语音段表示不准确、聚类效率慢以及说话人数目确定困难等,本文针对这些问题展开研究,具体内容为以下几个方面:针对复杂场景下建模不准确的问题,论文将有监督的建模方法应用到说话人分割聚类中,利用深度神经网络替代传统建模方法提取语音信号中深层次的复杂信息,将输出节点中的音素状态作为建模初始类别数,并和全差异建模相结合,从而使音素特征和说话人特征有效地解耦,最终得到对语音段更加鲁棒性的表示,从而提高系统性能。对于短时语音段表示不准确的问题,论文提出了构造基于深度神经网络的说话人类内短时语音段差异建模的方法,通过对存在差异的短时语音段进行有效建模,补偿语音段之间的差异,减少干扰信息的负面影响,从而使得低维因子向量准确的包含语音段中的说话人信息,从而使得短时语音段能够更加准确地被表示。为了能够实现高效建模的目标,提高聚类效率,论文用谱聚类的方法代替原有的层次凝聚聚类,通过计算语音段间的距离,构造基于距离的关联矩阵,利用改进的Eigen gap方法寻找最优的聚类数目,确定语音段中的说话人数目,根据已经确定的类别数,通过对关联矩阵特征结构分布的分析,对分割后的语音段进行聚类。谱聚类的方法不仅解决了说话人数目难以确定的问题,而且聚类速度高于传统的层次凝聚聚类方法。利用本文提出的叁种方法,能够有效解决目前说话人分割聚类中存在的难点,通过实验结果可以表明,系统性能有大幅提升。(本文来源于《中国科学技术大学》期刊2016-05-01)

肖泽苹[5](2016)在《无线电对讲语音的说话人分割聚类研究》一文中研究指出伴随着信息爆炸和大数据时代的到来,音频获取途径和数量迅速增加,音频管理变得越来越复杂,说话人分割聚类作为音频管理的一种方式近几年在国际上逐渐成为研究热点。说话人分割聚类是说话人识别、话者跟踪、话者自适应的前期处理和必要步骤。本文针对多说话人、信道变化、背景噪声大的无线电对讲语音,主要进行说话人分割聚类研究。在分析现有无监督说话人分割算法的基础上,使用BIC、GLR和KL2准则对音频进行说话人分割,通过移动不同尺度的时间窗来快速确定存在的说话人变化点,最佳性能达到F=65.47%。说话人聚类是通过CLR距离的自底向上的层次聚类来实现的,聚类的终止条件是系统中指定的说话人个数。针对音频中包含较大的背景噪声,使用经典的谱减法和维纳滤波器对音频进行语音增强,对增强后的语音进行说话人分割聚类实验。在以上说话人分割算法性能遇到瓶颈时,通过观察发现地面控制中心和飞行员说话结束后会产生按键音。由于按键音是说话人变化的标识,由此提出信息融合的方法进行说话人分割聚类。在研究现有声学事件检测算法的基础上,使用时域分析和模型匹配的方法进行声学事件检出。通过实验得到高召回率和高准确率的事件位置后,对说话人分割结果进行修正。实验表明增加事件检测后说话人分割算法性能提升到77.18%,比之前单独使用最好的BIC方法的综合性能相对提升了17.88%,召回率和准确率分别相对提升了20.01%和15.50%。(本文来源于《北京理工大学》期刊2016-01-01)

马勇,鲍长春[6](2015)在《基于稀疏神经网络的说话人分割》一文中研究指出提出一种基于稀疏神经网络的说话人分割方法,利用稀疏的单隐层神经网络提取语音的超矢量特征中说话人因子特征,然后通过K均值聚类得到每帧语音的标号来分割不同说话人,在稀疏网络的训练过程中引入了dropout技术以克服过拟合问题.在TIMIT语音数据库构成的多说话人语音数据上的实验结果表明:通过增加稀疏网络中隐层节点的个数可以提高说话人分割的效果,与贝叶斯信息准则(Bayesian information criterion,BIC)方法和稀疏自编码网络方法相比,所提基于稀疏神经网络的说话人分割方法的性能有明显提高.(本文来源于《北京工业大学学报》期刊2015年05期)

马勇,鲍长春[7](2013)在《说话人分割聚类研究进展》一文中研究指出说话人分割聚类是近几年新兴起的语音信号处理研究方向,它主要研究如何确定连续语流中多说话人起止时间的位置,并标出每个语音段对应的说话人。这项研究对自动语音识别、多说话人识别和基于内容的音频分析等都具有重要的意义。根据说话人分割和聚类实现过程不同,本文从异步策略和同步策略的角度回顾了十年来国内外研究的主流算法、技术和代表系统,对比了不同代表系统在近几年NIST富信息转写评测的结果,最后讨论了目前还存在的问题,并对未来的发展进行了展望。(本文来源于《信号处理》期刊2013年09期)

马勇,鲍长春,夏丙寅[8](2013)在《基于辨别性深度信念网络的说话人分割》一文中研究指出本文在语音信号的超矢量特征空间,提出了一种基于Fisher准则的可辨别性深度信念网络(DDBN)训练方法,得到了优于传统深度信念网络(DBN)的说话人码本矢量特征,并利用这些码本特征对多说话人的音段进行了聚类与分割。由TIMIT数据库生成的多说话人语音分割的实验结果表明,本文所提出的基于Fisher准则函数的DDBN说话人分割算法的性能明显好于传统的贝叶斯信息判决(BIC)法和DBN法。(本文来源于《需将论文集名称修改为“第十二届全国人机语音通讯学术会议(NCMMSC2013)论文集》期刊2013-08-05)

马勇,鲍长春,夏丙寅[9](2013)在《基于辨别性深度信念网络的说话人分割》一文中研究指出该文基于语音信号的超矢量特征空间,提出了一种基于Fisher准则的可辨别性深度信念网络(discriminativedeep belief network,DDBN)训练方法,得到了优于传统深度信念网络(deep belief network,DBN)的说话人码本矢量特征,并利用这些码本特征对多说话人的音段进行了聚类与分割。由TIMIT数据库生成的多说话人语音分割的实验结果表明,该基于Fisher准则函数的DDBN说话人分割算法的性能明显好于传统的Bayes信息判决(Bayesian informa-tion criterion,BIC)法和DBN法。(本文来源于《清华大学学报(自然科学版)》期刊2013年06期)

凌锦雯,陆伟,刘青松,张琨磊[10](2012)在《利用EHMM和CLR的说话人分割聚类算法》一文中研究指出针对传统的说话人分割聚类系统中,由于聚类时话者信息不足而影响切分准确度的问题,本文提出了一种基于进化隐马尔科夫模型和交叉对数似然比距离测度的多层次说话人分割聚类算法,在传统的话者分割聚类算法的基础上引入了重分割和重聚类的机制,以及基于距离测度和贝叶斯信息准则的分层聚类算法,有效的解决了传统方法中切分准确度受到话者信息制约的问题.在美国国家标准技术署(NIST)2003 Spring RT数据库上的实验结果表明,本文提出的算法比传统算法系统性能相对提高了41%.(本文来源于《小型微型计算机系统》期刊2012年06期)

说话人分割论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

说话人分割聚类是对一段多人混合的连续语音自动切分,获得"什么时候谁在说话"这个信息的技术。当前在两人电话对话数据上,说话人分割聚类系统取得了很好的性能;但是在会议、电视广播多人对话等复杂场景下还是面临着很多挑战,存在的问题包括:一般说话人数不定且没有人数的先验信息;说话人交谈时轮换快,每个说话人的语音长度不定;语音中存在着多种多样的噪声等。如何有效的解决这些问题,提升分割聚类系统的鲁棒性成为重要的研究方向,也是本文主要的研究内容。本文针对电视多人访谈节目中说话人分割与聚类的问题进行研究,论文的主要工作和创新如下:第一,主流算法的融合改进。在论文第二章中,在典型的分割聚类算法的基础上,采用深度神经网络(Deep Neural Network,DNN)取代传统的贝叶斯信息量的方法来实现语音的分割,由于DNN强大的区分能力,提高了变化点检测的准确率;在聚类方面,采用了共识聚类的方法对多套系统进行融合,提高了类别的纯度,加强了初始模型的鲁棒性,从而降低了系统的错误率。第二,噪声环境下特征降噪。在论文第叁章中,利用回归深度神经网络(Re-gression DNN)去拟合带噪音频的声学特征到干净音频的声学特征的映射函数,用这个回归网络提取出降噪后的特征削弱了噪声的信息,将该降噪特征用于分割聚类系统,降低了系统的错误率。进一步,利用共识聚类对降噪特征和原始特征系统进行融合,显着的提升了系统的性能。第叁,时长鲁棒的类别模型训练算法。多说话人场景下,每个说话人的语音长度是不定的,在论文第四章中,针对传统的最大后验估计(Maximum A Posteriori,MAP)得到的类别模型受类别时长的影响导致模型参数偏移的问题,提出在MAP过程中,对相对因子根据时长进行规整,提高类别模型参数的时长鲁棒性。实验结果表明,对于归一化交叉似然比(Normalized Cross Likelihood Ratio,NCLR)和T-Test度量距离,规整后的类别模型带来了性能的提升。第四,高区分性的人数判定算法。在论文第五章中,围绕人数确定进行研究。在门限法确定人数的基础上,采用Ts准则确定人数,该准则无需在开发集设定门限,实验结果表明,Ts准则和门限法融合提升了人数确定的准确率。另外,将估计的语句类间类内分布的均值与开发集门限相结合,设定自适应的门限,提高了人数确定准确率。最后,提出一种改进的T-Test度量距离,改进的方法详尽的利用了似然比得分分布的统计信息,更具区分性,从而在人数确定上更加准确。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

说话人分割论文参考文献

[1].王昊楠.具备鲁棒性的说话人分割机制的设计与实施[D].北京邮电大学.2018

[2].朱唯鑫.多人对话场景下的说话人分割聚类研究[D].中国科学技术大学.2017

[3].朱唯鑫,郭武.采用长度规整MAP的说话人分割聚类[J].信号处理.2016

[4].许燕.说话人分割聚类中的建模方法研究[D].中国科学技术大学.2016

[5].肖泽苹.无线电对讲语音的说话人分割聚类研究[D].北京理工大学.2016

[6].马勇,鲍长春.基于稀疏神经网络的说话人分割[J].北京工业大学学报.2015

[7].马勇,鲍长春.说话人分割聚类研究进展[J].信号处理.2013

[8].马勇,鲍长春,夏丙寅.基于辨别性深度信念网络的说话人分割[C].需将论文集名称修改为“第十二届全国人机语音通讯学术会议(NCMMSC2013)论文集.2013

[9].马勇,鲍长春,夏丙寅.基于辨别性深度信念网络的说话人分割[J].清华大学学报(自然科学版).2013

[10].凌锦雯,陆伟,刘青松,张琨磊.利用EHMM和CLR的说话人分割聚类算法[J].小型微型计算机系统.2012

标签:;  ;  ;  ;  

说话人分割论文-王昊楠
下载Doc文档

猜你喜欢