论文摘要
语音变调常用于掩盖说话人身份,各种变声软件的出现使得说话人身份伪装变得更加容易。针对现有变调语音检测方法无法判断语音是经过了何种变调操作(升调或降调)的问题,通过分析语音变调在信号频谱,尤其是高频区域留下的痕迹,提出了基于翻转梅尔倒谱系数(IMFCC)统计矩特征的电子变调语音检测方法。首先,提取各语音帧IMFCC及其一阶差分;然后,计算其统计均值;最后,在该统计特征上利用支持向量机(SVM)多分类器的设计来区分原始语音、升调语音和降调语音。在TIMIT和NIST语音集上的实验结果表明,所提方法无论对于原始语音、升调语音还是降调语音都具有良好的检测性能。与MFCC作为特征构造的基线系统相比,所设计的特征的方法明显提高了变调操作的识别率。在较少的训练资源的情况下,所提方法也获得了比基于卷积神经网络(CNN)的框架更好的性能;此外,在不同数据集和不同变调方法上也都取得了较好的泛化性能。
论文目录
文章来源
类型: 期刊论文
作者: 林晓丹,邱应强
关键词: 语音变调,翻转梅尔频率,倒谱系数,统计矩,多分类
来源: 计算机应用 2019年12期
年度: 2019
分类: 信息科技
专业: 电信技术
单位: 华侨大学信息科学与工程学院
基金: 国家自然科学基金资助项目(61871434),华侨大学科研基金资助项目(Y19060)~~
分类号: TN912.3
页码: 3510-3514
总页数: 5
文件大小: 1817K
下载量: 104