论文摘要
情感识别(Emotion Recognition)是指根据观察、分析和识别被观察人的情感状态的有效信息来推断出人的情感状态。随着计算机和信息技术的快速发展,情感识别也广泛地应用于医疗诊断、视频监控、智能教育、人机交互等多个研究领域。相比较基于表情、语音、姿势等生物特征的情感识别研究,基于人的生理特征的情感识别能够更加客观准确地反映人的内心最真实的情感状态。而生理信号中的眼动信息在一定程度上能够反映出人的心理活动状态。通过获取眼动信号并分析其潜在的眼动信息能够为情感识别提供更多的线索,所以基于眼动的情感识别具有重要的研究意义和应用价值。本文围绕三种情感状态(正性、中性、负性)下的眼电信号(Electrooculogram,EOG)和视频信号(Video-oculography,VOG)的预处理、特征提取、特征融合、分类识别、应用等内容展开研究。具体的研究工作如下:(1)调研了现有的情感识别技术及基于图像和生理特征的情感识别方法。考虑到眼电信号与视频眼动信号的优缺点,本文采用了使用EOG和VOG两种模态进行眼动信息的采集。该采集方式具有操作简单、实验成本低、受环境影响小等优点。为了有效诱发情感状态,提高采集信号质量,本文设计了一种刺激源选择方法与双模态采集范式,并采集了6位受试者、每人共有72个一分钟长度三种情感状态的眼动数据。(2)研究了眼动特征对情感的表征能力。针对EOG信号,我们分别提取了其时/时-频/空域特征,即通过连续小波变换检测该段信号内的扫视信号段并提取扫视时间的最大值、均值、标准差和扫视频率等参数作为特征;通过短时傅里叶变换提取该段EOG信号的时-频域特征;使用独立分量分析进行空域滤波器设计,并在此基础上进行空域特征的提取。对于VOG信号,利用霍夫变换计算该段信号内瞳孔直径的大小来提取其最大值、均值、标准差特征;通过检测该段连续帧瞳孔中心点的变化来检测凝视信号段并提取凝视时间的最大值、均值、标准差和凝视频率特征。另外,为了研究不同的情感时间长度对情感识别的影响,本文在5种不同时间长度(分别为1秒、2秒、4秒、6秒、10秒)的情感数据提取上述特征。通过对比不同时间长度下的识别结果发现,当情感样本的时间长度为2秒时所有特征的平均识别效果相对较好。不同眼动特征所对应的平均识别结果为:基于扫视特征的正确率为54.6%,凝视特征为55.94%,瞳孔直径特征为56.18%,时-频域特征为47.1%,空域特征为52.5%。(3)研究了特征层与决策层两种特征融合方法。特征层融合方法包括特征直接融合和主成分分析(Principal component analysis,PCA)降维后融合;决策层融合是对每种特征分类后得到的后验概率采取一定规则进行融合,融合规则包括最大值、最小值、均值、求和、乘积规则。使用支持向量机对融合的特征进行分类,其中,PCA方法的平均识别结果为57.89%,比直接融合的识别结果提高了0.64%;决策层融合中的基于均值和求和的规则融合方法得到最高的平均识别率为67.86%,比直接融合多模态的特征提高了9.97%。实验结果表明多模态特征融合方法情感表征性能优于单个模态的识别效果。(4)设计并实现了一个基于眼动信息的视频内容评价系统。针对视频内容的评价,目前主要依靠人工实现。为了提高评价效率,本文设计并实现了一个基于眼动信息的视频内容评价系统。该系统主要由信号输入、预处理、特征提取、模型训练和测试视频等功能模块组成。对每个受试者进行测试,其识别结果均高于70%,测试结果表明系统运行稳定,具有交互性强、操作简单等优点。
论文目录
文章来源
类型: 硕士论文
作者: 汪阳
导师: 吕钊
关键词: 情感识别,眼动信号,特征提取,特征融合,信号处理
来源: 安徽大学
年度: 2019
分类: 基础科学,医药卫生科技,信息科技
专业: 生物学,生物医学工程,电信技术
单位: 安徽大学
分类号: R318;TN911.7
总页数: 79
文件大小: 5573K
下载量: 134