论文摘要
随着人工智能与机器学习的发展,特征提取在智能系统中起到重要的作用。由于有监督的特征提取学到的特征与后续任务直接相关,因此获取标签数据后,利用深度神经网络有监督提取特征受到了广泛的关注。虽然它们在诸如图像处理,自然语言处理等领域获得了巨大的成功,但是它们只能得到对模型的点估计,而且“黑盒子”属性模型很难解释各层学到的特征。相反,与基于优化的模型相比,概率模型在挖掘数据结构、结合领域知识以及解释学到的特征等方面展示了更强的能力。针对如何利用概率模型提取图像与文本特征,本论文从监督与非监督学习两个方面,研究可解释的贝叶斯特征学习模型。除此之外,本论文还将讨论如何利用大规模推理算法将概率模型用于大数据场景,并且将模型扩展到图像与文本的联合表示学习任务中。论文的主要研究内容如下:1.针对有监督特征学习问题中,深度神经网络只能学习参数的点估计,导致其对噪声并不稳健,并且缺少合理的概率解释,本文提出了基于最大间隔准则的有监督判别投影方法。它利用了支持向量机的隐变量表示作为分类准则,通过变量增广技术,在贝叶斯框架下联合学习线性投影子空间以及分类器。进一步利用核表示方法提出了非线性判别投影模型。为了建模核空间的稀疏性,借助spike-and-slab先验从合适的空间中寻找基向量。不同与很多现有模型利用基向量近似原始空间,本文的方法联合最终的分类任务寻找基向量。由于模型具有条件共轭特性,因此参数都可以通过简单有效的吉布斯采样进行推理。我们将线性模型命名为最大边界线性判别投影(MMLDP),而将利用核方法的模型命名为核最大边界判别投影(KMMDP),并在仿真数据和大量实测数据上,验证它们的实用性和有效性。2.对于复杂的高维数据,譬如自然图像,MMLDP与KMMDP都需要将它们转化成为一维向量进行处理,导致模型无法挖掘各维度之间存在的相关信息。借助深度学习的思想,本文提出了统一的贝叶斯最大间隔判别投影框架(MMDP),它利用隐表示与观测的不同关系,联合学习判别子空间与最大间隔分类器。在MMDP中,假设隐变量服从一个高斯分布,其中均值与方差分别是观测的投影函数。这个函数非常灵活,可以是浅层也可以是深层结构。浅层结构包括线性、非线性核函数以及卷积投影,其中卷积投影可以利用逐层训练方法得到深层结构。利用深度网络强大的表征能力以及有效的参数学习方法,我们将贝叶斯模型与传统的深度网络结合,比如多层感知机或者卷积神经网络,构建端到端的贝叶斯深度判别投影模型。针对大数据应用,利用随机梯度马尔科夫蒙特卡洛方法,实现对不同模型在大数据背景下的有效推理。最后,在实测数据集上验证了MMDP框架的有效性,同时给出了对模型参数以及计算复杂度的详细分析。3.针对实际应用中无标签数据远多于标签数据这一现象,特别是文本数据,因此如何利用概率生成模型(PGM)非监督的、灵活的挖掘文本的数据结构是特征学习中的一个关键问题。虽然一些现有模型可以从大量文本数据中提取相关特征,但是大多数模型都是浅层的,限制了模型的特征表达能力。同时它们都是一个由上到下的生成结构,因此很难做到实时处理。为了针对文本分析建立灵活可解释的多层PGM,本文提出深度自编码主题模型(DATM)。该模型利用层次化的伽马分布构建多层随机生成模型。针对该生成模型,为了找到适用于大规模数据的后验推理算法,首先提出了基于主题自适应的随机梯度黎曼流形蒙特卡洛马尔科夫采样算法,联合推理具有归一化限制的全局变量,同时得到各层自适应的学习率。给定全局参数的一个后验采样,为了快速有效的推理文本各层的局部隐表示,我们提出了威布尔上下变分自编码网络。该网络通过一个可学习的前向神经网络,确定性的自下而上的传递信息,进而通过威布尔分布结合自上而下的随机信息,联合推理文本隐表示的后验分布。在给定文本标签信息时,无监督DATM可以利用分类似然,转化成监督的DATM模型,在保留模型生成能力的同时,增加了隐变量的鉴别性。在实际大规模数据上,通过监督与非监督实验,验证模型的有效性和大规模特性。4.之前讨论的模型都只针对单一的数据模态。然而,在现实世界中,往往人们会用多种模态形式去理解一个物体或者目标,其中最常见的就是图像文本的联合学习。虽然现有图像文本联合学习方法在某些应用上获得了成功,但是很少有模型可以挖掘可解释的层次化的视觉与语义关系,并建立端到端的模态转换。为此,我们首先提出了一个统一的概率模型框架,我们称其为聚集后验随机GAN(APGAN),其中VAE的聚集后验代替噪声作为GAN网络生成器的输入。APGAN最大程度的保留了各自的结构,使得模型不仅可以建模多模态数据,也可以建模单模态数据。首先在单模态数据集上,验证APGAN作为深度生成模型的有效性以及灵活性。基于此,我们通过将一个基于深度主题模型的变分异构自编码模型与StackGAN++图像生成器结合,构建AP-StackGAN++同时建模图像文本模态。为了更好的理解两个模态之间的关系,我们提出了“raster-scan”GAN,不仅可以像StackGAN++一样实现由低分辨率到高分辨率的图像生成,同时可以实现层次化的语义从粗糙到细致的生成过程,我们将其称为AP-raster-scan-GAN。通过联合训练,我们在多个图像文本多模态学习中获得了最优的性能。
论文目录
文章来源
类型: 博士论文
作者: 张昊
导师: 陈渤
关键词: 特征提取,最大边界,层次化概率模型,深度主题模型,多模态学习
来源: 西安电子科技大学
年度: 2019
分类: 基础科学,信息科技
专业: 数学,自动化技术
单位: 西安电子科技大学
分类号: O21;TP18
DOI: 10.27389/d.cnki.gxadu.2019.000014
总页数: 164
文件大小: 23077K
下载量: 242