导读:本文包含了交叉验证论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:正则,光谱,网格,平滑,协方差,缺陷,方差。
交叉验证论文文献综述
田文忠,赵庆展,胡浩伟,李沛婷,马永建[1](2019)在《无人机高光谱载荷性能交叉验证》一文中研究指出无人机定量遥感已成为当前遥感研究领域的热点之一,辐射定标是定量遥感的基础,在定量遥感研究中,首先需要确保无人机载荷性能的可靠性。基于辐射定标原理,以多光谱仪的固有波段为中心波长,设置高光谱仪对应波段范围,利用灰阶靶标,将高光谱影像中靶标的辐亮度值与多光谱仪的光谱响应函数进行卷积运算,得到多光谱各波段的等效入瞳辐亮度模拟值,从而拟合获得无人机多光谱载荷辐射定标系数;最后通过辐射定标系数验证分析及光谱曲线比对,最终实现无人机高光谱载荷性能交叉验证。结果表明:对于均匀地物如裸土,定标先后平均相对误差小于0.12;两次定标系数相对差异在±1%之内,且两次拟合相关系数r2分别在0.96和0.92以上,传感器线性响应度较高。实验结果可为相关多、高光谱遥感载荷性能分析提供参考。(本文来源于《中国测试》期刊2019年11期)
闵盈盈[2](2019)在《基于交叉验证的平滑系数确定研究》一文中研究指出指数平滑预测法关键在于平滑系数确定,提出一种基于交叉验证的平滑系数确定办法,将简单交叉验证与n重交叉验证结合确定平滑系数,并应用确定的系数,对全国城镇居民平均收入进行指数平滑预测,取得较好的预测效果.(本文来源于《哈尔滨商业大学学报(自然科学版)》期刊2019年05期)
章文俊,韩晓龙[3](2019)在《基于交叉验证网格寻优随机森林的黑产用户识别方法》一文中研究指出随着移动互联网的普及,黑色产业成为了一种新的违法途径。黑色产业的猖獗不仅损害了社会利益,同时也影响了正常用户的体验。本文提出了一种基于交叉验证网格寻优随机森林算法的区分黑色产业用户的方法。本文收集的黑产用户数据为某论坛的恶意刷违法消息的用户数据。利用随机森林机器学习数据特征,通过交叉验证以及网格搜索技术完成模型参数寻优,得到训练好的模型。并且比较了其他常见的几种分类算法在识别黑产用户的准确率。线上和线下实验表明,基于随机森林算法的模型在预测区分黑色产业用户上相比较于其他几种算法准确率更高,表现更为稳定。为打击黑色产业积累了宝贵的经验。(本文来源于《科技视界》期刊2019年28期)
张龙波,李智远,杨习贝,王怡博[4](2019)在《决策代价约简求解中的交叉验证策略》一文中研究指出属性约简是粗糙集理论中的核心问题,其目的是剔除冗余属性以找到具有较好泛化能力的属性子集.在决策粗糙集理论中,决策代价经常被作为属性约简的约束条件.但值得注意的是,虽然基于决策代价的约简求解算法可以有效地降低训练样本集上的总决策代价,但其往往忽视了测试样本集上的总决策代价.为解决这一问题,利用交叉验证的基本思想,设计了以决策代价为约束条件的一种新的属性约简求解算法.在八个UCI数据集上的实验结果表明,相较于传统基于决策代价的约简求解算法,所提算法不仅能有效地降低训练集合和测试集合的总决策代价,而且找出的属性子集亦可以带来更好的分类性能.(本文来源于《南京大学学报(自然科学)》期刊2019年04期)
张剑飞,王真,崔文升,杜晓昕[5](2019)在《基于交叉验证和神经网络融合的医学数据分类》一文中研究指出在医学诊断过程中采集到的数据具有低样本数量、少特征的特点,作为神经网络输入会导致网络收敛速度过慢或者陷入局部最优。针对这一问题,在现有神经网络和交叉验证算法的基础上,给出将留一法和神经网络融合的医学数据分类方法。首先对获取到的医学数据进行预处理,然后使用深度学习Keras框架搭建神经网络模型,最后对网络模型训练和预测分析。实验表明,给出的方法能在较少的迭代次数内使网络模型达到收敛,避免陷入局部最优,有效地提升网络模型的拟合程度和稳性,与传统机器学习算法相比有更高的分类准确性。(本文来源于《齐齐哈尔大学学报(自然科学版)》期刊2019年04期)
刘恒[6](2019)在《基于交叉验证法的协方差矩阵估计及其在投资组合中的应用》一文中研究指出协方差矩阵刻画了变量之间的离散程度和线性相关关系,在资产组合分析、通信工程等领域具有非常广泛的应用.众所周知,当总体的维度较低时,样本协方差矩阵是总体协方差矩阵的无偏估计,随着总体的维度逐渐增加,样本协方差矩阵不再是总体协方差矩阵的无偏估计和一致估计,增大了估计误差.特别地,当维度大于样本数量时,样本协方差矩阵是奇异的.因此,在高维数据的情形下,用传统的样本协方差矩阵估计总体协方差矩阵不再合适.研究的主要内容是总体协方差的估计矩阵,并在限制卖空的全局最小方差投资组合框架下,对比不同的估计矩阵在我国证券市场上的绩效表现,主要由两部分组成.第一部分研究了协方差矩阵的估计问题,首先将样本协方差矩阵同时和单位矩阵、样本协方差矩阵的对角矩阵进行凸线性组合.其次,运用交叉验证的方法,得到了收缩强度的解,提出了新的估计矩阵—双收缩估计矩阵(DSE).最后,利用模拟分析对比了DSE估计矩阵与其它几个不同的协方差估计矩阵的估计效果的好坏.第二部分是实证分析.选取上证180指数成分股中的56支股票的交易数据进行实证研究,在限制卖空的全局最小方差投资组合框架下,通过滚动窗的方法计算了投资风险、夏普比率、周转率、效用函数等绩效评价指标值,对比了不同的估计矩阵在限制卖空的全局最小方差投资组合框架下给投资者带来的福利效益.实证结果显示:在估计区间的长度为400时,DSE估计矩阵的绩效评价指标要比其它估计矩阵的效果更好,可以使投资者获得更高的经济效益.(本文来源于《兰州财经大学》期刊2019-06-10)
王瑞波[7](2019)在《监督学习算法预测性能比较的正则化交叉验证方法研究》一文中研究指出在数据驱动的智能信息系统中,机器学习模型是必用的。模型通常是由一个算法在大量数据上学习得到的。选择一个性能高的算法是系统不断升级的关键技术。事实上,算法比较是机器学习建模中基本问题之一。一个新发明的算法其性能是否优于旧算法,需要经过合理的统计检验才能得出可靠的结论。算法比较任务贯穿于建模过程中的算法选择、特征选择、模型选择及评估等各个阶段,是建模中关键环节。本文仅关注两个有监督学习算法的比较问题。算法比较任务通常被描述为:给定一个数据集及两个机器学习算法,哪个算法可以产生性能更为优良的模型?算法比较任务可形式化为统计显着性检验问题,并采用经过精心设计的交叉验证以及合理的显着性检验方法来解决。基于5折(10折)交叉验证的t检验,因简单易用,被研究者广泛采用。然而,该方法采用的方差估计偏小,难以有效控制检验的第一类错误,易导致假阳性的结论。尽管其第一类错误在5×2交叉验证t检验及F检验中得到改进,但5×2交叉验证受随机数据切分的影响,也常常得到不可靠的结论。为此,面向算法比较任务,本文对给定的一个IID数据集,首先从数据的切分方式入手,构建了正则化交叉验证方法,给出了较为合理的方差估计,然后构造了合理的序贯检验方法,理论分析和实验验证其减小了检验的第一类错误,可以得到可靠的结论。进一步,将正则化交叉验证拓展到文本数据集,对预测标签的分布增加正则化条件,并给出了准确率、召回率和F_1值的后验分布,构建了算法比较的贝叶斯检验方法。本文研究了正则化交叉验证的理论性质及构建方法。首先,从泛化误差的repeated learning-testing(RLT)估计入手,分析了RLT的随机切分对该估计的方差的影响,发现较差的切分方式会造成RLT中训练集间样本重迭过多,从而增大RLT估计的方差。因此,本文引入正则化条件约束重迭样本个数,优化RLT方法的切分方式,减小RLT估计的方差,构建正则化RLT方法。本文给出了正则化RLT方法的几种简易构造方法。作为RLT方法的一种特殊情形,m×2交叉验证在算法比较中使用更为广泛。为此,本文进一步考虑m×2交叉验证的优化问题。本文分析重迭样本个数对泛化误差的m×2交叉验证估计方差的影响,引入正则化条件将m×2交叉验证的重迭样本个数约束至n/4左右(n为数据集大小),提出正则化m×2交叉验证,证明了正则化m×2交叉验证可有效地减少泛化误差估计的方差,开发了正则化m×2交叉验证的高效增量式构造算法。针对文本数据集,本文进一步引入卡方统计量来度量训练集和验证集上多种频次分布的差异,提出关于该差异度量的多种正则化条件,进一步优化正则化m×2交叉验证,以构建适用于文本数据的正则化m×2交叉验证方法。本文使用IID数据集和文本数据集上的大量实验,说明上述正则化交叉验证方法的优良性。本文将算法比较任务形式化为假设检验问题,研究了基于正则化m×2交叉验证的统计推断方法。针对泛化误差,因训练集间存在重迭样本,正则化m×2交叉验证中多个hold-out估计间存在相关性,使基于正则化m×2交叉验证统计推断不同于IID观测上的传统统计推断方法。本文从理论上确定了正则化m×2交叉验证估计中相关系数的上下界,给出正则化m×2交叉验证估计的合理方差估计,严格证明所采用的统计量服从t分布。通过合理设置相关系数,构造了一个相对保守的序贯t检验统计量,并给出序贯置信区间。区别于传统的IID序贯检验,当重复次数m趋于无穷时,该序贯置信区间的期望长度收敛于一个正值,可能导致序贯t检验在有限时刻内无法停止。为此,本文使用序贯置信区间期望长度的缩减率作为准则,选取序贯t检验的最大停止时刻。本文从理论分析和模拟实验两方面比较了现有的一些检验与本文提出的序贯t检验。实验结果表明该序贯t检验为保守统计推断,可有效控制第一类错误且具有更优的势函数,并可给出可靠的结论。实验结果也说明,在许多情形下,不宜采用固定的m,而采用序贯的做法是必要的。针对文本数据,算法性能指标多为准确率、召回率和F_1值。它们的分布是偏峰的。因此,采用t检验不妥。针对准确率,召回率和F_1值,本文分析了正则化m×2交叉验证估计中的相关性与准确率、召回率和F_1值的后验分布间的关系,给出了它们的精确后验分布,构造了合理的后验置信区间,进而提出了算法比较的贝叶斯检验方法,并在文本数据上的分词及命名实体识别实验证实了该贝叶斯检验的有效性。本文以软件缺陷预测任务为例,针对缺陷数预测模型,将正则化m×2交叉验证序贯t检验用于检验各聚合特征对模型性能是否有显着影响的问题中。针对缺陷倾向性预测模型,文本将基于正则化m×2交叉验证的贝叶斯检验,用于比较logistic回归和随机森林两种分类算法在模型的准确率、召回率和F_1值上谁更优良。本文提出的正则化交叉验证及其统计推断方法,提高了算法比较结论的可靠性,对有监督学习算法的建模具有重要意义。关于优化数据切分的正则化思想,可扩展到大规模数据的子抽样上,为分布式学习和建模提供新的思路和方法。(本文来源于《山西大学》期刊2019-06-01)
房立超[8](2019)在《方差正则化的交叉验证模型选择方法研究》一文中研究指出统计机器学习的主要目的是依据训练数据集建立预测模型,用以描述给定数据的统计规律,并通过已有的模型对新数据进行预测。其中,模型的建立和选择是关键。所谓模型选择,指的是通过估计已建立的不同模型的性能,从而选出其中最好的模型。在传统的统计回归分析中,模型选择指的是变量的选择,从上世纪60年代开始它就一直是统计学中的重点研究问题。分类情形的模型选择主要包括两个方面:一方面是分类器(分类算法)的选择,对于给定的某个数据集,基于某个性能度量指标选择多个分类器中性能最好的一个;另一方面是特征(变量)的选择,选择一个最优性能的特征组合。现有文献中,回归和分类模型的选择常常是直接基于泛化误差的估计来进行,如基于广泛使用的泛化误差的交叉验证估计方法来进行模型的选择。然而,注意到基于这些估计的方法在选择模型过程中只使用了估计本身(均值的信息)而没有考虑估计的方差的信息,这样较大的方差将导致模型大的波动,趋向于选择较复杂的模型,从而导致模型较低的泛化性能。因此,本文将方差作为正则化项添加到传统的回归和分类模型选择准则中,提出了一种新的交叉验证框架下的方差正则化的模型选择准则。首先,通过模拟实验验证了方差正则化项在模型选择中的重要性。接着,大量模拟和真实数据上的实验验证了无论是对于回归还是分类任务,提出的方差正则化模型选择准则相比传统模型选择方法都能选择到具有更小泛化误差的更简单模型。进一步,从理论上证明了提出的方差正则化的交叉验证模型选择准则具有选择的一致性,即在有限样本下选择的最优模型在样本趋于无穷时同样成立,保证了模型选择的稳定性。(本文来源于《山西大学》期刊2019-06-01)
刘亚娜[9](2019)在《基于正则化交叉验证的静态软件缺陷预测方法研究》一文中研究指出软件缺陷预测技术是利用软件度量来构建软件缺陷预测模型,并预测软件系统中潜在缺陷的技术,它能够帮助我们定位缺陷位置,有利于合理分配资源,节省时间,提高软件开发的效率。本文基于正则化m×2交叉验证,在软件缺陷个数预测建模中,给出一种基于最大信息系数的特征选择方法;在缺陷倾向性预测建模中,给出了一种采用投票的集成分类器,并通过实验验证了方法的有效性。在缺陷个数预测中,由静态代码提取的类层面度量元(特征)以及由方法聚合(sum,avg,max,min)到类的特征往往较多,使用传统的特征选择方法(如AIC、BIC)通常先要确定了模型,不同的模型选出的特征集差异较大,且模型的可解释性差。最大信息系数MIC(Maximal Information Coefficient)是David等人提出的度量两个连续变量之间相互依赖程度的一个指标,且有基于观测数据的计算办法。本文基于软件缺陷个数与各特征的MIC度量先选择特征,再对所选特征进行了适当的幂次变换,最后使用主成分泊松和负二项回归建模。本文实验基于NASA的KC1的类层面数据集,采用了m?2交叉验证的序贯t-检验来对两模型的性能差异的显着性进行检验,模型性能评价指标采用FPA、AAE、ARE。实验结果表明:1)基于MIC选出的特征主要是sum、avg、max叁种聚合模式特征,与AIC、BIC方法有明显的差异;2)对特征做适当的幂次变换在多数模型下可以改善其性能;3)对特征做幂次变换后,做主成分分析与因子分析可以得到两个明显的因子,其一个因子正好对应avg与max聚合模式的特征集,另一个因子正好对应sum的聚合模式特征集,使得模型具有较好的可解释性。综合实验的各项指标可以得出,sum、avg、max叁种聚合模式对软件缺陷预测有显着作用,且基于MIC所选特征而构造的模型是有优势的。在缺陷倾向性预测中,对给定的分类器和数据集,本文基于正则化m×2交叉验证对数据切分,在训练时结合使用随机下采样(random undersampling)策略,以m个混淆矩阵的结果采用多数投票法(majority vote)构建了一个集成的分类器;为了验证其性能,我们在NASA的4个分类数据集,7种分类器上进行了实验,以P,R,F_1值,AUC为性能评价指标;实验结果表明,随着m的增大,这种集成分类器的性能逐渐趋于稳定,并可以显着提高预测的性能;特别是当分类器为决策树时,其性能提高尤其明显。(本文来源于《山西大学》期刊2019-06-01)
张文雅,范雨强,韩华,张斌,崔晓钰[10](2019)在《基于交叉验证网格寻优支持向量机的产品销售预测》一文中研究指出综合考虑影响汽车销售的多种因素,运用交叉验证网格搜索优化支持向量机的惩罚系数和核函数参数,建立了适合汽车销售的预测模型.仿真实验结果表明,改进支持向量机优化汽车销售预测模型的预测效果比某公司当前采用的模型更佳,该模型具有较高的预测精度和较大的可信度,可为企业决策层提供较为准确的销售预测参考.(本文来源于《计算机系统应用》期刊2019年05期)
交叉验证论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
指数平滑预测法关键在于平滑系数确定,提出一种基于交叉验证的平滑系数确定办法,将简单交叉验证与n重交叉验证结合确定平滑系数,并应用确定的系数,对全国城镇居民平均收入进行指数平滑预测,取得较好的预测效果.
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
交叉验证论文参考文献
[1].田文忠,赵庆展,胡浩伟,李沛婷,马永建.无人机高光谱载荷性能交叉验证[J].中国测试.2019
[2].闵盈盈.基于交叉验证的平滑系数确定研究[J].哈尔滨商业大学学报(自然科学版).2019
[3].章文俊,韩晓龙.基于交叉验证网格寻优随机森林的黑产用户识别方法[J].科技视界.2019
[4].张龙波,李智远,杨习贝,王怡博.决策代价约简求解中的交叉验证策略[J].南京大学学报(自然科学).2019
[5].张剑飞,王真,崔文升,杜晓昕.基于交叉验证和神经网络融合的医学数据分类[J].齐齐哈尔大学学报(自然科学版).2019
[6].刘恒.基于交叉验证法的协方差矩阵估计及其在投资组合中的应用[D].兰州财经大学.2019
[7].王瑞波.监督学习算法预测性能比较的正则化交叉验证方法研究[D].山西大学.2019
[8].房立超.方差正则化的交叉验证模型选择方法研究[D].山西大学.2019
[9].刘亚娜.基于正则化交叉验证的静态软件缺陷预测方法研究[D].山西大学.2019
[10].张文雅,范雨强,韩华,张斌,崔晓钰.基于交叉验证网格寻优支持向量机的产品销售预测[J].计算机系统应用.2019