微阵列数据集论文-杨爱华

微阵列数据集论文-杨爱华

导读:本文包含了微阵列数据集论文开题报告文献综述及选题提纲参考文献,主要关键词:机器学习,分类器,基因微阵列,集成特征选择

微阵列数据集论文文献综述

杨爱华[1](2019)在《集成特征选择的基因微阵列数据分类算法》一文中研究指出多分类器集成是机器学习领域的一个研究热点,基因微阵列技术是多领域综合交叉技术,在医学与生物学上有广泛的应用。但是,基因微阵列数据维度高且样本少等问题使得传统的分类器不能总是取得理想的分类效果。现提出一种基于多目标遗传算法的集成特征选择方法。首先,确定使用基于进化计算的集成特征选择方法进行微阵列数据分析;其次,实现最大化最小边缘的目标设计并不断完善适应值函数;最后,引导算法生成高差异度与精确度的基分类器。在前列腺癌数据集和乳腺癌数据集上与已有方法进行对比,实验表明,提出的方法在对基因微阵列数据进行分类判别方面性能表现良好。(本文来源于《信息记录材料》期刊2019年10期)

黄紫成,林增坦[2](2019)在《基于PCA与核PCA的微阵列数据分析》一文中研究指出微阵列是近年来发展的生物技术,其产生数据典型特征是维数高而样本少,且数据常常存在缺少或噪声问题。在分析数据时,采用计算t值预处理方法解决此问题,同时针对数据高维的特点,采用PCA与核PCA对数据进行特征处理,然后应用支持向量机(SVM)进行训练,计算分类识别率。实验结果表明,经过降维处理之后能得到更高的分类识别率,提高了微阵列数据分析的准确性。(本文来源于《长春师范大学学报》期刊2019年06期)

何文容,许荣[3](2019)在《通过微阵列数据信息库进行系统筛选并验证宫颈癌中的关键候选基因》一文中研究指出目的:通过生物信息学方法分析NCBI公共数据库的4个队列数据集,阐明宫颈癌中潜在的关键候选基因和信号通路。方法:筛选差异表达的基因(DEG)并分析候选基因和途径富集。利用在线数据库STRING进行DEG编码的相关蛋白质-蛋白质相互作用网络(PPI)分析。选取宫颈癌和正常组织标本,采用qPCR验证筛选的中枢基因。结果:从4个GSE数据集中鉴定出79个差异基因(69个上调和10个下调)。根据功能和信号通路对DEG进行聚类,并进行显着的富集分析。通过PPI网络的整合筛选4个中枢基因RFC4、TOP2A、PCNA和BUB1。与正常组织相比,癌组织中RFC4、TOP2A、PCNA和BUB1表达明显升高,差异有统计学意义。结论:使用整合的生物信息学分析,在宫颈癌中鉴定了候选基因和途径,候选基因和相关途径可能是宫颈癌的治疗靶标。(本文来源于《现代妇产科进展》期刊2019年06期)

萧秋兰[4](2019)在《基于微阵列数据的癌症特征基因选择方法研究》一文中研究指出随着DNA微阵列技术的发展,DNA微阵列技术在基因诊断和辅助疾病方面的应用也越来越普遍。如今,癌症病变高发情况下,引入DNA微阵列技术,帮助人类探索生物分子方面的信息,对提高癌症治愈的成功率具有重要意义。但由DNA微阵列技术衍生的基因表达谱数据,具有高维小样本的特性,对其直接进行数据分析较为困难。因此,对高效特征选择算法的研究引起了广大学者的关注。根据基因表达谱数据的特性,本文提出两种用以提高癌症特征基因分类准确率的特征基因选择算法。在经典遗传算法的基础上,提出一种结合自适应遗传算法和学习自动机的癌症特征选择与分类方法AGALA。该方法根据个体适应度值的大小调整交叉操作的交叉率和变异操作的突变率,平衡算法的全局搜索能力与局部搜索能力。同时加入学习自动机的奖惩操作,增强算法搜索新个体的能力,避免算法在迭代后期出现“早熟”现象,并加快算法搜索到最优特征基因子集的速度。在标准粒子群算法的基础上,提出了一种具有自适应反向学习机制的SRPSO算法。SRPSO方法先使用T检验进行数据筛选去除冗余基因,降低算法搜索负担,后将SRPSO作为特征空间的搜索引擎,结合支持向量机,选择出分类性能较强的特征基因。SRPSO算法采用自适应种群迭代次数调整学习因子,以控制粒子搜索最优位置的速度,并采用反向学习机制,让算法搜索新个体,防止算法在迭代后期陷入停滞。实验表明,与传统的算法相比,本文所提出的两种算法具有较高分类准确率,在癌症基因表达谱上得到的特征基因子集规模更小,有利于提高癌症分类的准确率。(本文来源于《长春工业大学》期刊2019-06-01)

洪志鹏,陈德波,王青兰,洪成业[5](2019)在《基于微阵列数据研究RGS3与乳腺癌的预后关系》一文中研究指出目的基于微阵列数据研究G蛋白信号调节因子3(RGS3)与乳腺癌的预后关系,为乳腺癌的治疗提供潜在的靶点及预后参考因素。方法通过Kaplan-Meier Plotter平台(http://kmplot.com/analysis/)的微阵列数据库分析RGS3高/低表达对不同类型乳腺癌以及伴有高复发危险因素乳腺癌10年、15年生存的影响。结果根据10年、15年的随访数据,R GS3的高表达与基底样型乳腺癌的不良预后有关(P=0.032),并且与伴有高复发危险因素乳腺癌的不良预后密切相关,包括激素受体阴性(P=0.000)、HER-2过表达(P=0.004)、肿瘤组织学3级(P=0.009)、TP53阳性表达(P=0.046)和腋窝淋巴结转移阳性(P=0.005)等。结论 RGS34高表达与乳腺癌的恶性生物学特征有关,提示R GS3可以成为乳腺癌潜在的治疗靶点和有效的预后参考因素。(本文来源于《基层医学论坛》期刊2019年11期)

黄现代[6](2018)在《基于SVM的DNA微阵列数据分类研究》一文中研究指出20世纪后期,信息技术的快速发展催生了一门新的学科即生物信息学,生物信息学依靠数学和人工智能与生物医学的有机结合,已经在肿瘤基因表达谱分析、基因变异和蛋白质结构分析等领域取得了丰硕成果,成为了研究的热点。利用信息处理技术对肿瘤基因表达谱数据进行分析,对于揭示病变产生的原因、发展机理、疾病诊断、药物研制都有很强的现实意义。基因表达谱数据具有自身的特性,主要表现在小样本、高维、高噪声及高冗余方面,这些特性使得传统的分类方法在处理基因表达谱数据时往往效果不好,支持向量机对具有小样本、高维的数据进行分类效果良好。为了克服基因表达谱数据高噪声及冗余对分类器性能的影响,需要对原始数据进行特征选择。本文总结了目前在基因表达谱数据分类中的常用方法,针对这些方法存在的问题,开展研究,研究主要从两个方面进行:(1)特征基因选择方法研究。首先使用ReliefF方法对特征基因进行初步筛选,实现降低搜索空间的维数,初步去除冗余及噪声;然后使用混合和声差分算法确定最优特征基因组合。混合方法能够克服传统和声搜索方法局部寻优能力差,解精度低的缺陷,同时能克服差分进化算法容易陷入局部最优的问题。仿真实验结果表明,利用这种混合和声差分算法进行特征基因的选择在优化精度方面具有较好的性能。(2)改进的支持向量机的基因表达谱分类研究。通常支持向量机确定各项参数时,往往依赖经验。本文通过把径向基核函数支持向量机的参数(惩罚参数C与宽度系数?)的确定问题转化为一个组合优化问题,利用改进DE算法寻找最优参数。采用动态参数调整策略提高差分进化算法的性能;加入精英替代策略,增强算法的收敛性。仿真实验结果表明,改进DE算法可以有效提升支持向量机分类器的精度,且具有较好的泛化性能。(本文来源于《西南科技大学》期刊2018-10-01)

李自法[7](2018)在《面向基因表达微阵列数据的高效特征选择和分类方法研究》一文中研究指出基因芯片技术诞生以来,催生出了大量的基因表达微阵列数据,其中隐藏着非常有价值的生物学信息。分析这些数据,挖掘其中潜藏的生物学信息,为复杂疾病的诊断和治疗带来了新的可能性。样本个数少、维度高和类别不平衡是基因表达微阵列数据的主要特点,也是对现有数据挖掘技术构成的最大挑战。基于现有方法,本文致力于更高效的特征选择算法研究,同时尝试解决类别不平衡问题以及寻找更适合基因表达微阵列数据的分类算法。使用6个本领域最频繁被使用的数据集作为实验数据,使用分类准确率、马修相关系数和ROC曲线底部面积作为评价标准,结合分层的5折交叉验证策略对本文提出的方法进行实验验证。主要工作和结论如下:(1)提出了一种称为RVOS的数据采样方法来尝试解决基因表达微阵列数据的类别不平衡问题。实验结果表明,经过平衡后的数据集获得了相当或者更好的分类结果。由于平衡后的数据集各类样本分布更加均衡,因此分类结果更加可信。(2)改进递归特征消除方法,提出了一种称为VSSRFE的步长可变的递归特征消除策略。本文用SVM-VSSRFE和SVM-RFE分别作为特征选择器做特征选择。实验结果显示,SVM-VSSRFE的时间消耗获得了数百倍的减少;在3个数据上获得了更好的分类效果,同时在另外3个数据集上分类效果有一定程度的下降。(3)引入一种被称为LLSVM的大尺度线性支持向量机,更高效地实现特征选择。这是经典支持向量机的一种更高效的实现,专门用来处理类似于基因表达微阵列数据的高维线性分类问题。实验结果表明,在保证特征选择质量的前提下,LLSVM在5个数据集上所耗费的时间都远远少于经典的支持向量机,在部分数据集上甚至有超过10倍的缩减。(4)深入研究了不同分类方法对分类结果的影响。在6个数据集上的实验结果证明,支持向量机并不总是最好的选择,L2正则化的逻辑回归可以获得相当或更好的结果。(本文来源于《华侨大学》期刊2018-05-31)

钟天云,刘昆宏,王备战[8](2018)在《基于迭代延长纠错输出编码的微阵列数据多分类方法》一文中研究指出微阵列技术使快速大量检测基因成为可能,人们迫切需要利用该技术提高疾病诊断水平.因此,对微阵列数据的分析研究迅速发展,其中以数据多类分类研究尤为突出.但由于微阵列数据具有特征多、样本少的特点,使得传统统计学习方法分类效果欠佳.为了针对微阵列数据特点解决多类分类问题,提出了一种迭代延长纠错输出编码(iterative extension error correct output coding,IE-ECOC)的算法.在几个特征子集上,配合与特征相关的数据复杂度,利用一种基于二叉树的编码方法生成一个列池,并提出一种择列策略构造编码矩阵;然后,依据迭代验证结果延长矩阵.对癌症基因微阵列进行分类实验,结果显示,IE-ECOC对特征多、样本少的数据具有针对性,且与一些经典的ECOC算法相比,可以产生较好的结果,IE-ECOE算法效果也在实验中得到了验证.(本文来源于《厦门大学学报(自然科学版)》期刊2018年03期)

黄方舟[9](2018)在《基于DNA微阵列数据的肿瘤特征基因选择方法研究》一文中研究指出2017年初,国家癌症中心发布中国最新癌症数据,报告显示我国癌症新发人数呈上升趋势,形势依然严峻。DNA微阵列技术可获取大量的基因表达谱数据,为肿瘤特征基因选择和肿瘤亚型分类提供可靠的数据来源。但由于实验误差等影响,通过该技术获取的基因表达谱数据存在噪声和冗余基因,这些基因会影响肿瘤亚型分类的准确率。肿瘤特征基因选择不仅可高效地选出与肿瘤分类高度相关的基因,同时也降低了肿瘤亚型分类的成本。基因表达谱数据具有维数高、样本少、噪声多等特点,为数据的分析与处理带来了巨大的挑战。本文基于DNA微阵列技术获取的基因表达谱数据,采用机器学习等相关知识,探索出泛化能力强、分类精度高的肿瘤特征基因选择方法。主要研究内容如下:(1)基于PCA和信息增益的肿瘤特征基因选择方法。鉴于传统的主成分分析算法未将样本数据的类别信息考虑在内,基因数据信息未能得到有效利用,选出的特征基因子集中仍包含部分冗余信息,导致数据的分类精度偏低等问题,提出一种基于PCA和信息增益的肿瘤特征基因选择方法。首先利用主成分分析算法对原始基因数据集进行降维处理,选出贡献率较大的基因;然后采用信息增益算法剔除预选特征基因子集中的冗余信息,将预选特征基因的信息增益值作为衡量标准,选出信息增益值较大的基因构建肿瘤特征基因子集。实验结果表明,该方法可快速有效地选出肿瘤特征基因,且达到了预期的分类效果。(2)基于信息增益和邻域粗糙集的肿瘤特征基因选择方法。针对基因表达谱数据中包含有较多的冗余,在数据处理时还会受到噪声的影响,导致现有的一些肿瘤特征基因选择方法存在分类能力弱和鲁棒性差等问题,提出一种基于信息增益和邻域粗糙集的肿瘤特征基因选择方法。首先利用信息增益算法计算各个基因的信息增益值,经过降序排列后,选取信息增益值最大基因,利用斯皮尔曼相关系数选取与最大信息增益值基因相关性较大的基因作为预选特征基因子集;然后采用邻域粗糙集算法对预选特征基因子集进行特征基因选取,采用顺序向前搜索算法选择出重要度较大的基因。实验证明该方法比其他相关方法的分类准确率高,并且选择出的特征基因子集规模较小。(本文来源于《河南师范大学》期刊2018-05-01)

边中睿[10](2018)在《基于微阵列与数据集样本分析对活动性肺结核诊断的应用研究》一文中研究指出目的:我们通过分析公共数据库中已经公布的含有活动性肺结核(active pulmonary tuberculosis,APTB)和对照样本的微阵列数据来找到具有差异表达的模块,借助蛋白质-蛋白质相互作用(PPI)网络对APTB的病理机制进行评估。以STRING数据库检索到的PPI网络生成的差异表达网络(DEN)作为基础,根据DEN的程度特征提取自我基因,并基于EgoNet算法的基因扩增收集模块,最后通过随机置换测试评估APTB和对照组之间的模块的差异表达,之后基于Reactome数据库的途径富集分析检测差异模块的生物学意义。了解APTB的发病机制,并为有效治疗APTB提供潜在的生物标记物。方法:1.微阵列的可用性和预处理我们通过Array Express-数据库收集APTB的原始数据(登录账号:E-GEOD-56153)。微阵列共包括18名APTB患者,18名健康对照者,15名经过8周治疗和28名经过28周治疗的APTB患者。在我们的研究中,为了进一步探索结核病的分子机制,我们只选择了该微阵列中18例APTB患者和18例健康对照者进行之后的分析。原始数据由MicroArray Suite(MAS)软件(版本)5.0进行预处理。将探针数据映射到基因符号之后,总共获得17,638个基因。2.DEN的构建和权重值的计算首先,我们在STRING数据库中检索到覆盖787,896个相互作用的全部PPI网络和16,730个基因。接下来,将已经确定的微阵列图谱中的所有基因都映射到全部的PPI网络从而剔除无关的相互作用。最终,我们提取了 8,157个基因中的50,355个相互作用来构建背景PPI网络。接下来,我们采用皮尔森相关系数(PCC)来评估背景PPI网络中的基因互作,这也是用来衡量两个共表达基因的概率的指标。在当前的工作中,我们将基因互作的PCC绝对值确定为预定义的阈值K,并且仅选择K≥0.8的互作来构建DEN。最后,将权重值分配给DEN中的每个边缘,通过单侧t检验来计算APTB和对照样本中的差异表达的P值。3.差异模块分析EGO算法的设计目的是检测与ego相关的模块,并具有最大的分类准确率。该算法框架包括四个基本步骤:(1)提取高z-分值的自我基因;(2)功能模块的收集;(3)优化;(4)显着性过滤。3.1自我基因鉴定在模块检测之前,我们首先鉴定一系列的初始自我基因。为了发现自我基因,我们首先将DEN中的基因按度特征进行排序。之后,根据公式(?)计算出DEN中每个基因的z值。在这个公式中,Nk(i)代表网络中的邻居集合;A,为度数归一化加权邻接矩阵,记为Ak =D-1/2AD1/2。然后,Z分数按降序排列。在我们的研究中,排名前5%的基因被命名为自我基因。3.2功能模块集合在识别自我基因后,我们将每个自我基因作为起始,并应用分类准确性指数来评估模块收集的规模。重复该过程直到分类能力没有增加。这个模块扩展过程被称为滚雪球抽样法。详细地说,对于给定的自我基因nGN,它被定义为DEN中的模块X之后,将自我基因n的邻居集合基因m连续组合到模块X中,接着识别出新的模块X'。计算两个模块之间分类精度的变化:△F(X',X)= F(X)-F(X')。当△F(X',X)>0时,表示基因m的加入增加了模块X的分类能力,直到分类权下降,停止搜索步骤。3.3优化在收集候选模块后,我们对这些候选模块进行了优化,同时保持了它们的分类准确性,在我们的研究中,基因数量≤5且分类能力<0.9的模块将被删除。3.4统计显着性评估在此步骤中,根据随机置换测试产生的分类准确度,计算模块显着性的经验P值:随机置换测试中随机选择每个模块的分类准确度,并重新运行该算法。随机置换测试在同一模块上重复1000次,通过将观察到的候选模块的分类准确度值与置换测试计算的准确性分数进行比较来记录模块的P值。接下来,利用多重测试的校正来控制假阳性,而降低多重测试假阳性的一种常见方法是控制错误发现率(FDR)。在我们的研究中,使用Benjamini-Hochberg方法将原始P值校正为FDR。只有FDR不小于0.05的模块被认为是差分模块。4.具有功能类别的模块注释为了评估差异模块中的通路水平,我们使用了 Reactome和背景PPI的数据来检测在差分模块中包含的注释。所有通路均从Reactome数据库获得,然后提取每条通路中富集的基因与背景PPI网络中的基因之间的交集。当移除基因数<5的基因或>100的通路时,我们获取了 1137个种子通路并进一步分析。随后,差异模块的基因与每个种子通路对齐,确定了每个差异模块富集的通路。利用Fisher's检验来计算原始富集P值。之后,应用Benjamini&Hochberg方法计算FDR以进一步校正P值。在该研究中,我们定义FDR<0.05的途径为差异模块富集的通路。值得注意的是,一个模块可以富集多种通路。根据FDR得分将每个模块富集的通路进行排序,选择FDR最低的通路作为给定差异模块的显着通路。结果:1.DEN的构建通过对微阵列图谱中的17,638个基因和PPI网络进行分析,共提取了50,355个相互作用和8157个基因,构建了背景PPI网络。为了使网络更有可信度,选择k≥0.8的背景PPI网络中的相互作用来构建DEN。DEN覆盖了 940个基因和5647个相互作用。2.鉴定自我基因在我们的研究中共鉴定了 47个自我基因,并发现这些基因的z值均大于100。其中,有6个自我基因的得分高于300,包括RPL35(332.026),RPS20(357.377),RPL19(333.121),RPS19(332.626),RPL27(328.252),RPS13(309.069)。有趣的是,我们进一步发现这47个自我基因中,一类与RPL相关,另一类与RPS相关。这些ego基因与核糖体蛋白相关,而这些蛋白被认为与APTB中的耐药性具有相关性。3.模块集合如方法一中所述,我们共获得了 47个候选模块。模块的平均基因数为5个。当我们淘汰了基因数≤5且分类能力小于0.9的模块,共识别出7个自我模块,包括模块4,模块7,模块9,模块19,模块25,模块38和模块43。值得注意的是,我们发现这7个自我模块分类能力是相同的,且最高的分类能力为1,这进一步表明这些自我模块可以准确区分APTB与健康对照样本。然而,这7个自我模块的基因组成是不同的。具体来说,模块7拥有最大的基因大小,包括 RPL19(ego 基因),RPL29,RPL32,RPL37,RPL14,RPL7A,UBC,TRIM21 和 RIPK2。4.评估自我模块的统计显着性我们应用随机排列测试来进一步测量活动性结核病患者与健康对照之间的自我模块的重要性。对于每个自我模块,随机排列测试均进行了 1000次。结果显示,7个自我模块的FDR都等于0,这表明这些模块之间是有差别的。5.功能类别的模块注释从结果中我们发现模块4,模块25,模块38和模块43中的基因在相同的途径中富集,形成游离的4:0S亚基池。此外,模块7和模块9的重要途径是真核翻译终止途径。模块19的差异途径是由外显子连接复合物(EJC)增强的无义介导的衰变。结论:在本研究中,我们利用一个基于自我中心网络分析技术的分析方法,从大规模的生物网络中详尽搜索并按优先顺序区分出疾病子网络和标记基因。最后将区分出的疾病子网络进行通路富集分析。最终我们成功地提取了 7个富含3种差异通路的差异模块。这些模块和相应的自我基因以及通路可能是APTB诊断和治疗的基础标志,我们的研究揭示了 APTB机制的潜在启示。(本文来源于《山东大学》期刊2018-03-30)

微阵列数据集论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

微阵列是近年来发展的生物技术,其产生数据典型特征是维数高而样本少,且数据常常存在缺少或噪声问题。在分析数据时,采用计算t值预处理方法解决此问题,同时针对数据高维的特点,采用PCA与核PCA对数据进行特征处理,然后应用支持向量机(SVM)进行训练,计算分类识别率。实验结果表明,经过降维处理之后能得到更高的分类识别率,提高了微阵列数据分析的准确性。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

微阵列数据集论文参考文献

[1].杨爱华.集成特征选择的基因微阵列数据分类算法[J].信息记录材料.2019

[2].黄紫成,林增坦.基于PCA与核PCA的微阵列数据分析[J].长春师范大学学报.2019

[3].何文容,许荣.通过微阵列数据信息库进行系统筛选并验证宫颈癌中的关键候选基因[J].现代妇产科进展.2019

[4].萧秋兰.基于微阵列数据的癌症特征基因选择方法研究[D].长春工业大学.2019

[5].洪志鹏,陈德波,王青兰,洪成业.基于微阵列数据研究RGS3与乳腺癌的预后关系[J].基层医学论坛.2019

[6].黄现代.基于SVM的DNA微阵列数据分类研究[D].西南科技大学.2018

[7].李自法.面向基因表达微阵列数据的高效特征选择和分类方法研究[D].华侨大学.2018

[8].钟天云,刘昆宏,王备战.基于迭代延长纠错输出编码的微阵列数据多分类方法[J].厦门大学学报(自然科学版).2018

[9].黄方舟.基于DNA微阵列数据的肿瘤特征基因选择方法研究[D].河南师范大学.2018

[10].边中睿.基于微阵列与数据集样本分析对活动性肺结核诊断的应用研究[D].山东大学.2018

标签:;  ;  ;  ;  

微阵列数据集论文-杨爱华
下载Doc文档

猜你喜欢