论文摘要
目的:在医学研究中,对于存在系统结构特征的实际资料,往往采用混合线性模型进行效应估计,但是对于进一步探索患者亚组与治疗方式间复杂的(高阶)交互作用时则效率较低。而决策树模型作为数据挖掘方法中的一种预测模型,具有较强的探索性能,可以同时分析多个预测变量,并且可以自动检测预测变量之间潜在的关系,对于医学疗效评价具有重要的意义。但是对于系统结构数据,传统CART回归树模型估计效率低下,模型构建准确性较低,偏倚较大。因此提高回归树模型的拟合效果及预测性能是将其应用在医学系统结构数据的重要前提。随机效应-最大期望回归树模型(Random Effect-Expectation Maximization Regression Tree,RE-EM)基于回归树模型和混合线性模型的思想,将随机效应从系统结构数据中分离出来,从而提高回归树模型构建的准确性与预测性能。本研究旨在介绍并验证随机效应-最大期望回归树模型的原理,并通过模拟实验与传统CART回归树模型进行横向对比。同时,基于慢性乙型肝炎初治患者诊疗的真实数据进行实证分析及模拟实验,进一步评价RE-EM回归树模型在不同数据结构下的拟合效果及预测性能,为更精准的医学疗效评价和回归树模型构建提供方法学支持和模型选择,为患者诊疗和干预提供方法学建议。方法:第一部分,设置随机效应及残差协方差结构,生成三个终端节点的回归树模型模拟数据,分别拟合RE-EM回归树模型与CART回归树模型,进而评价两种回归树模型在准确性和偏倚方面的优劣,验证RE-EM回归树模型对拟合系统结构数据的适用性。第二部分,基于临床HIS数据中的慢性乙型肝炎初治患者的抗病毒治疗信息,分别拟合一般线性模型、混合线性模型、CART回归树模型以及RE-EM回归树模型,进行抗病毒疗效评估。第三部分,基于四种模型的慢乙肝抗病毒疗效分析结果,探索不同参数(样本量、时间点、残差相关性、底层模型)条件下,RE-EM回归树模型的拟合效果及预测性能。如设定研究对象样本量为50、100、200、500、1000,对应时间点10、20、50、100。预测性能评价分为两部分:(1)预测研究对象新观测,以研究对象前70%的观测作为训练集,分别拟合四种模型,剩余的30%作为测试集,进行模型预测性能评价;(2)预测新研究对象,以70%的研究对象作为训练集,分别拟合四种模型,剩余的30%作为测试集,进行模型预测性能评价。结果:第一部分结果显示,在模型构建的准确性和拟合偏倚上,RE-EM回归树模型的表现优于CART回归树模型。在不同数据结构下,RE-EM回归树模型均能准确构建假定的回归树模型,而CART回归树模型对于系统结构数据的拟合效果则不理想,MSE值较大,无法准确构建假定的回归树模型。第二部分结果显示,在拟合适配度和偏倚上,混合线性模型的表现优于一般线性模型。在基于一般线性模型的慢乙肝患者疗效分析中,时依性ALT水平对结局定量HBV DNA检测值的影响差异有统计学意义,而考虑了随机效应及残差协方差结构的混合线性模型则无该关系。在回归树模型的分析中,RE-EM回归树模型的MSE值最小,为0.8048,低于一般线性模型、混合线性模型及CART回归树模型。第三部分结果显示,在模型拟合效果评价中,当线性模拟数据不含随机效应时,线性模型拟合效果优于回归树模型,而对于非线性数据,回归树模型的拟合效果则明显优于线性模型,其中RE-EM回归树模型的拟合效果与CART回归树模型相近。当模拟数据为系统结构数据时,混合线性模型与RE-EM回归树模型的拟合效果相近,优于一般线性模型和CART回归树模型。综合各种情况,RE-EM回归树模型拟合效果较好,优于CART回归树模型。在模型预测新观测的性能评价中,对于具有系统结构特征的线性模拟数据,线性模型预测新观测的性能明显优于回归树模型,其中RE-EM回归树模型的预测性能优于CART回归树模型。对于具有系统结构特征的非线性模拟数据,RE-EM回归树模型与混合线性模型预测新观测的性能最优,明显优于CART回归树模型,一般线性模型拟合效果最差。综合各种情况,RE-EM回归树模型预测新观测的性能较好,优于CART回归树模型。在模型预测新对象的性能评价中,当线性模拟数据不存在系统结构特征时,线性模型预测新对象的性能优于回归树模型,当非线性模拟数据不存在系统结构特征时,回归树模型预测新对象的性能优于线性模型,与前述情况一致。而对于系统结构数据,RE-EM回归树模型预测新对象的性能始终最优。综合各种情况,RE-EM回归树模型预测新对象的性能较好。结论:对于系统结构数据,RE-EM回归树模型能够有效地识别预测变量间潜在的联系,提高模型的拟合效果,体现了RE-EM回归模型在系统结构数据中的适用性与可行性。从回归树模型的建模过程中可以看出,与线性模型相比,树模型是由根节点到终端节点的路径组成,类似于人的决策形式,其结果直观简洁具有较强的解释性。在本研究中,通过模拟实验和慢乙肝抗病毒疗效评估,验证了RE-EM回归树模型对于医学系统结构数据分析的有效性。RE-EM回归树模型对于系统结构数据的拟合效果及预测性能均优于CART回归树模型。对于线性系统结构数据,RE-EM回归树模型预测新对象的性能接近甚至优于混合线性模型。
论文目录
文章来源
类型: 硕士论文
作者: 李伟南
导师: 周舒冬
关键词: 系统结构数据,慢性乙型肝炎,随机效应最大期望回归树,回归树,混合线性模型
来源: 广东药科大学
年度: 2019
分类: 基础科学,医药卫生科技
专业: 数学,医药卫生方针政策与法律法规研究
单位: 广东药科大学
基金: 国家自然科学基金(71573059),广东省公益研究与能力建设项目(2014A020212302)
分类号: O212.1;R195.1
DOI: 10.27690/d.cnki.ggdyk.2019.000015
总页数: 80
文件大小: 2581K
下载量: 31
相关论文文献
- [1].随机效应-最大期望回归树模型的模拟研究与评价[J]. 中国卫生统计 2019(05)
- [2].基于回归树模型的乳腺癌住院费用病例组合研究[J]. 中国卫生统计 2016(05)
- [3].基于增强回归树的水藻预测分析[J]. 长春大学学报 2015(06)
- [4].基于回归树模型的教师评价分析——以福建师范大学福清分校为例[J]. 太原师范学院学报(自然科学版) 2015(03)
- [5].呼吸道合胞病毒感染儿童住院费用影响因素的回归树分析[J]. 复旦学报(医学版) 2011(04)
- [6].巡游出租车运力规模动态调整回归树模型[J]. 宁波大学学报(理工版) 2020(04)
- [7].沈阳市细菌性痢疾疫情分类回归树分析[J]. 中国医科大学学报 2008(03)
- [8].按病种分值付费分值细分方法研究[J]. 中国卫生经济 2018(06)
- [9].基于分类回归树的会计信息失真识别研究[J]. 中国管理信息化 2013(06)
- [10].广东省手足口病气象危险因素阈值效应的研究[J]. 现代预防医学 2015(19)
- [11].基于分类回归树模型的商业网站营业数据分析与探讨[J]. 电脑与电信 2010(06)
- [12].泊松提升模型在中国车险索赔频率预测建模中的应用[J]. 统计与信息论坛 2019(09)
- [13].机会不平等的测度:回归树模型的应用与比较[J]. 统计与信息论坛 2019(10)
- [14].基于Ebay网上拍卖的最终成交价格预测[J]. 信息技术与信息化 2020(02)
- [15].基于分类回归树模型对护士焦虑结局的预测研究[J]. 护理研究 2020(09)
- [16].基于迭代回归树模型的跨平台长尾商品购买行为预测[J]. 中文信息学报 2017(05)
- [17].森林不同土壤层全氮空间变异特征[J]. 生态学报 2011(05)
- [18].江苏省松材线虫发生的预测方法[J]. 林业科学 2010(12)
- [19].提升算法对传统车险索赔频率建模模型的改进——基于我国五省交强险保单数据[J]. 保险研究 2019(07)
标签:系统结构数据论文; 慢性乙型肝炎论文; 随机效应最大期望回归树论文; 回归树论文; 混合线性模型论文;