首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 718 毫秒
1.
目的以医疗卫生机构年报资料为数据来源,采用成组删除法、极大似然估计法、多重填补法分别对模拟的完全随机缺失数据集缺失值进行处理,比较不同缺失率下三种方法的缺失处理效果。方法运用SAS9.3,采用Monte Carlo技术模拟完整数据集及不同缺失比例数据集,利用成组删除法、EM算法、MCMC算法对缺失数据进行处理,得到不同处理方法后的参数估计结果,与完整数据集参数估计进行比较。结果对于完全随机缺失数据,不同缺失率下,成组删除法的准确率均比较好;缺失率小于10%,三种方法处理效果差异不大;缺失率在10%~30%,成组删除法精确度逐渐降低,EM与MCMC准确度与精确度较好,缺失率大于30%,MCMC准确度与精确度相对较好。结论对于不同缺失率的数据,综合考虑准确度和精确度,采用不同的方法进行处理。  相似文献   

2.
目的探讨不同缺失比率下几种缺失处理方法的优劣,为缺失数据的处理提供参考。方法以慢性心力衰竭的部分患者电子病历资料为数据基础,运用R软件,采用Monte Carlo模拟完全随机、任意缺失的数据集,并采用成组删除法、均值填补法、期望最大化填补法、缺失森林填补法和多重填补法分别对模拟的不同缺失比率数据集进行缺失处理,并对所得"完整数据集"拟合多元线性回归模型,得到的参数估计结果与完整数据集参数估计进行比较。结果在不同的缺失比率下不同缺失处理的效果存在差别,在5%和10%缺失比率下,链式方程填补法(multivariate imputation by chained equations,MICE)和期望最大化法(expectation maximization,EM)最优,缺失森林填补法(miss forest,MF)、均值填补法(mean completer,MC)和成组删除法(complete case method,CCM)效果接近;在20%缺失比率下,MICE最优,EM次之,CCM和MF近似,MC最差;在30%缺失比率下,MICE和MF最优,EM和CCM次之,MC最差;在50%缺失比率下,MICE最优,EM和CCM次之,CCM和MF最差。结论对于不同缺失比率的数据,研究人员应综合考虑缺失处理方法的准确度和精确度以及操作难易程度,必须根据实际数据加以调整,采用不同的方法进行处理。  相似文献   

3.
目的 探讨不同缺失数据填补法对MSM人群HIV感染者(MSM感染者)病毒载量(VL)缺失数据的填补效果。方法 以2013年中国16个大城市MSM感染者VL抽样检测数据为基础,采用SPSS 17.0软件,模拟完整数据集和5种不同类型的缺失数据集,采用最大期望值法(EM)、回归法、均值填补法、删除法、马尔科夫链蒙特卡罗法(MCMC)对5种VL缺失数据填补处理,从数据分布、准确度、精确度3个方面比较填补效果。结果 VL数据呈偏态非连续分布,难以进行有效正态分布转化;不同填补方法对完全随机缺失数据填补效果均较好;对于其他类型缺失数据,回归法、MCMC较好保留完整数据主要分布特征;EM、回归法、均值填补法、删除法普遍低估数据均值,MCMC多高估数据均值。结论 MCMC可作为首选的VL数据对数转换后缺失数据填补方法。填补数据可作为调查人群VL均值水平估算的参考依据。  相似文献   

4.
目的探讨完全随机缺失条件下连续型随机变量数据缺失对研究结果的影响,对各方法插补效果进行比较。方法基于上海地区35岁及以上吸烟人群吸烟与肺癌死亡关系的完整数据集,在5%、10%、20%及30%缺失率下,模拟单变量(吸烟年数sy)缺失,采用了7种方法处理单变量缺失;模拟多变量(吸烟年数sy和每天吸烟支数smd)缺失,采用了4种方法处理多变量缺失。对插补效果从缺失变量均值的变化、插补精确性及插补后模型参数的变化三个方面进行评价。结果单变量缺失:各缺失率下,回归插补sy均值的偏差最小,MI/REG、MI/PMM和MI/MCMC插补后模型参数的偏差均较小,删除法sy均值与模型参数的偏差均最大。多变量缺失:各缺失率下,回归插补sy均值的偏差最小,删除法最大;条件均值插补smd均值的偏差最小,MI/MCMC最大;条件均值插补模型参数的偏差最小,MI/MCMC最大。结论用不同指标对各方法插补效果进行评价会得出不同的结果,应根据统计分析的目的和关注点选择最合适的缺失数据处理方法。总体来看,插补法处理缺失数据的效果优于删除法,缺失率越高,优势越显著。  相似文献   

5.
目的 以HIV/AIDS血液样品检测数据为来源,探索最为准确、高效、方便的填充方法.方法 利用SPSS17.0和SAS 9.1分析数据的缺失机制和缺失模式,采用期望最大化法(EM)、回归法和多重填补法(MI)3种方法对缺失数据进行填充,比较不同填充方法填充后数据的分布、精确度和准确度.结果 该研究缺失机制为随机缺失(x2=1141.21,P <0.001);缺失模式为任意缺失.MI填补10次的效果最优.缺失率在10%以下时,EM和回归法填充后准确度高于MI填充10次的准确度,除了血红蛋白外,EM法均比回归法填充后的准确度高;缺失率在20%左右时,MI法填充10次后的准确度高于EM法和回归法,对于血小板和血肌酐2个指标,采用EM法填充后的准确度高于回归法.EM法和回归法填充后的精确度优于MI法,EM法填充后精确度更高.EM法、回归法和MI法填充后数据的偏度系数和峰度系数很接近.结论 对于缺失率<10%的指标,采用EM法或回归法更方便、准确和精确;对于缺失率在20%左右的指标,采用MI填补更合适.  相似文献   

6.
多种填补方法在纵向缺失数据中的比较研究   总被引:1,自引:0,他引:1  
目的比较多种方法对纵向缺失数据的处理效果。方法运用SAS软件通过蒙特卡罗模拟产生最常见的含一个分组因素和一个重复测量因素的纵向资料,对其进行混合效应模型分析,将结果作为标准对照。分别构建任意缺失模式(AMP)和单调缺失模式(MMP)下完全随机缺失(MCAR)、随机缺失(MAR)和非随机缺失(NMAR)六种缺失数据集,并使缺失率分别为10%、20%、30%、40%和50%,运用删除法、单一填补法、多重填补法和EM算法进行处理。结果在AMP下,当MCAR和MAR时,低缺失率(≤10%)下所有方法的效果均较好;随着缺失率的增大,只有多重填补法的效果令人满意。在MMP下,当MCAR和MAR时,只有线性回归法和预测均数匹配法的效果较好。多重填补法的缺点是在一定程度上高估系数的变异程度。另一方面,填补方法对结果的影响远超过填补次数对结果的影响。当NMAR时,所有方法都无法取得较好的处理效果。结论对于纵向缺失资料,多重填补法仍是一种较为理想的处理方法。  相似文献   

7.
多重填补法与Ad Hoc法对模拟纵向数据集缺失值处理的比较   总被引:3,自引:0,他引:3  
目的:采用多重填补法(multiple imputation,MI)和Ad hoc法分别对模拟的纵向数据集中的缺失值进行处理,较两种方法的优劣并探讨其适用性。方法:运用SAS9.0,采用数据模拟技术,分别模拟纵向完整数据集和具有各种缺失的随机缺失数据集,分别用MI和Ad hoc法对各缺失数据集进行处理,对结果进行比较和分析。结果:数据缺失率≤%时,Ad hoc方法有一定优势;数据缺失率在20%-40%时,经MI处理后的分析结果更接近“真实”;数据缺失率≥50%时,两种方法均无效。结论:对不同缺失率的数据集,MI和Ad hoc法对缺失值的处理各有优劣。  相似文献   

8.
目的以全国血吸虫病疫情监测资料为数据来源,比较不同缺失值处理方法对模拟缺失值的处理结果 ,为确定适用于处理该资料缺失值的方法提供依据。方法从资料中分别随机抽取10%、20%、30%、40%、50%的观测值作为假设缺失值,采用均值填充法、热平台填充法和多重填充法对模拟缺失值进行填充,分别从分布特征、准确度和精确度三个方面评价缺失值的填充效果。结果不同假设缺失比例下,三种填充方法填充后的结果与原始值相比差异均无统计学意义。多重填充方法填充后结果精确度较好且分布特征与原始值符合度最好。结论多重填充技术较为适合处理该资料中缺失比例较少的缺失值。  相似文献   

9.
目的比较删除法(deletion methods,DM)、基于对数线性模型的多重填补法(multiple imputation of category variables using log-linear model,M ILL)及基于潜在类别模型的多重填补法(multiple imputation based on latent class model,M ILC)处理分类变量缺失数据的效果,并将M ILC应用于实例数据的分析。方法利用R语言产生不同缺失机制、缺失率和样本含量的多变量缺失模拟数据,运用DM、MILL和MILC处理形成完整数据集并进行logistic回归分析,通过回归系数的偏倚、均方根误差、稳定度和标准误偏倚评价各方法的处理效果。结果模拟实验表明当缺失率为5%时,三种方法处理效果均较好;随着缺失率的增大,MILL和MILC的各项评价指标均优于DM,且MILC的准确度高于MILL。三种方法处理效果均表现为完全随机缺失优于随机缺失、样本含量1000优于样本含量500。应用MILC对实例数据填补后标准误减小,回归系数估计更准确。结论本文应用MILL和MILC两种多重填补方法处理分类变量缺失数据均可减少缺失导致的参数估计偏倚。当缺失率5%、样本含量1000时,建议应用MILC处理分类变量缺失数据。  相似文献   

10.
目的本研究旨在评价不同平台间"块缺失"数据的填补方法。如何在保证方差-协方差结构相对稳定的前提下提高多组学数据填补的精确度,对于后期数据挖掘有重要的意义。方法利用癌症基因组图谱(TCGA)数据库的肺癌数据(甲基化数据、基因表达数据),构建不同缺失比例的数据集(缺失比例分别为5%、20%、35%、50%和65%)。采用统计学填补方法均值法,马尔科夫蒙特卡洛法(MCMC)和机器学习填补法[邻近法(kNN),随机森林法(RF),多层感知机法(MLP)]对缺失数据进行填补,填补后数据集与原数据集进行比较。评价指标包括估计偏差和矩阵-2-范数。根据评价指标和填补时间,比较出填补效果最优、填补时间较短的方法。结果 MLP和kNN算法在各种缺失比例下均比其他填补方法有更优的效果,填补时间也相对较短。均值法的时间最短,在数据集缺失比例较小时(≤5%),填补效果与其他填补方法相当,但在高比例缺失情况下表现较差。在数据集高比例缺失情况下,RF和MCMC的填补效果优于均值法,但填补时间过长,不适用于实际工作。结论综合比较,机器学习填补方法中的MLP和kNN两法适合于甲基化数据和表达数据的填补。  相似文献   

11.
目的探讨完全随机缺失条件下分类随机变量数据缺失对研究结果的影响,对各方法插补效果进行评价。方法基于上海地区35岁及以上吸烟人群吸烟与肺癌死亡关系的完整数据集,在5%、10%、20%及30%缺失率下,模拟有序分类变量(吸烟年数分组syfz)缺失和二分类变量(性别sex)缺失,重复模拟100次。采用删除法、众数插补法、多重插补-logistic回归法(MI/logistic)及多重插补-判别分析法(ML/discrim)对分类变量数据缺失进行处理。对插补效果从插补正确率及插补后模型参数的变化两个方面进行评价。结果有序分类变量缺失:各缺失率下,MI/logistic插补的正确率最高,MI/logistic和MI/discrim插补后模型参数的偏差均较小,对于吸烟年数sy以分组形式syfz纳入模型数据缺失导致模型参数的相对偏差更小,对syfz插补后模型参数相对偏差也小于连续变量sy插补后模型参数相对偏差。二分类变量缺失:各缺失率下,众数插补的正确率最高,删除法处理缺失数据后模型参数的偏差最小。结论连续变量缺失对模型结果的影响大于分类变量缺失,对于有数据缺失的连续变量可将其离散化,以分类变量的形式进行分析。缺失数据插补模型的拟合效果会直接影响插补效果,当模型拟合效果较差时可能会带来更大的偏差。  相似文献   

12.
目的 针对纵向缺失数据,比较几种适用的填补方法并从中选择最佳方法用于阿尔茨海默病随访资料的数据缺失填补。方法 针对随机缺失机制且缺失变量为连续变量的纵向缺失资料,模拟缺失比例分别为10%、20%、30%、40%和50%的随机数据集,结合末次观察值结转(Last Observation Carried Forward, LOCF )填补方法、马尔可夫链蒙特卡罗填补法(Markov Chain Monte Carlo, MCMC)、全条件定义法(Fully Conditional Specification, FCS)进行填补,采用无偏性和有效性评价指标,比较填补效果,选取最理想的填补方法,并将该方法应用于阿尔茨海默病随访研究中收缩压和蒙特利尔认知评估量表(Montreal Cognitive Assessment, MoCA)得分的填补。结果 (1)纵向缺失资料中若不考虑时间变量,在处理几个连续性的缺失变量时,MCMC法在各缺失率下填补均优势明显,LOCF填补法在缺失率较低时具有一定的效果,且方法简单,而FCS法的填补结果均不太好。当数据缺失比较严重,缺失率高于40%时,各种填补方法的填补结果均不佳。(2)将MCMC法用于填补阿尔茨海默病的随访缺失数据,当填补次数为3时,收缩压和MoCA得分两指标的填补效果最佳。结论 为了得到最理想的结果,在处理缺失数据时填补方法和适当的填补次数都需要考虑。  相似文献   

13.
目的 结合调查数据,比较不同量表资料缺失数据的处理方法.方法 对不同缺失程度的随机缺失数据集采用条目均数填补法、自身均数填补法、多重填补法分别进行处理,并模拟100次,比较填补结果.结果 缺失率较低时,几种方法效果均较好.随着缺失率增高,填补前后条目及总分一致率逐渐下降,比较而言,自身均数填补法效果最好,其次是多重填补法和条目均数填补法.结论 Epworth量表中缺失数据可采用自身均数填补法进行填补.  相似文献   

14.
目的研究不同缺失率、不同缺失机制下,MICE(multivariate imputation by chained equations)多重填补的效果,探讨该填补方法的适用情况。方法依托某现况调查的完全数据,使用R软件构造不同缺失率、不同缺失机制的缺失数据。计算列表删除和MICE多重填补后分析结果的标准偏倚,并进行比较。单独对分类变量计算多重填补后的平均错分率。结果在单变量缺失率分别为10%、20%和30%的随机缺失三种情况下,MICE多重填补表现优良;其他模拟情况下,MICE多重填补相比于列表删除并未表现出明显的优势。对于分类变量,MICE填补后的平均错分率均超过60%。结论对于随机缺失数据,且单变量缺失率不超过30%时,建议采用MICE多重填补进行处理;但对于资料中的分类变量,不建议直接引用MICE填补后的具体数值。  相似文献   

15.
缺失数据的多重估算   总被引:2,自引:0,他引:2  
目的 探讨多重估算方法在缺失数据分析中的应用。方法 利用Bayesian理论与MCMC方法,在NORM软件中模拟得到m个完整数据集。结果 对m个重复测量数据集用SAS软件分析,合并m个分析结果可见,由NORM软件合并数据集的标准差比缺失数据集更稳定。结论 多重估算法既能反映缺失数据的不确定性,又可充分利用资料信息,对模型估计结果更可信。  相似文献   

16.
目的评估不同基因表达谱数据集下,多种算法在缺失数据中的填补效果,并分析其对无监督基因表达谱聚类的影响。方法在不同缺失比例的情况下,分别采用非参缺失森林填补法、贝叶斯线性回归法、蒙特卡洛多重填补法和K邻近填补法进行填补,通过均方根误差(NRMSE)和聚类准确率(F值)两个指标来评估不同方法的填补效能和聚类效果,并用模拟数据集进行测试和乳腺癌数据集进行验证。结果随着缺失比例的增加,四种填补方法的NRMSE都逐渐上升;任意缺失比例下,相比于其他三种方法非参缺失森林填补法的填补优势明显。缺失比例为5%、10%、20%和30%的乳腺癌数据集,非参缺失森林填补法的NRMSE依次为0.1951(95%CI,0.1945~0.1953)、0.2776(95%CI,0.2783~2791)、0.4003(95%CI,0.3986~0.4002)和0.4974(95%CI,0.4658~0.5104);聚类效果的准确率为1.0、0.91、0.88和0.82。结论非参缺失森林填补算法实现简单,对数据集的要求较低,比传统填补算法具有更好的稳定性和精确度,可保留较多的基因信息供后续的功能聚类等分析。  相似文献   

17.
目的比较末次观测结转法(LOCF)、重复测量的混合效应模型法(MMRM)、多重填补法(MI)在处理纵向缺失数据中的统计性能。方法以双臂设计、4次访视、3种访视间相关程度为应用背景,采用Monte Carlo模拟技术,产生模拟完整纵向数据后考虑两种缺失比例和三种缺失机制,即完全随机缺失(MCAR)、随机缺失(MAR)和非随机缺失(MNAR)的缺失数据集。以完整纵向数据的分析结果为基准,评价不同处理方法的统计性能,包括Ⅰ类错误、检验效能、组间疗效差的估计误差及其95%置信区间(95%CI)宽度。结果所有情况下,MMRM和MI均可控制Ⅰ类错误,检验效能略低于完整数据;LOCF大多难以控制Ⅰ类错误,检验效能变异较大。多数情况下MMRM和MI的点估计误差较低,LOCF则表现不稳定。所有情况下,MI的95%CI最宽,MMRM次之,LOCF最窄。结论 MCAR和MAR缺失机制下,MMRM与MI的统计性能相当,受各种因素影响较有规律,可根据实际情况选择其中一个作为主要分析。LOCF因填补方法的特殊性使得变异较小,精度较高,但其最大的缺陷是不够稳健且不能有效控制I类错误,需谨慎使用。基于MNAR缺失机制对缺失数据进行敏感性分析以考察试验结果的稳健性是必要的。  相似文献   

18.
目的探讨基于Bootstrap方法的EM估计在缺失数据多重填补中的应用及R中进行缺失数据分析。方法应用R中的epicalc统计包和Amelia II统计包分析男性健康调查缺失数据,通过Bootstrap法进行放回抽样,用EM算法对产生的m个抽样个体进行迭代分析,最后运用R中的"plot"和"disperse"函数对观察值和缺失值的分布,迭代初值的收敛性进行探讨。结果当迭代次数m=5时,男性健康数据的多重填补观察值与缺失值的分布最接近,且所有迭代初值均收敛。结论基于Bootstrap抽样的EM算法得到的多重填补数据集对实际观察数据集具有较好的代表性,可以用于对缺失数据集的预测。  相似文献   

19.
目的 数据缺失是队列研究中几乎无法避免的问题。本文旨在通过模拟研究,比较当前常见的8种缺失数据处理方法在纵向缺失数据中的填补效果,为纵向缺失数据的处理提供有价值的参考。方法 模拟研究基于R语言编程实现,通过Monte Carlo方法产生纵向缺失数据,通过比较不同填补方法的平均绝对偏差、平均相对偏差和回归分析的Ⅰ类错误,评价不同填补方法对于纵向缺失数据的填补效果及对后续多因素分析的影响。结果 均值填补、k近邻填补(KNN)、回归填补和随机森林的填补效果接近,且表现稳定;多重插补和热卡填充次于以上填补方法;K均值聚类和EM算法填补效果最差,表现也最不稳定。均值填补、EM算法、随机森林、KNN和回归填补可较好地控制Ⅰ类错误,多重插补、热卡填充和K均值聚类不能有效控制Ⅰ类错误。结论 对于纵向缺失数据,在随机缺失机制下,均值填补、KNN、回归填补和随机森林均可作为较好的填补方法,当缺失比例不太大时,多重插补和热卡填充也表现较好,不推荐K均值聚类和EM算法。  相似文献   

20.
目的探讨不完全病例对照研究中对照组基因信息部分缺失时基因一环境交互作用的估计。方法在Stata9.0软件上采用MonteCarlo方法模拟不同基因信息缺失比例数据,对缺失数据采用hotdeck多重填补程序后分析和删除缺失值分析结果进行比较。结果缺失数据〈50%时,hotdeck多重填补后分析和删除缺失值分析对环境主效应、基因主效应以及基因-环境交互作用的估计系数接近完全数据的系数,随缺失比例的增加,两种方法的估计方差均增加,但hotdeck多重填补估计方差小于删除缺失值分析。结论不完全病例对照研究中,对照组基因信息缺失比例〈50%时,可以用hotdeck填补方法充分利用已有的信息估计基因-环境的交互作用,提高估计精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号