首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
大多数统计分析方法基于完整的数据集,这些方法不能直接用于包括缺失值的数据集.此外,由于成分数据的特殊属性,传统的缺失值插补方法直接用于这种类型的数据可能得到不良的结果.因此,对成分数据而言,缺失值的填补具有十分重要的意义.为了解决这个问题,根据核函数的性质,提出了一种基于修正Sigmoid核的成分数据缺失值非参数插补方法.该方法使用模拟和真实的数据集与k近邻插补法和最小二乘迭代回归插补法进行比较.实验结果表明,新的插补方法可以得到更准确的估计.  相似文献   

2.
3.
李英华  刘妍  秦永松 《广西科学》2009,16(4):400-402,413
在响应变量随机缺失的线性模型中,利用R统计软件模拟比较完全样本法、固定填补法和分数线性回归填补法得到的回归系数、响应变量均值、响应变量的分布函数、响应变量的分位数估计,并用标准误差(SE)评判其优劣.结果表明,除固定填补法外,无论采用其余哪种方法,随着样本容量的增大,评判值SE减小,样本容量越大,估计也就越精确 缺失概率的大小也影响估计的精度,缺失概率越大,相应的评判值SE越大,估计的精度也就越差 另外,在分数线性回归填补法中,J=5的结果总是比J=1的结果好,这说明随着J的增大,其估计精度也随着提高.  相似文献   

4.
真实数据集中含有缺失值,许多数据分析技术不能直接应用到不完整数据上,且缺失值的存在会明显地降低算法的有效性,缺失数据处理是一个不可缺少的数据预处理过程,因此提出了一个基于统计度量的缺失值填补算法,名为灰色类中心缺失值填补(GCCMVI)方法,利用数据点的类中心和标准差来填补缺失值,此外,通过比较阈值和实例与类中心间相关性的大小关系,决定是否加上(减去)标准差,灰色关联分析用来计算相关性,在缺失值被填补后,得到的完整的数据集用来训练支持向量机(SVM)分类器.在三种类型不同的数据集上进行比较,以分类精度,填补效果,填补时间作为评估准则来衡量算法的有效性.实验结果表明,所提出的算法显著地提高了分类精度和填补效果.  相似文献   

5.
为提高燃烧效率及降低污染排放,基于运行数据的建模与优化是一种有效途径,但现场运行数据因传感器故障或传输失败等原因不可避免地存在缺失值,进而导致信息不完备,无法直接进行建模与优化.针对这一问题,采用一种基于时间相关性的缺失值填补算法,基于线性插值原理对平稳运行过程的缺失数据进行填补;针对非平稳运行工况,提出一种类平均值填补算法,并对其分类结果进行加权修正,进一步提高填补准确性;在此基础上,提出一种基于遗传算法的自适应加权类平均值填补方法,并在实际数据上进行测试分析,结果表明该方法具有更高的填补准确率.  相似文献   

6.
刘肖峰  李云波  董泳  侯回位 《河南科学》2022,(12):1899-1905
大坝变形数据缺失尤其是长期缺失值的存在将影响变形监控模型的精度和可靠性,据此提出了一种基于同源测点信息融合的多尺度大坝长期变形缺失值填补模型.首先,确定与所研究测点具有相似变形特性的测点,分别进行EMD分解;然后,针对研究测点的非高频分量,使用LSTM进行建模;针对高频分量,以同源测点高频分量为依据,构建多变量BP模型;最后,将各模型输出结果进行叠加得到最终填补结果.分析表明,提出的方法有效构建了高频分量的输入组,结合LSTM在中、低频分量分析中的优越性能,大大提高了大坝长期变形缺失值的填补精度.  相似文献   

7.
分析了在含有遗失值的数据集上如何进行有效的数据填补,以便更客观地反映数据集中数据所隐含的内在联系.通过采用粗糙集理论的有关思想和方法,用相似关系代替粗糙集理论中的不可分辨关系,提出了基于相似关系的填充算法,提高了遗失数据填补的精确度.数据实验表明了该方法的有效性和可行性.  相似文献   

8.
刘星毅 《科技信息》2007,(27):418-420
在数据挖掘和机器学习领域,缺失数据经常出现。本文杂合了kNN算法和基于核函数的非参填充方法,实验显示,在处理离散型缺失数据时,我们的这种杂合方法在分类准确率的实验中好于kNN算法以及常用的一些方法(例如C5.0填充方法,最大类方法和不填充的方法),在处理连续型的缺失属性时,我们的方法在预测准确率的实验结果中也好于kNN算法和基于核函数的非参填充方法,以及一些常见方法,(例如均值填充方法)。  相似文献   

9.
探讨了IRT背景下非随机缺失数据的合适处理方法.采用IRTLAB模拟产生50批500个被试在20个0-1记分项目上的反应数据,产生了不同比率的MNAR; 再用IN、NP、FR、CM、MI和EM共6种方法分别处理MNAR,使用BILOG-MG软件估计被试的能力参数,并计算在不同条件下各种方法的BIAS、BIASabs、R(θ,θ)和RMSE.研究发现:随着缺失比率的增加,参数误差越来越大; FR会导致IRT参数估计产生较大的误差,且不稳定,而MI与EM算法则相对稳定; 综合BIAS和RMAE等几个指标,NP在处理MNAR时产生的误差较小也更稳定.因此,在IRT背景下估计被试能力参数时,应选择NP、MI或EM方法处理缺失数据  相似文献   

10.
为解决医疗数据集中数据缺失对分类器的性能以及下游任务产生的不利影响,提出使用缺失森林插补法对医疗数据集中缺失值进行插补。该方法首先采用数据集中完整数据的观测值训练一个随机森林模型;利用训练好的随机森林模型预测缺失数据;不断重复迭代上述过程,从而完成数据缺失值补全。在两个医学数据集上进行测试,结果表明,根据NRMSE(Normalized Root Mean Squared Error)和PFC(the Proportion of Falsely Classified)评估指标,缺失森林插补法误差较低,插补效果优于K最近邻插补法、多重插补法和GAIN(Generative Adversarial Imputation Nets)插补法。同时,使用糖尿病数据集通过分析谷丙转氨酶(ALT:ALanine aminoTransferase)与糖尿病剂量反应关系证明了缺失森林插补法的稳定性。  相似文献   

11.
随机化区组设计中经常会碰到缺失数据,处理此类缺失数据目前有4种方法:删除缺失数据法、均值插补法、公式插补法和Yate’s插补法。4种方法的优劣是值得研究的一个问题,拟用模拟研究的方法对此4种方法进行比较。首先随机产生一个4x5的随机区组设计,令缺失值的个数m=l,…,6;其次对每个n遍历所有缺失值位置可能的组合,在每一个缺失值位置的组合下,分别研究4种方法线性回归的标准误差、可决系数和复可决系数。最后模拟研究的结果证实Yate’s插补方法是这4种方法中表现最好的一个,实例研究的结果也证实了模拟研究的结论。  相似文献   

12.
Complete and reliable field traffic data is vital for the planning, design, and operation of urban traffic management systems. However, traffic data is often very incomplete in many traffic information systems, which hinders effective use of the data. Methods are needed for imputing missing traffic data to minimize the effect of incomplete data on the utilization. This paper presents an improved Local Least Squares (LLS) approach to impute the incomplete data. The LLS is an improved version of the K Nearest Neighbor (KNN) method. First, the missing traffic data is replaced by a row average of the known values. Then, the vector angle and Euclidean distance are used to select the nearest neighbors. Finally, a regression step is used to get weights of the nearest neighbors and the imputation results. Traffic flow volume collected in Beijing was analyzed to compare this approach with the Bayesian Principle Component Analysis (BPCA) imputation approach. Tests show that this approach provides slightly better performance than BPCA imputation to impute missing traffic data.  相似文献   

13.
利用无回答所提供的信息采用最小二乘估计给出了缺失数据情形下的目标变量的一种回归插补及其方差估计.在仅目标变量缺失数据情形,得A2中单元关于y对应的回归插补公式(y)i=(b)0+(b)1x12i+…+(b)pxp2i,i=1,…,r3.及其回归插补的协方差阵Cov((Y))=σ2X1(XTX)-1XT1.在辅助变量部分缺失且目标变量缺失的情形,得A2中单元关于y对应的回归插补公式(y)i=(b)0+(b)1x12i+…+(b)p1xp12i,i=1,…,r3.及其回归插补的协方差阵Cov((Y))=σ2X1(X*TX*)-1XT1.  相似文献   

14.
相位差变化率定位法中缺失值精确填补研究   总被引:1,自引:0,他引:1  
采用目标信号相位差和载频为观测量,利用相位差变化率定位算法对目标进行定位时,由于条件限制和外界干扰,侦察系统会丢失某些观测数据,导致定位精度迅速下降。为此,提出利用最小二乘多项式曲线拟合法填补观测数据的缺失值,再进行定位解算。该方法不仅具有较精确的填补能力,而且不受缺失值分布情况的限制,保证了测量值的完整性和准确性,实现了相位差变化率定位法的快速高精度定位。仿真结果表明,该方法在5 s内的相对定位误差为2.14%。  相似文献   

15.
在一定条件下证明了缺失数据情形基于分数填补方法得到的线性模型响应变量一般差异指标的经验似然比统计量的渐近分布为加权χ2(1),由此可构造差异指标的经验似然置信区间.  相似文献   

16.
区域高速公路网收费站数量众多,每日产生海量收费数据,但由于设备、网络等因素,部分站点数据传输存在延迟现象,在此情况下已传输的数据往往不能满足实时流量预测的要求。为了实现实时交通数据补全和动态交通流量预测,文中首先提出了一种基于自监督学习的用于高速公路交通流量数据缺失补全的方法,该方法采用了基于注意力机制的时间序列模型(Seq2Seq-Att);然后使用自监督学习方式对模型进行训练;最后,以广东省高速公路网的80个收费站为例,验证方法的可靠性。结果表明:文中的数据补全方法能够灵活捕捉交通数据中的缺失情况,并根据数据自身的内在关联性,给出合理的补全值;该方法总体优于其他方法,且在不同缺失率下都有较好表现,总体MAPE约为17.7%、WMAPE为12.8%;在高缺失率情况下,该方法相比于其他补全方法有明显的优势。交通量预测结果表明,使用该方法补全的数据进行交通流预测的预测精度接近使用完整数据的情况。  相似文献   

17.
利用随机化技术进行敏感问题抽样调查中常会出现缺失数据,借鉴Srivastava SK[Calc Stat Assoc Bull 16(1967)]在直接调查中利用辅助变量的构造估计量的思想,建立了具有数量特征的随机化Eichhorn模型中缺失数据的比插补方法.通过理论比较和数值模拟得出的结果表明提出的插补方法比传统的方法效率更高.  相似文献   

18.
分析并总结了钢结构施工过程监测中缺失数据的成因及特征,依据缺失数据形成机制将缺失数据分为三类.根据不同类型和特征的缺失数据,提出了基于最小二乘原理以回归分析理论为基础的数据补偿方法.通过对大同美术馆屋盖钢结构和"生命之环"钢结构施工过程监测数据的分析处理与比较,验证了该方法的有效性,说明了该方法的实用价值.  相似文献   

19.
基于关系马尔可夫模型的枚举型缺失值估计   总被引:1,自引:1,他引:0  
针对数据质量中数据缺失问题,提出了基于关系马尔可夫模型(RMM)的枚举型缺失值估计方法.该方法充分考虑属性间的关联性,将动态属性选择(DAS)方法与RMM结合,最大限度地利用完整数据的信息,提高了该方法的估计能力;利用RMM计算源状态到目的状态的转移概率,采用MaxPost和ProProp 2种缺失值填充方法,对缺失值进行填充.采用公认数据集,进行了对比实验,验证了该方法的有效性和优越性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号