首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
矿山数据挖掘需要完整的数据,因此必须处理矿山数据中的缺失值.为了解决在矿山经济数据的分析预测时出现的缺失问题,提出用SPSS软件的数据缺失值处理模块对数据缺失机制进行分析,采用平均值法、加权均值法、线性回归法、最大期望法、多重填补法等确定性和随机性方法插补缺失数据,分析了这些方法的优缺点,并对插补结果进行比较,以达到客...  相似文献   

2.
土壤分析研究中属性数据缺失的现象时常发生,为了提高研究结果的可靠性,有必要对土壤属性数据的缺失值插补方法进行研究.从数据挖掘的角度利用多种缺失值处理方法来对缺失值进行插补,以中国主要农田生态系统土壤养分数据库的pH属性为研究对象,并且从真实值和插补值的拟合优度和插补误差两个方面评估各个方法在不同缺失率的数据集上的表现.结果表明,对比其他方法,如多元回归、SVM、神经网络,采用最优参数的KNN和随机森林插补方法对土壤属性数据pH进行插补是有效可行的.KNN和随机森林在不同缺失率的数据集上插补缺失数据pH的MAE、RMSE和R2的均值分别为0.132和0.131,0.174和0.178,0.775和0.765.  相似文献   

3.
大气污染物浓度数据具有时序性和非线性的特点,针对时间序列数据中的异常值和缺失值问题,进行异常值和缺失值预处理对长短时记忆神经网络(LSTM)预测精度的影响分析.利用箱线图法判别数据序列中的异常值,以均值替换法、回归插补法和多重插补法进行缺失值的预处理,分别利用原始数据序列和不同预处理方法得到的数据序列,对多变量输入LSTM神经网络的大气污染物预测精度进行对比分析.实验结果表明,三种预处理方法均可明显改善LSTM模型的预测精度,多重插补法精度最高.  相似文献   

4.
工业过程数据中缺失值处理方法的研究   总被引:1,自引:0,他引:1  
针对工业生产中过程数据的缺失问题,首次提出了运用多重填补方法处理工业过程的缺失数据.阐述了常用的缺失数据处理方法,指出各方法的优缺点.在此基础上,通过建立回归模型,针对多变量工业数据中缺失值较少和较多时的两种情况,分别用删除含缺失值的个案,简单填补和多重填补(MI)3种方法对数据进行处理,利用处理后的新数据集进行数据挖掘,预测目标变量的值,并对预测结果进行分析比较.实验结果表明,多重填补方法的处理效果最好,为工业数据的缺失值处理提供了有用的策略.  相似文献   

5.
针对野外小气象观测站点半小时温度观测长时间数据缺失问题,结合较低频次的人工温度观测数据,采用时间序列分析和深度学习等方法,对缺失的半小时温度观测数据进行高精度插补。首先,选用深度学习数据插补中的序列-序列(Seq2Seq)方法,建立了适合高精度温度数据插补需求的编码-解码深度学习模型BiLSTM-I;然后,选用了传统的代表性方法,从时间序列回归分析——差分整合移动平均自回归模型(ARIMA)状态方程形式中,获取卡尔曼平滑状态估计方程的各项参数,由卡尔曼平滑估计实现对温度观测数据缺失值的插补。实验分析结果表明,所设计的BiLSTM-I深度学习气温插补方法要优于时间序列的双向递归插补方法(BRITS-I)。对缺失值时间窗口为30 d的测试集,测试结果中均方根误差(RMSE)为0.47℃,相较于BRITS-I得到的RMSE,精度提升了0.90;对缺失值时间窗口为60 d的测试集,RMSE为0.49℃,相较于BRITS-I得到的RMSE,精度提升了0.90;基于ARIMA状态模型的插补方法也有较高的精度,RMSE为0.75℃。最后,还分析了BiLSTM-I深度学习插补方法对不同温度缺失时间长度...  相似文献   

6.
针对野外小气象观测站点半小时温度观测长时间数据缺失问题,结合较低频次的人工温度观测数据,采用时间序列分析和深度学习等方法,对缺失的半小时温度观测数据进行高精度插补。首先,选用深度学习数据插补中的序列-序列(Seq2Seq)方法,建立了适合高精度温度数据插补需求的编码-解码深度学习模型BiLSTM-I;然后,选用了传统的代表性方法,从时间序列回归分析——差分整合移动平均自回归模型(ARIMA)状态方程形式中,获取卡尔曼平滑状态估计方程的各项参数,由卡尔曼平滑估计实现对温度观测数据缺失值的插补。实验分析结果表明,所设计的BiLSTM-I深度学习气温插补方法要优于时间序列的双向递归插补方法(BRITS-I)。对缺失值时间窗口为30 d的测试集,测试结果中均方根误差(RMSE)为0.47℃,相较于BRITS-I得到的RMSE,精度提升了0.90;对缺失值时间窗口为60 d的测试集,RMSE为0.49℃,相较于BRITS-I得到的RMSE,精度提升了0.90;基于ARIMA状态模型的插补方法也有较高的精度,RMSE为0.75℃。最后,还分析了BiLSTM-I深度学习插补方法对不同温度缺失时间长度...  相似文献   

7.
变结构离散动态贝叶斯网络(SVDDBN)处理不确定性问题更具有一般性,为了克服SVDDBN缺失数据会导致推理结果精度变差的问题,提出了一步预测的SVDDBN缺失数据插补算法。根据信息可以沿着网络的时间轴方向向下一个时间片传播的规律,利用“混合”信息在线进行信度更新,可得到滤波值,再通过进一步预测得到下一个时间片缺失数据节点的后验概率作为插补值。仿真结果表明:提出的算法能有效插补缺失数据,提高SVDDBN推理的精确度及可靠性。  相似文献   

8.
油浸式变压器的油色谱数据是一种多元时序传感数据,设备或网络失误往往会导致数据缺失,通常需要通过插补形成完整数据集,才能用于进一步的业务分析研究。但是,现有的插补模型无法面向多元时序数据同时处理因时间不均匀性和时间双向性带来的插补效率低和效果难以保障的问题,对此提出一种名为Conv-WGAIN的生成对抗插补网络模型,通过构建的插补特征图,可利用二维卷积从前后2个方向学习时间特征,处理时间间隔不均匀的数据;在判别器中引入Wasserstein距离来判别生成插补数据与真实观测数据,提升了生成器的稳定性。在真实项目中的油色谱数据集和3个公开数据集上的实验表明,该模型在多元时序缺失数据上具有普遍适用性,而且在不同的缺失率下的插补结果要优于其他对比模型的,RMSE降低了20.75%~73.37%。  相似文献   

9.
基于Sas的时间序列缺失值处理方法比较   总被引:1,自引:0,他引:1  
对于时间序列挖掘过程中的缺失值处理,目前有许多方法.在处理数据变量成一定的相关的数据集时,回归模型不失为较好的插补方法.利用均值插补、一元线性回归、多元线性回归、迭代回归方法对水文时间序列数据集的缺失数据进行处理,比较不同的皮氏相关系数下各方法的优劣及适用性.文中研究表明当数据集中存在与缺值变量相关度较大的变量时,一元线性回归的插补简单直观,且有较高的精度,结果接近真实;当数据集中不存在与缺值变量显著相关的自变量时,一元线性回归的结果变差,多元线性回归与多元迭代回归具有较好的结果.但多元迭代回归迭代次数难以确定,插补代价较大.多元线性回归为最佳选择;当缺值变量与其他自变量相关系数均较小时,回归插补的结果不理想,此时可考虑其他插补方法.  相似文献   

10.
在数据挖掘预处理中,数据缺失是最为常见的数据预处理问题之一。通常对所要挖掘的数据分布形式没有任何先验知识。在这种情况下,非参回归分析方法可以为数据缺失的处理提供一种效果很好的解决途径。据此,在缺失机制是随机缺失(Missing at Random,MAR)和完全随机缺失(Missing Completely at Random,MCAR)的条件下,提出了一种处理数据缺失的新方法,即基于核函数的非参多重填补算法。模拟实验结果表明,算法的置信区间的覆盖率,区间长度,以及相对效率都比常用的NORM算法要好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号