首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 250 毫秒
1.
基于Sas的时间序列缺失值处理方法比较   总被引:1,自引:0,他引:1  
对于时间序列挖掘过程中的缺失值处理,目前有许多方法.在处理数据变量成一定的相关的数据集时,回归模型不失为较好的插补方法.利用均值插补、一元线性回归、多元线性回归、迭代回归方法对水文时间序列数据集的缺失数据进行处理,比较不同的皮氏相关系数下各方法的优劣及适用性.文中研究表明当数据集中存在与缺值变量相关度较大的变量时,一元线性回归的插补简单直观,且有较高的精度,结果接近真实;当数据集中不存在与缺值变量显著相关的自变量时,一元线性回归的结果变差,多元线性回归与多元迭代回归具有较好的结果.但多元迭代回归迭代次数难以确定,插补代价较大.多元线性回归为最佳选择;当缺值变量与其他自变量相关系数均较小时,回归插补的结果不理想,此时可考虑其他插补方法.  相似文献   

2.
矿山数据挖掘需要完整的数据,因此必须处理矿山数据中的缺失值.为了解决在矿山经济数据的分析预测时出现的缺失问题,提出用SPSS软件的数据缺失值处理模块对数据缺失机制进行分析,采用平均值法、加权均值法、线性回归法、最大期望法、多重填补法等确定性和随机性方法插补缺失数据,分析了这些方法的优缺点,并对插补结果进行比较,以达到客...  相似文献   

3.
针对野外小气象观测站点半小时温度观测长时间数据缺失问题,结合较低频次的人工温度观测数据,采用时间序列分析和深度学习等方法,对缺失的半小时温度观测数据进行高精度插补。首先,选用深度学习数据插补中的序列-序列(Seq2Seq)方法,建立了适合高精度温度数据插补需求的编码-解码深度学习模型BiLSTM-I;然后,选用了传统的代表性方法,从时间序列回归分析——差分整合移动平均自回归模型(ARIMA)状态方程形式中,获取卡尔曼平滑状态估计方程的各项参数,由卡尔曼平滑估计实现对温度观测数据缺失值的插补。实验分析结果表明,所设计的BiLSTM-I深度学习气温插补方法要优于时间序列的双向递归插补方法(BRITS-I)。对缺失值时间窗口为30 d的测试集,测试结果中均方根误差(RMSE)为0.47℃,相较于BRITS-I得到的RMSE,精度提升了0.90;对缺失值时间窗口为60 d的测试集,RMSE为0.49℃,相较于BRITS-I得到的RMSE,精度提升了0.90;基于ARIMA状态模型的插补方法也有较高的精度,RMSE为0.75℃。最后,还分析了BiLSTM-I深度学习插补方法对不同温度缺失时间长度...  相似文献   

4.
针对野外小气象观测站点半小时温度观测长时间数据缺失问题,结合较低频次的人工温度观测数据,采用时间序列分析和深度学习等方法,对缺失的半小时温度观测数据进行高精度插补。首先,选用深度学习数据插补中的序列-序列(Seq2Seq)方法,建立了适合高精度温度数据插补需求的编码-解码深度学习模型BiLSTM-I;然后,选用了传统的代表性方法,从时间序列回归分析——差分整合移动平均自回归模型(ARIMA)状态方程形式中,获取卡尔曼平滑状态估计方程的各项参数,由卡尔曼平滑估计实现对温度观测数据缺失值的插补。实验分析结果表明,所设计的BiLSTM-I深度学习气温插补方法要优于时间序列的双向递归插补方法(BRITS-I)。对缺失值时间窗口为30 d的测试集,测试结果中均方根误差(RMSE)为0.47℃,相较于BRITS-I得到的RMSE,精度提升了0.90;对缺失值时间窗口为60 d的测试集,RMSE为0.49℃,相较于BRITS-I得到的RMSE,精度提升了0.90;基于ARIMA状态模型的插补方法也有较高的精度,RMSE为0.75℃。最后,还分析了BiLSTM-I深度学习插补方法对不同温度缺失时间长度...  相似文献   

5.
大气污染物浓度数据具有时序性和非线性的特点,针对时间序列数据中的异常值和缺失值问题,进行异常值和缺失值预处理对长短时记忆神经网络(LSTM)预测精度的影响分析.利用箱线图法判别数据序列中的异常值,以均值替换法、回归插补法和多重插补法进行缺失值的预处理,分别利用原始数据序列和不同预处理方法得到的数据序列,对多变量输入LSTM神经网络的大气污染物预测精度进行对比分析.实验结果表明,三种预处理方法均可明显改善LSTM模型的预测精度,多重插补法精度最高.  相似文献   

6.
土壤分析研究中属性数据缺失的现象时常发生,为了提高研究结果的可靠性,有必要对土壤属性数据的缺失值插补方法进行研究.从数据挖掘的角度利用多种缺失值处理方法来对缺失值进行插补,以中国主要农田生态系统土壤养分数据库的pH属性为研究对象,并且从真实值和插补值的拟合优度和插补误差两个方面评估各个方法在不同缺失率的数据集上的表现.结果表明,对比其他方法,如多元回归、SVM、神经网络,采用最优参数的KNN和随机森林插补方法对土壤属性数据pH进行插补是有效可行的.KNN和随机森林在不同缺失率的数据集上插补缺失数据pH的MAE、RMSE和R2的均值分别为0.132和0.131,0.174和0.178,0.775和0.765.  相似文献   

7.
针对装备试验数据量有限和装备测试数据易缺失的现状,提出了一种基于集成学习的回归插补方法。以随机森林和XGBoost算法为回归器,通过设定快速填充基准和特征重要性评估策略的方法,改进数据子集重建和训练集与测试集的迭代划分策略,使用Optuna框架实现回归器超参数的自动优化,在某型导弹发射试验上进行实例验证。结果表明,使用集成学习算法的回归插补效果明显优于传统的统计量插补法以及KNN和BP神经网络,在不同缺失比例下的回归确定系数结果均保持在0.95以上,能有效解决装备小样本试验数据缺失的问题,并利用KEEL公测数据集验证了该方法的推广价值和通用性。  相似文献   

8.
工业过程数据中缺失值处理方法的研究   总被引:1,自引:0,他引:1  
针对工业生产中过程数据的缺失问题,首次提出了运用多重填补方法处理工业过程的缺失数据.阐述了常用的缺失数据处理方法,指出各方法的优缺点.在此基础上,通过建立回归模型,针对多变量工业数据中缺失值较少和较多时的两种情况,分别用删除含缺失值的个案,简单填补和多重填补(MI)3种方法对数据进行处理,利用处理后的新数据集进行数据挖掘,预测目标变量的值,并对预测结果进行分析比较.实验结果表明,多重填补方法的处理效果最好,为工业数据的缺失值处理提供了有用的策略.  相似文献   

9.
油浸式变压器的油色谱数据是一种多元时序传感数据,设备或网络失误往往会导致数据缺失,通常需要通过插补形成完整数据集,才能用于进一步的业务分析研究。但是,现有的插补模型无法面向多元时序数据同时处理因时间不均匀性和时间双向性带来的插补效率低和效果难以保障的问题,对此提出一种名为Conv-WGAIN的生成对抗插补网络模型,通过构建的插补特征图,可利用二维卷积从前后2个方向学习时间特征,处理时间间隔不均匀的数据;在判别器中引入Wasserstein距离来判别生成插补数据与真实观测数据,提升了生成器的稳定性。在真实项目中的油色谱数据集和3个公开数据集上的实验表明,该模型在多元时序缺失数据上具有普遍适用性,而且在不同的缺失率下的插补结果要优于其他对比模型的,RMSE降低了20.75%~73.37%。  相似文献   

10.
准确获取蒸散发数据,对于更好地开展生态研究有着重要意义。在生态观测基站上,蒸散发数据会发生记录缺失,而在获取到的环境因子数据有限,并且观测到的环境因子数据存在误差的情况下,准确插补蒸散发数据是一个难题。本文提出从机器学习方法角度,应用特征排序选择算法,对影响变量进行特征排序选择,并使用支持向量回归机 (Support Vector Regression,SVR),贝叶斯神经网络对这些缺失值进行插补并作对比实验。在环境因子数据有限的条件下,特征选择排序方法能够帮助我们找出更好地预测蒸散发数据的特征组合,支持向量回归机算法则取得了对蒸散发缺失值预测的不错效果。  相似文献   

11.
In practice clinical data are nearly always incomplete. When confronted with such data, a physician or investigator must make inferences about missing information. Possible strategies for inference include (1) interpolation, (2) extrapolation, (3) repeating the nearest value, (4) repeating the previous value, (5) patient-specific mean values, (6) patient-specific linear regression over time, (7) disease-specific mean values, (8) normal values, and (9) linear regression of correlated co-recorded variables. This study analyzes these strategies in a time-oriented data bank of patients with systemic lupus erythematosus, demonstrating that more accurate inferences of missing data are obtained when (1) strategies are tailored to the characteristics of the individual variable, (2) time-oriented strategies (e.g., interpolation) rather than non-time-oriented strategies (e.g., disease mean) are incorporated, (3) a ranked set of strategies is incorporated in a hierarchical stepwise fashion, and (4) the degree to which missing data are "nonrandomly" missing is assessed to allow estimation of bias. Interpolation is the best single technique with these data while linear regression of correlated co-recorded variables is a relatively weak technique. Inferences made by these hierarchical time-oriented approaches show significantly smaller mean differences from the actual values than do results from typical statistical package strategies.  相似文献   

12.
水稻叶面积指数的多光谱遥感估算模型研究   总被引:23,自引:0,他引:23  
LAI是生态系统研究中最重要的结构参数之一,它是估计多种植冠功能过程的重要参数。通过两年的水稻田间试验,使用美国ASD背挂式野外光谱辐射仪(ASDFieldSpec),获取1999~2000年两年晚稻整个生育期的光谱数据,采用计算机测算图斑面积法测定LAI;根据已有的卫星传感器通道波段(MSS、RBV、SPOT、TM、CH)和它们的组合(比值植被指数、归一化差植被指数),以及具有物理意义的光谱区域(蓝区、绿区、黄边、红光吸收谷、红边、紫区、可见光区、近红外区、全部波段)等共有27个变量构建多光谱变量组,采用5个单变量线性与非线性拟合模型,用1999年试验数据为训练样本,建立水稻LAI的多光谱遥感估算模型。结果表明:适用于水稻LAI估算的多光谱变量是植被指数变量好于波段变量;RVI与NDVI比较,RVI好于NDVI。用2000年试验数据作为测试样本数据,对其精度进行评价和验证,非线性模型的精度高于线性模型的精度,其中以SPOT3/SPOT2为变量的对数模型,拟合R2与预测R2达到了最大,其RMSE和相对误差(%)为最低,因此,认为它是估算LAI的最佳模型。
  相似文献   

13.
A region of interpolation is defined as the smallest convex set containing all original n data points used to build a regression model. In this paper, we present a linear program with n variables and (k + 1) constraints whose feasibility exactly determines whether or not a given new point, at which a response is predicted, is an extrapolation. Here k is the number of regressor variables used to build the regression model. This method has an advantage over the other methods used in the literature for the determination of extrapolation, in that, whenever a new point is indeed an extrapolation point, the developed method identifies it as an extrapolation, while the other methods may fail to identify it as an extrapolation point.  相似文献   

14.
受云等诸多因素的影响,青藏高原的MODIS LST数据通常存在大面积数据缺失,传统的插值方法很难达到理想效果,因此学者们研究了许多新方法,其中较好的一种是利用和缺失像元具有相似的LST变化特征的已知像元集估算缺失像元的LST,能够能实现高精度插值,但计算花费巨大,通常需要借助高性能计算机完成。将分布式计算引擎Spark应用于该方法,用一个普通计算机群来代替高性能计算机实现对青藏高原MODIS LST数据快速有效的插值,并对比分析了不同硬件条件、不同数据尺度下原方法和基于Spark实现的该方法两者的性能。结果表明:基于Spark的实现方案有效可行;当节点数和数据量较少时,后者的性能低于前者;随着硬件资源和数据量的增加,后者的性能表现更好并逐渐超过前者;使用新版的Spark编写代码或着将插值方法的代码编译成.so动态库再通过Spark调用,可以进一步提高该方案的插值性能。  相似文献   

15.
目前已有的不完整数据填充方法大多局限于单一类型的缺失变量,对大规模数据的填充效果相对弱势.为了解决真实大数据中混合类型变量的缺失问题,本文提出了一个新的模型——SXGBI(Spark-based eXtreme Gradient Boosting Imputation),其适应于连续型和分类型两种缺失变量并存的不完整数据填充,同时具备快速处理大数据的泛化能力.该方法通过对集成学习方法XGBoost的改进,将多种补全算法结合在一起,构建了一个集成学习器,并结合Spark分布式计算框架进行了并行化设计,能较好地运行于Spark分布式集群上.实验表明,随着缺失率的增长,SXGBI在RMSE、PFC和F1几项评价指标上都取得了比实验中其它填充方法更好的填充结果.此外,它还可以有效地运用在大规模的数据集上.  相似文献   

16.
A new missing data algorithm ARFIL gives good results in spectral estimation. The log likelihood of a multivariate Gaussian random variable can always be written as a sum of conditional log likelihoods. For a complete set of autoregressive AR(p) data the best predictor in the likelihood requires only p previous observations. If observations are missing, the best AR predictor in the likelihood will in general include all previous observations. Using only those observations that fall within a finite time interval will approximate this likelihood. The resulting non-linear estimation algorithm requires no user provided starting values. In various simulations, the spectral accuracy of robust maximum likelihood methods was much better than the accuracy of other spectral estimates for randomly missing data.  相似文献   

17.
重建过程中常常需要使用多种插值方法来提高重建精度,并结合多来源的数据进行整合.不同尺度、不同分辨率或不同类型的数据结合可以提高空间插值结果的精度.协同序贯高斯模拟(COSGSIM)能够利用已知的主要信息(硬数据)和一些模糊的辅助信息(软数据)来预测重建.协同区域化线性模型(LMC)和最初的Markov模型(简称MM1)被COSGSIM用于融合主要信息和辅助信息.但是LMC不能解决不同变量间交叉矩阵不稳定的问题.而MM1模型只有当主要信息定义在比较大的空间尺度时,才可以实现对 COSGSIM 的逼近.对于上述情况,提出一种改进的 Markov模型(简称MM2).MM2模型假设一个位置的辅助信息屏蔽了其他位置辅助信息对该位置主要信息的影响.实验结果表明,当主要信息定义在比辅助信息小的空间尺度时,COSGSIM方法在MM2模型下比 MM1有效.  相似文献   

18.
《国际计算机数学杂志》2012,89(3-4):343-355
Two new methods for root isolation are presented. The methods apply to certain real-valued functions of one real variable. Each method takes a function and an interval and returns a set of subintervals in which roots are likely to occur. The methods are proven correct in exact arithmetic, i.e., each root of the function on the interval will be found in one of the subintervals returned. Both methods are based upon Lagrangian interpolation. The first method uses linear interpolation, requires that the function have two continuous derivatives and requires that the user give a bound on the absolute value of the second derivative. The second method uses quadratic interpolation and has similar requirements on the third derivative. The methods use only functional evaluations and the given bounds on derivatives; no other information about the function is required. An implementation is discussed and sample test cases are given which demonstrate the efficiency and utility of the methods. Future research on the use of the methods is also considered.  相似文献   

19.
A new matching procedure based on imputing missing data by means of a local linear estimator of the underlying population regression function (that is assumed not necessarily linear) is introduced. Such a procedure is compared to other traditional approaches, more precisely hot deck methods as well as methods based on kNN estimators. The relationship between the variables of interest is assumed not necessarily linear. Performance is measured by the matching noise given by the discrepancy between the distribution generating genuine data and the distribution generating imputed values.  相似文献   

20.
A new matching procedure based on imputing missing data by means of a local linear estimator of the underlying population regression function (that is assumed not necessarily linear) is introduced. Such a procedure is compared to other traditional approaches, more precisely hot deck methods as well as methods based on kNN estimators. The relationship between the variables of interest is assumed not necessarily linear. Performance is measured by the matching noise given by the discrepancy between the distribution generating genuine data and the distribution generating imputed values.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号