首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 233 毫秒
1.
林蔚  尹娟 《计算机应用研究》2012,29(11):4284-4286
针对含有缺失数据的无线传感器网络数据融合问题,提出了一种简单易行的二次数据融合算法(TFA)。考虑到感知数据的时—空相关性,对缺失数据进行线性插值插补和回归分析插补,对插补结果利用线性组合融合算法进行融合。综合考虑各节点的信息,利用自适应加权融合算法进行融合。实验结果表明,该算法在含有缺失数据的前提下,能够以较低的计算开销和较高的估计精度实现数据融合。  相似文献   

2.
信息处理过程中对异常信息的智能化处理是一个前沿的且富有挑战性的研究方向;针对所获取的信息由于噪声干扰等因素存在缺失这一异常现象,提出了一种不完整(缺失)数据的智能分类算法;对于某一个不完整样本,该方法首先根据找到的近邻类别信息得到单个或多个版本的估计样本,这样在保证插补的准确性的同时能够有效地表征由于缺失引起的不精确性,然后用分类器分类带有估计值的样本;最后,在证据推理框架下提出一种新的信任分类方法,将难以划分类别的样本分配到对应的复合类来描述由于缺失值引起的样本类别的不确定性,同时降低错误分类的风险;用UCI数据库的真实数据集来验证算法的有效性,实验结果表明该算法能够有效地处理不完整数据分类问题.  相似文献   

3.
粟佳  于洪 《计算机应用》2024,(5):1423-1427
应用中的各种因素可能造成数据缺失,影响后续任务的分析。因此,数据集缺失值的插补尤为重要。相比原本没有插补的处理,错误的插补值也会对分析造成更严重的偏差。针对这种情况,提出新的采用双重判别器的基于条件生成对抗插补网络(C-GAIN)的缺失值插补算法DDC-GAIN(Dual Discriminator based on C-GAIN)。该算法通过一个辅助判别器辅助主判别器判断预测值的真假,即根据一个样本的全局信息判断这个样本生成的真假,更注重特征之间的关系,以此估算预测值。在4个数据集上与5种经典插补算法进行对比实验,结果表明:同样条件下,DDC-GAIN算法在样本量较大时的均方根误差(RMSE)最低;在Default credit card数据集上缺失率为15%时,DDC-GAIN算法的RMSE比次优算法C-GAIN降低了28.99%。这说明利用辅助判别器帮助主判别器学习特征之间的关系是有效的。  相似文献   

4.
针对野外小气象观测站点半小时温度观测长时间数据缺失问题,结合较低频次的人工温度观测数据,采用时间序列分析和深度学习等方法,对缺失的半小时温度观测数据进行高精度插补。首先,选用深度学习数据插补中的序列-序列(Seq2Seq)方法,建立了适合高精度温度数据插补需求的编码-解码深度学习模型BiLSTM-I;然后,选用了传统的代表性方法,从时间序列回归分析——差分整合移动平均自回归模型(ARIMA)状态方程形式中,获取卡尔曼平滑状态估计方程的各项参数,由卡尔曼平滑估计实现对温度观测数据缺失值的插补。实验分析结果表明,所设计的BiLSTM-I深度学习气温插补方法要优于时间序列的双向递归插补方法(BRITS-I)。对缺失值时间窗口为30 d的测试集,测试结果中均方根误差(RMSE)为0.47℃,相较于BRITS-I得到的RMSE,精度提升了0.90;对缺失值时间窗口为60 d的测试集,RMSE为0.49℃,相较于BRITS-I得到的RMSE,精度提升了0.90;基于ARIMA状态模型的插补方法也有较高的精度,RMSE为0.75℃。最后,还分析了BiLSTM-I深度学习插补方法对不同温度缺失时间长度...  相似文献   

5.
针对野外小气象观测站点半小时温度观测长时间数据缺失问题,结合较低频次的人工温度观测数据,采用时间序列分析和深度学习等方法,对缺失的半小时温度观测数据进行高精度插补。首先,选用深度学习数据插补中的序列-序列(Seq2Seq)方法,建立了适合高精度温度数据插补需求的编码-解码深度学习模型BiLSTM-I;然后,选用了传统的代表性方法,从时间序列回归分析——差分整合移动平均自回归模型(ARIMA)状态方程形式中,获取卡尔曼平滑状态估计方程的各项参数,由卡尔曼平滑估计实现对温度观测数据缺失值的插补。实验分析结果表明,所设计的BiLSTM-I深度学习气温插补方法要优于时间序列的双向递归插补方法(BRITS-I)。对缺失值时间窗口为30 d的测试集,测试结果中均方根误差(RMSE)为0.47℃,相较于BRITS-I得到的RMSE,精度提升了0.90;对缺失值时间窗口为60 d的测试集,RMSE为0.49℃,相较于BRITS-I得到的RMSE,精度提升了0.90;基于ARIMA状态模型的插补方法也有较高的精度,RMSE为0.75℃。最后,还分析了BiLSTM-I深度学习插补方法对不同温度缺失时间长度...  相似文献   

6.
数据预处理方法在移动通信行业中的应用   总被引:1,自引:0,他引:1  
解决数据本身的质量问题,以某移动通信用户离网原因分析及预测为主题及为数据挖掘模型处理出需要的数据是文章的主要目的.文中运用了数据预处理中,维规约,属性集成与构造,多重插补,离散化,规范化,数据抽样等方法来得到一个完整的、近似真实的数据集.针对所处理数据含有大量缺失值的特点,选取了插补的方法进行处理.包括方法的插补方法的选择,到最后使用多重插补方法对缺失数据进行修正.预处理后的数据应用到具体数据挖掘模型后提高了数据挖掘的效率,降低了数据挖掘复杂度.  相似文献   

7.
矿山数据挖掘需要完整的数据,因此必须处理矿山数据中的缺失值.为了解决在矿山经济数据的分析预测时出现的缺失问题,提出用SPSS软件的数据缺失值处理模块对数据缺失机制进行分析,采用平均值法、加权均值法、线性回归法、最大期望法、多重填补法等确定性和随机性方法插补缺失数据,分析了这些方法的优缺点,并对插补结果进行比较,以达到客...  相似文献   

8.
提出了一种利用SAR插补因云遮挡导致CCD数据缺失的算法。通过分析云及其阴影的光谱特征,设计出云及其阴影的提取模型,并运用CCD和SAR之间匹配转化算法和有云影响像元的替换运算,得到插补后的新CCD数据。利用高光谱数据反演海面盐度算法所得海面盐度与实测海面盐度做相关性比较分析对本缺失数据插补算法进行检验。结果表明:研究海域中缺失数据区域的海盐反演精度为R2=0.8441,RMSE=0.7031,即SAR插补CCD缺失数据算法具有较强的可靠性和多源遥感数据兼容性,一定程度上恢复了噪声下垫面的实际情况,可以用于融合多传感器生成时空完整、高精度的数据产品。  相似文献   

9.
乔永坚  刘晓琳  白亮 《计算机应用》2022,42(11):3322-3329
针对高维特征缺失数据在聚类过程中面临的因数据高维引发的维度灾难问题和数据特征缺失导致的样本间有效距离计算失效问题,提出一种面向高维特征缺失数据的K最近邻(KNN)插补子空间聚类算法KISC。首先,利用高维特征缺失数据的子空间下的近邻关系对原始空间下的特征缺失数据进行KNN插补;然后,利用多次迭代矩阵分解和KNN插补获得数据最终可靠的子空间结构,并在该子空间结构进行聚类分析。在6个图像数据集原始空间的聚类结果表明,相较于经过插补后直接进行聚类的对比算法,KISC算法聚类效果更好,说明子空间结构能够更加容易且有效地识别数据的潜在聚类结构;在6个高维数据集子空间下的聚类结果显示,KISC算法在各个数据集的聚类性能均优于对比算法,且在大多数据集上取得了最优的聚类精确度(ACC)和标准互信息(NMI)。KISC算法能够更加有效地处理高维特征缺失数据,提高算法的聚类性能。  相似文献   

10.
油浸式变压器的油色谱数据是一种多元时序传感数据,设备或网络失误往往会导致数据缺失,通常需要通过插补形成完整数据集,才能用于进一步的业务分析研究。但是,现有的插补模型无法面向多元时序数据同时处理因时间不均匀性和时间双向性带来的插补效率低和效果难以保障的问题,对此提出一种名为Conv-WGAIN的生成对抗插补网络模型,通过构建的插补特征图,可利用二维卷积从前后2个方向学习时间特征,处理时间间隔不均匀的数据;在判别器中引入Wasserstein距离来判别生成插补数据与真实观测数据,提升了生成器的稳定性。在真实项目中的油色谱数据集和3个公开数据集上的实验表明,该模型在多元时序缺失数据上具有普遍适用性,而且在不同的缺失率下的插补结果要优于其他对比模型的,RMSE降低了20.75%~73.37%。  相似文献   

11.
为了提高无线传感器网络(WSN)中缺失数据估计值的精度,提出了一种自决策插值算法。该算法能够根据数据集的空间相关性以及缺失数据的连续性选择不同的缺失数据估计策略,并将自回归滑动平均(ARMA)模型引入到对缺失数据插值的研究中。与传统缺失值估计算法相比,该算法不仅考虑到无线传感器网络的特性,而且考虑到数据集本身的特性。在真实数据集上测试结果表明,该算法提高了对缺失值估计的精度。  相似文献   

12.
数据缺失在电力负荷数据采集过程中经常发生,对提高算法的预测精确度带来了不利影响。现有的缺失数据补全算法只适用于缺失数据量较少的情况,而对于缺失数据较多的情况表现不佳。面对严重数据缺失的挑战,文中提出了一种基于稀疏表示的电力负荷缺失数据补全方法。首先以数据随机缺失为前提,将训练数据中假定缺失后的数据与完整的训练数据上下拼接构成训练矩阵;其次,利用离散余弦变换(Discrete Cosine Transform,DCT)生成一个过完备字典,并根据训练矩阵对其进行学习,旨在通过调优得到一个合适的字典,能对训练矩阵中的样本进行最好的稀疏表示。最后,在测试阶段,先利用学习后字典的上半部分获得测试集缺失数据的稀疏表示,然后利用稀疏表示和学习后字典的下半部分重构出无缺失的完整数据。实验结果表明,使用该方法对电力负荷数据缺失值进行补全,可以获得比传统插值方法、基于相关性的KNN算法、时空压缩感知估计算法以及时序压缩感知预测算法更高的精度。即使数据缺失率高达95%,该方法依然可以有效地补全缺失数据。  相似文献   

13.
在已有的多种决策树测试属性选择方法中,未见将属性值遗漏数据处理集成在测试属性选择过程中的报道, 而现有的属性值遗漏数据处理方法都会不同程度地带入偏置。基于此,提出了一种将基于联合墒的信息增益率作为 决策树测试属性选择标准的方法,用以在生成决策树的过程中消除值遗漏数据对测试属性选择的影响。在WEKA机 器平台上进行了对比实验,结果表明,改进算法能够从总体上提高算法的执行效率和分类精度。  相似文献   

14.
序列缺失数据的灰插值推理方法   总被引:2,自引:0,他引:2  
根据灰色系统理论和序列数据的特性,提出一种灰插值方法.建立前向灰预测和后向灰预测模型,充分利用缺失值时区窗口内的全部信息对其进行推理.分别在单序列时建立递进灰拟合模型,在多维数据集时利用属性相关性,对括值结果进行学习优化.通过与常用插值方法的比较实验表明。该方法具有较好的光滑性和预测效果.  相似文献   

15.
针对风电场风速数据中大量连续缺失数据的插值问题,提出了一种基于自适应变异粒子群优化(PSO)的分形插值算法。首先,在粒子群优化算法中引入变异因子,增强粒子的多样性,提高算法搜索精度;其次,通过自适应变异粒子群优化算法来得到分形插值算法中垂直比例因子参数的最佳取值;最后,对两组不同趋势和变化特征的数据集进行分形插值计算分析,并把所提算法与Lagrange插值和三次样条插值方法进行对比。结果表明:分形插值不仅可以保持风速曲线的整体波动特性和局部特征,而且比传统插值方法的精度更高;在基于Dataset A的实验中,分形插值的均方根误差(RMSE)分别比Lagrange插值和三次样条插值减小了66.52%和58.57%;在基于Dataset B的实验中,分形插值的RMSE分别比Lagrange插值和三次样条插值减小了76.72%和67.33%。证明分形插值更适合连续缺失且波动强烈的风速时间序列的插值。  相似文献   

16.
针对风电场风速数据中大量连续缺失数据的插值问题,提出了一种基于自适应变异粒子群优化(PSO)的分形插值算法。首先,在粒子群优化算法中引入变异因子,增强粒子的多样性,提高算法搜索精度;其次,通过自适应变异粒子群优化算法来得到分形插值算法中垂直比例因子参数的最佳取值;最后,对两组不同趋势和变化特征的数据集进行分形插值计算分析,并把所提算法与Lagrange插值和三次样条插值方法进行对比。结果表明:分形插值不仅可以保持风速曲线的整体波动特性和局部特征,而且比传统插值方法的精度更高;在基于Dataset A的实验中,分形插值的均方根误差(RMSE)分别比Lagrange插值和三次样条插值减小了66.52%和58.57%;在基于Dataset B的实验中,分形插值的RMSE分别比Lagrange插值和三次样条插值减小了76.72%和67.33%。证明分形插值更适合连续缺失且波动强烈的风速时间序列的插值。  相似文献   

17.
针对移动网络中用户的移动、数据丢失、用户定位不精确导致的用户挖掘准确性低的问题,提出了一种基于卡尔曼滤波的噪声数据纠正与丢失数据补偿的移动用户群挖掘算法,提高空间与时间上具有相关性的移动用户群挖掘的有效性。详细的仿真实验以及与现有的基于距离的移动用户群挖掘算法DMUM的对比表明,该算法不仅具有更少的执行时间,同时有效地提高了移动用户群挖掘的召回率与准确率。  相似文献   

18.
王成  崔紫薇  杜梓林  高悦尔 《计算机应用》2019,39(11):3184-3190
针对缺失公交到站信息修补方法考虑因素较少、准确度低、鲁棒性差的现状,提出了基于DBSCAN算法和多源数据的缺失公交到站数据修补方法。该方法使用公交全球定位系统(GPS)、公交集成电路卡(IC)等多源数据进行缺失到站信息的修补。对于缺失的到站名称、到站经纬度数据,用已有完整到站数据和静态线路信息关联分析进行修补。对于缺失的到站时刻数据,则按以下步骤进行修补:首先,对每一个缺失数据站点与其最近的未缺失数据站点,将这两站点间历史完整到站数据的行程时间和班次时序进行基于DBSCAN算法的聚类;其次,判断研究班次的两个相邻的数据完整的班次所属簇是否为同一个簇,若为同一个簇则不作改变,否则将两个簇合并;最后,将簇中点对应最大行程时间作为缺失行程时间判断是否有乘客在该站点上车刷卡,若有则由乘客开始刷卡时刻推算到站时刻,若无则将簇中点对应最大、最小行程时间的均值作为缺失行程时间推算到站时刻。以厦门市公交到站数据为例,在缺失到站名称、经纬度修补中,基于GPS数据聚类的方法、基于极大概率估计的方法和所提方法皆可进行100%的修补;在缺失到站时刻修补中,所提方法的平均相对误差比两种对比方法分别低0.0301%和0.0004%,相关系数比对比方法分别高0.005和0.0075。实验结果表明,所提算法在缺失公交到站数据修补中能有效提高修补的准确度,降低缺失站点个数变化对于准确度的影响。  相似文献   

19.
陈彦萍  王赛 《微机发展》2014,(12):88-91
针对传统协同过滤方法中存在的冷启动和数据稀疏等问题,结合基于用户的协同过滤和基于项目的协同过滤提出一种混合协同过滤算法。在相似度的计算中提出改进算法来提高相似度计算的精确度;在预测未评分值时引入控制因子、平衡因子进行加权综合预测,最后再进行综合推荐。实验过程中采用Movie Lens数据集作为测试数据,同时采用平均绝对误差作为实验的测试标准。实验结果表明,基于用户-项目混合协同过滤算法在评分矩阵极度稀疏的环境下提高了推荐的性能,并能有效提高预测的精度。  相似文献   

20.
Missing data is a widespread problem that can affect the ability to use data to construct effective prediction systems. We investigate a common machine learning technique that can tolerate missing values, namely C4.5, to predict cost using six real world software project databases. We analyze the predictive performance after using the k-NN missing data imputation technique to see if it is better to tolerate missing data or to try to impute missing values and then apply the C4.5 algorithm. For the investigation, we simulated three missingness mechanisms, three missing data patterns, and five missing data percentages. We found that the k-NN imputation can improve the prediction accuracy of C4.5. At the same time, both C4.5 and k-NN are little affected by the missingness mechanism, but that the missing data pattern and the missing data percentage have a strong negative impact upon prediction (or imputation) accuracy particularly if the missing data percentage exceeds 40%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号