首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
粟佳  于洪 《计算机应用》2024,(5):1423-1427
应用中的各种因素可能造成数据缺失,影响后续任务的分析。因此,数据集缺失值的插补尤为重要。相比原本没有插补的处理,错误的插补值也会对分析造成更严重的偏差。针对这种情况,提出新的采用双重判别器的基于条件生成对抗插补网络(C-GAIN)的缺失值插补算法DDC-GAIN(Dual Discriminator based on C-GAIN)。该算法通过一个辅助判别器辅助主判别器判断预测值的真假,即根据一个样本的全局信息判断这个样本生成的真假,更注重特征之间的关系,以此估算预测值。在4个数据集上与5种经典插补算法进行对比实验,结果表明:同样条件下,DDC-GAIN算法在样本量较大时的均方根误差(RMSE)最低;在Default credit card数据集上缺失率为15%时,DDC-GAIN算法的RMSE比次优算法C-GAIN降低了28.99%。这说明利用辅助判别器帮助主判别器学习特征之间的关系是有效的。  相似文献   

2.
针对传统多元时序数据异常检测模型未考虑时空数据的多模态分布问题,提出了一种多模态生成对抗网络多元时序数据异常检测模型。利用滑动窗口分割时间序列并构造特征矩阵来捕获数据的多模态特征,将其与原始数据分别作为模态信息输入多模态编码器及多模态生成器中,输出具有时空信息的多模态特征矩阵,并将真实数据编码成特征矩阵,将两类特征矩阵作为判别器输入,利用梯度惩罚方法并拟合真实分布与生成分布之间的Wasserstein距离,取代二分类交叉熵损失训练判别器,结合生成器重构误差及判别器评分实现异常检测。基于安全水处理(SWaT)及水量分布(WADI)等数据集的测试结果表明,所提模型相比基准模型在F1-分数性能指标上分别提升了0.11和0.19,能够较好地识别多元时序数据异常,具有较好的鲁棒性以及泛化能力。  相似文献   

3.
数据预处理方法在移动通信行业中的应用   总被引:1,自引:0,他引:1  
解决数据本身的质量问题,以某移动通信用户离网原因分析及预测为主题及为数据挖掘模型处理出需要的数据是文章的主要目的.文中运用了数据预处理中,维规约,属性集成与构造,多重插补,离散化,规范化,数据抽样等方法来得到一个完整的、近似真实的数据集.针对所处理数据含有大量缺失值的特点,选取了插补的方法进行处理.包括方法的插补方法的选择,到最后使用多重插补方法对缺失数据进行修正.预处理后的数据应用到具体数据挖掘模型后提高了数据挖掘的效率,降低了数据挖掘复杂度.  相似文献   

4.
乔永坚  刘晓琳  白亮 《计算机应用》2022,42(11):3322-3329
针对高维特征缺失数据在聚类过程中面临的因数据高维引发的维度灾难问题和数据特征缺失导致的样本间有效距离计算失效问题,提出一种面向高维特征缺失数据的K最近邻(KNN)插补子空间聚类算法KISC。首先,利用高维特征缺失数据的子空间下的近邻关系对原始空间下的特征缺失数据进行KNN插补;然后,利用多次迭代矩阵分解和KNN插补获得数据最终可靠的子空间结构,并在该子空间结构进行聚类分析。在6个图像数据集原始空间的聚类结果表明,相较于经过插补后直接进行聚类的对比算法,KISC算法聚类效果更好,说明子空间结构能够更加容易且有效地识别数据的潜在聚类结构;在6个高维数据集子空间下的聚类结果显示,KISC算法在各个数据集的聚类性能均优于对比算法,且在大多数据集上取得了最优的聚类精确度(ACC)和标准互信息(NMI)。KISC算法能够更加有效地处理高维特征缺失数据,提高算法的聚类性能。  相似文献   

5.
对于时间序列挖掘过程中的缺失值处理,目前有许多方法。在处理数据变量成一定的相关的数据集时,回归模型不失为较好的插补方法。利用均值插补、一元线性回归、多元线性回归、迭代回归方法对水文时间序列数据集的缺失数据进行处理,比较不同的皮氏相关系数下各方法的优劣及适用性。文中研究表明当数据集中存在与缺值变量相关度较大的变量时,一元线性回归的插补简单直观,且有较高的精度,结果接近真实;当数据集中不存在与缺值变量显著相关的自变量时,一元线性回归的结果变差,多元线性回归与多元迭代回归具有较好的结果,但多元迭代回归迭代次数难以确定,插补代价较大,多元线性回归为最佳选择;当缺值变量与其他自变量相关系数均较小时,回归插补的结果不理想,此时可考虑其他插补方法。  相似文献   

6.
基于Sas的时间序列缺失值处理方法比较   总被引:1,自引:0,他引:1  
对于时间序列挖掘过程中的缺失值处理,目前有许多方法.在处理数据变量成一定的相关的数据集时,回归模型不失为较好的插补方法.利用均值插补、一元线性回归、多元线性回归、迭代回归方法对水文时间序列数据集的缺失数据进行处理,比较不同的皮氏相关系数下各方法的优劣及适用性.文中研究表明当数据集中存在与缺值变量相关度较大的变量时,一元线性回归的插补简单直观,且有较高的精度,结果接近真实;当数据集中不存在与缺值变量显著相关的自变量时,一元线性回归的结果变差,多元线性回归与多元迭代回归具有较好的结果.但多元迭代回归迭代次数难以确定,插补代价较大.多元线性回归为最佳选择;当缺值变量与其他自变量相关系数均较小时,回归插补的结果不理想,此时可考虑其他插补方法.  相似文献   

7.
针对野外小气象观测站点半小时温度观测长时间数据缺失问题,结合较低频次的人工温度观测数据,采用时间序列分析和深度学习等方法,对缺失的半小时温度观测数据进行高精度插补。首先,选用深度学习数据插补中的序列-序列(Seq2Seq)方法,建立了适合高精度温度数据插补需求的编码-解码深度学习模型BiLSTM-I;然后,选用了传统的代表性方法,从时间序列回归分析——差分整合移动平均自回归模型(ARIMA)状态方程形式中,获取卡尔曼平滑状态估计方程的各项参数,由卡尔曼平滑估计实现对温度观测数据缺失值的插补。实验分析结果表明,所设计的BiLSTM-I深度学习气温插补方法要优于时间序列的双向递归插补方法(BRITS-I)。对缺失值时间窗口为30 d的测试集,测试结果中均方根误差(RMSE)为0.47℃,相较于BRITS-I得到的RMSE,精度提升了0.90;对缺失值时间窗口为60 d的测试集,RMSE为0.49℃,相较于BRITS-I得到的RMSE,精度提升了0.90;基于ARIMA状态模型的插补方法也有较高的精度,RMSE为0.75℃。最后,还分析了BiLSTM-I深度学习插补方法对不同温度缺失时间长度...  相似文献   

8.
针对野外小气象观测站点半小时温度观测长时间数据缺失问题,结合较低频次的人工温度观测数据,采用时间序列分析和深度学习等方法,对缺失的半小时温度观测数据进行高精度插补。首先,选用深度学习数据插补中的序列-序列(Seq2Seq)方法,建立了适合高精度温度数据插补需求的编码-解码深度学习模型BiLSTM-I;然后,选用了传统的代表性方法,从时间序列回归分析——差分整合移动平均自回归模型(ARIMA)状态方程形式中,获取卡尔曼平滑状态估计方程的各项参数,由卡尔曼平滑估计实现对温度观测数据缺失值的插补。实验分析结果表明,所设计的BiLSTM-I深度学习气温插补方法要优于时间序列的双向递归插补方法(BRITS-I)。对缺失值时间窗口为30 d的测试集,测试结果中均方根误差(RMSE)为0.47℃,相较于BRITS-I得到的RMSE,精度提升了0.90;对缺失值时间窗口为60 d的测试集,RMSE为0.49℃,相较于BRITS-I得到的RMSE,精度提升了0.90;基于ARIMA状态模型的插补方法也有较高的精度,RMSE为0.75℃。最后,还分析了BiLSTM-I深度学习插补方法对不同温度缺失时间长度...  相似文献   

9.
变结构离散动态贝叶斯网络(SVDDBN)处理不确定性问题更具有一般性,为了克服SVDDBN缺失数据会导致推理结果精度变差的问题,提出了一步预测的SVDDBN缺失数据插补算法。根据信息可以沿着网络的时间轴方向向下一个时间片传播的规律,利用“混合”信息在线进行信度更新,可得到滤波值,再通过进一步预测得到下一个时间片缺失数据节点的后验概率作为插补值。仿真结果表明:提出的算法能有效插补缺失数据,提高SVDDBN推理的精确度及可靠性。  相似文献   

10.
提出了一种利用SAR插补因云遮挡导致CCD数据缺失的算法。通过分析云及其阴影的光谱特征,设计出云及其阴影的提取模型,并运用CCD和SAR之间匹配转化算法和有云影响像元的替换运算,得到插补后的新CCD数据。利用高光谱数据反演海面盐度算法所得海面盐度与实测海面盐度做相关性比较分析对本缺失数据插补算法进行检验。结果表明:研究海域中缺失数据区域的海盐反演精度为R2=0.8441,RMSE=0.7031,即SAR插补CCD缺失数据算法具有较强的可靠性和多源遥感数据兼容性,一定程度上恢复了噪声下垫面的实际情况,可以用于融合多传感器生成时空完整、高精度的数据产品。  相似文献   

11.
针对装备试验数据量有限和装备测试数据易缺失的现状,提出了一种基于集成学习的回归插补方法。以随机森林和XGBoost算法为回归器,通过设定快速填充基准和特征重要性评估策略的方法,改进数据子集重建和训练集与测试集的迭代划分策略,使用Optuna框架实现回归器超参数的自动优化,在某型导弹发射试验上进行实例验证。结果表明,使用集成学习算法的回归插补效果明显优于传统的统计量插补法以及KNN和BP神经网络,在不同缺失比例下的回归确定系数结果均保持在0.95以上,能有效解决装备小样本试验数据缺失的问题,并利用KEEL公测数据集验证了该方法的推广价值和通用性。  相似文献   

12.
完整高精度的温度观测数据是农业气象灾害监测、生态系统模拟重要的输入参数.由于野外气象观测条件的限制,气象观测数据缺失现象是常态,数据插补方法是气象数据应用必要处理步骤.本文针对野外小气象观测站站点半小时温度观测数据长时间缺失值问题,结合同一地点较低频次的人工温度观测,构建了新的温度缺失值插补深度学习模型,对缺失的半小时...  相似文献   

13.
王帅夫  刘景林 《测控技术》2011,30(9):112-115
基于直接函数法的圆弧插补算法能够有效提高插补精度,但是在终点判别时需要对两个轴向的步数进行计算,时间较长.在对长轴终点判别方法进行研究的基础上,提出了一种改进的直接函数法的圆弧插补算法.以每步插补的连续前进轴为长轴,并以在长轴上的插补步数为判断基准,对插补点是否到达终点作出判断.该方法要求不同卦限圆弧对应不同长轴.该算...  相似文献   

14.
土壤分析研究中属性数据缺失的现象时常发生,为了提高研究结果的可靠性,有必要对土壤属性数据的缺失值插补方法进行研究.从数据挖掘的角度利用多种缺失值处理方法来对缺失值进行插补,以中国主要农田生态系统土壤养分数据库的pH属性为研究对象,并且从真实值和插补值的拟合优度和插补误差两个方面评估各个方法在不同缺失率的数据集上的表现....  相似文献   

15.
矿山数据挖掘需要完整的数据,因此必须处理矿山数据中的缺失值.为了解决在矿山经济数据的分析预测时出现的缺失问题,提出用SPSS软件的数据缺失值处理模块对数据缺失机制进行分析,采用平均值法、加权均值法、线性回归法、最大期望法、多重填补法等确定性和随机性方法插补缺失数据,分析了这些方法的优缺点,并对插补结果进行比较,以达到客...  相似文献   

16.
研究人员在进行数据插补的时候,需要进行大量的数学计算。利用宏编程可以用来实现回归分析的重复计算,从而得出更精确的分析结果。使用这种方法解决了风电场缺失数据的插补问题。本方法能够为研究人员整理和分析数据节省大量的时间。  相似文献   

17.
位模式插补本身不产生特定的运动控制,只是根据上位机下传的位模式数据进行脉冲的发送,整个过程的运动控制以及插补算法误差都来自上位机位模式数据的生成过程.因此,表文对自由曲线位模式插补数据的生成进行了研究并提出一种误差可控的位模式数据生成算法.最后通过实例对算法进行了验证并进行了误差分析.验证结果表明,该算法可行而且有效.  相似文献   

18.
音频数据规模不足是语音识别过程中的一个常见问题,通过较少的训练数据训练得到的语音识别模型效果难以得到保证。因此,提出一种基于生成对抗网络与特征融合的多尺度音频序列生成方法(multi-scale audio sequence GAN,MAS-GAN),包含多尺度音频序列生成器和真伪—类别判别器。生成器通过3个上采样子网络学习音频序列不同时域和频域的特征,再将不同尺度的特征融合成伪音频序列;判别器通过辅助分类器将生成的伪数据和真实数据区分开,同时指导生成器生成各类别的数据。实验表明,与目前主流的音频序列生成方法相比,所提方法的IS和FID分数分别提高了6.78%和3.75%,可以生成更高质量的音频序列;同时通过在SC09数据集上进行分类实验来评估生成音频序列的质量,所提方法的分类准确率比其他方法高2.3%。  相似文献   

19.
在传统文本-图像对抗模型的实现中,判别器中的卷积网络用于提取图像特征,但是卷积网络无法考虑到底层对象之间的空间关系,导致生成图像的质量较差,而胶囊网络是一种有效的解决方法。基于胶囊网络的方法对传统的文本条件式生成对抗网络模型进行了改进,将判别器中卷积网络换为胶囊网络,增强其对图像的鲁棒性。在Oxford-102和CUB数据集上的实验结果表明新模型可以有效提高生成质量,生成花卉图像的FID的数值降低了14.49%,生成鸟类的图像的FID的数值降低了9.64%。在Oxford-102和CUB两个数据集上生成图像的Inception Score分别提高了22.60%和26.28%,说明改进后模型生成的图片特征更丰富、更有意义。  相似文献   

20.
针对时序数据复杂的时间相关性,以及现有异常检测模型存在准确性低、训练不稳定等问题,提出一种结合BiLSTM和WGAN-GP的无监督时序数据异常检测模型。使用BiLSTM作为生成器和判别器的基础网络来捕获时序数据的时间相关性;为保证训练过程的稳定性,使用Wasserstein距离取代原有的衡量方法,在判别器损失中加入梯度惩罚项;将重构损失与判别损失相结合定义异常函数,采用局部自适应阈值方法判别异常,提高异常检测的准确性。为验证模型性能,在涉及多个领域的5类数据集上进行实验,其结果表明,该模型相比于Arima、LSTM等模型具有最高的平均F1分数。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号