首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
离群点检测算法研究   总被引:1,自引:0,他引:1  
离群点检测是数据挖掘中一项重要内容,通过对当前有代表性的离群点检测算法的分析和比较,对各算法的优缺点进行了总结.针对高维数据中离群点检测算法进行了分析和研究,提出了高维数据中离群点检测需要注意的一些问题,从而便于研究者以这些算法为基础,在此基础上提出新的改进算法.  相似文献   

2.
针对大数据集中存在海量数据,当数据规模扩大到一定程度时,离散点检测处理效率受到限制的问题,提出了一种基于分类和回归树(CART)决策树的网络大数据集离群点动态检测算法。首先,划分大数据集异常数据标准,利用方差衡量数据离散程度,使用支持向量机建立异常数据样本关联规则矩阵,明确大数据集异常数据范围,并通过动态网格划分策略降低离群点检测计算量;然后,运用CART决策树方法在分支节点采取布尔检测,将待检测数据统一拟作连续数据,升序排列训练数据集,计算数据最高信息增益,剪枝决策树直到没有非叶子节点可被替换,得到离群点动态检测结果。仿真结果证明,本文算法离群点检测准确率高、检测耗时短,具备显著的计算优势,能为大数据集的可靠应用提供积极帮助。  相似文献   

3.
提出了一种基于空间相邻关系的点对象离群检测算法SAOD(Space Adjacent Relations Based GML Point Outlier Detection Algorithm).利用空间相邻关系作为空间点对象的相似度度量准则,得到相似度矩阵,从而挖掘GML中的离群点对象.实验结果表明,SAOD算法能有效地检测GML中的离群点对象并且具有较高的效率.  相似文献   

4.
目前研究时间序列离群点检测方法大都没有考虑到数据本身的周期性,有的只能处理名词性属性. 针对实值性属性的时序数据,提出了多粒度周期模式的发现算法,该算法基于不同的时间间隔粒度来探测不同的周期模式, 并利用得到的周期模式来发现那些偏离周期模式的离群点. 该方法可有效避免将正常数据误报为异常值. 通过实验验证了该算法既可正确找出数据在不同粒度下的周期模式,又可有效探测时序数据中的异常值,并与不用周期模式发现的离群点检测算法比较,减少了对特殊事件的离群点误报.  相似文献   

5.
分布式计算被广泛应用于离群点检测问题,但分布式环境中节点计算性能的差异带来了数据计算性能的下降问题。针对面向大尺度高维数据离群点分布式计算的负载均衡问题,该文提出了一种加权分布式离群点检测方法。首先根据数据节点的计算性能确定数据节点的权值,然后将数据空间划分为若干个网格,最后设计了一种基于网格划分的加权分配算法WGBA,将这些网格分配到数据节点中,实现并行计算。实验验证了该方法的有效性。  相似文献   

6.
本研究结合信息熵与粗糙集理论中的属性约简技术,提出了一种新颖的离群点检测算法。这种方法通过在更小的属性子空间去获得相同或相近的离群数据集,使对离群数据的分析更加集中于较小的目标域。该算法对原属性空间进行划分,通过分析计算将具有最大相对熵与负相对势的对象集合判定为离群点集合。为了验证算法的有效性,还在通用数据集上进行了测试,理论分析和实验结果表明该离群点检测算法是有效可行的。  相似文献   

7.
针对高维海量数据集中的局部离群数据,利用并行计算和属性相关性分析思想,给出了一种离群数据并行挖掘算法。该算法首先由主节点分配属性相关分析任务,各个子节点并行查找数据集中的冗余属性,将其冗余属性传回主节点,并由主节点删除;其次,主节点分配搜索任务,各子节点采用微粒群算法,并行搜索局部离群子空间;再次,由主节点对局部离群子空间合并计算后,确定全局离群数据;最后,在MPICH2-1.0.3的并行计算环境下,采用恒星光谱数据作为数据集,实验结果验证了算法的正确性和有效性。  相似文献   

8.
对基于单数据集和多数据集的离群点算法进行研究,提出一个基于距离模式进行数据集间参照对比的离群点判别模型,该模型通过数学定义清晰描述了参照集和对比集之间离群点模式的判别检测关系,为深入研究切合金融数据挖掘特点的算法建立形式化描述体系。这一模型也可推广应用于网络入侵检测、财务审计、图像识别、电子商务、医疗疫情监测等领域。  相似文献   

9.
数据降维是从高维数据中挖掘有效信息的必要步骤。传统的主成分分析(PCA)算法应用于超高维稀疏数据降维时,存在着无法将所有数据特征一次性读入内存以进行分析计算的问题,而之后提出的分块处理PCA算法由于耗时太长,并不能满足实际需求。本文引入信息熵的思想对PCA算法进行改进,提出E-PCA算法,先利用信息熵对数据进行特征筛选,剔除大部分无用特征,再使用PCA算法对处理后的超高维稀疏数据进行降维。通过实验结果表明,在保留相同比例原数据信息的情况下,本文提出的基于信息熵的E-PCA算法在内存占用、运行时间以及降维结果都优于分块处理PCA算法。  相似文献   

10.
数据集的质量对软件缺陷预测模型的效果至关重要.针对传统数据集特征过多导致的学习速度较慢以及缺陷样本远少于无缺陷样本的类不平衡问题,提出一种基于主成分分析法(Principal Component Analysis,PCA)和数据加权增广的数据集优化方法:通过PCA方法对数据进行降维,有效去除了冗余数据,减少模型的学习时...  相似文献   

11.
针对密度聚类算法无法应用于大规模数据集的问题,提出一种基于划分网格的密度聚类算法(GDSCAN)。将大规模二维点阵图划分为若干网格,网格最短边不小于给定邻域半径,目标点所在网格中任意点的邻域范围不会超过与该网格直接连接的网格,只需在保留网格内寻找邻域点,从而减少计算量;聚类从任意无类别核心点开始,将该点的所有密度可达组成一个簇,以此类推直至所有核心点都有类别;采用提出的GDSCAN算法对不同数量级的二维路网节点进行聚类验证。结果表明,GDSCAN算法可有效解决大规模二维点阵数据集中密度聚类的效率问题,数据量越大,效果越明显,且时间复杂度明显降低。  相似文献   

12.
针对大规模光伏并网给电力系统安全稳定运行带来的严峻挑战,考虑传统单一光伏场站功率预测的局限性,以区域性光伏集群功率为研究对象,提出一种基于BP神经网络的光伏集群功率的区间预测方法。通过互信息方法对变量进行相关性分析,提取关键解释变量作为输入变量,利用主成分分析进行数据降维,解决了光伏集群功率预测大数据处理的问题。利用神经网络在数据挖掘和非线性关系拟合方面的优越性,将神经网络和非参数概率预测相结合,量化光伏集群功率预测结果的不确定性。实验算例采用中国某地区10个光伏场站,利用未降维的原始数据与本研究所提出的数据降维方法进行对比,分别计算80%和90%预测区间,结果表明,本研究所提出的预测方法预测区间带更窄,具有更好的预测效果。利用本研究所提模型预测了某天超前72 h的80%和90%置信区间,验证了该方法的可行性和先进性。  相似文献   

13.
针对大规模光伏并网给电力系统安全稳定运行带来的严峻挑战,考虑传统单一光伏场站功率预测的局限性,以区域性光伏集群功率为研究对象,提出一种基于BP神经网络的光伏集群功率的区间预测方法。通过互信息方法对变量进行相关性分析,提取关键解释变量作为输入变量,利用主成分分析进行数据降维,解决了光伏集群功率预测大数据处理的问题。利用神经网络在数据挖掘和非线性关系拟合方面的优越性,将神经网络和非参数概率预测相结合,量化光伏集群功率预测结果的不确定性。实验算例采用中国某地区10个光伏场站,利用未降维的原始数据与本研究所提出的数据降维方法进行对比,分别计算80%和90%预测区间,结果表明,本研究所提出的预测方法预测区间带更窄,具有更好的预测效果。利用本研究所提模型预测了某天超前72 h的80%和90%置信区间,验证了该方法的可行性和先进性。  相似文献   

14.
提出一种基于三维点云数据的主成分分析重建三维表面模型的方法,该方法利用基于主成分分析的动态聚类方法对三维扫描数据进行聚类,进而对点云数据重构一点片,研究在局部利用二维三角网构网技术构建三角网,然后在考虑局部三角网边缘一致性的基础上组合成整体三维表面模型的算法。应用实例表明,该算法能有效地完成重建物体三维表面模型。  相似文献   

15.
在MMOD算法的基础上提出一种改进算法IMMOD,该算法考虑各属性的差异对离群点检测的影响,通过引入信息熵来确定属性的重要程度以量化权重向量,进而采用加权距离计算各数据点相异性。此外,在处理高维数据时,确定次要属性后采用属性约简方法,在保证时间效率的同时提高检测精度。理论分析和试验结果表明IMMOD算法参数少、检测准确性高,能很好地适用于高维数据,整体性能优于同类算法。  相似文献   

16.
针对多维数据集异常数据检测过程中未对多维数据集进行降维处理,导致多维数据集中异常数据检测精度较低、误检率较高、检测时间较长的问题,提出一种基于谱聚类的多维数据集异常数据检测方法。首先,通过拉普拉斯矩阵对多维数据集中的数据进行聚类,初步分类数据;其次,采用局部线性嵌入(LLE)算法对分类后的数据进行降维处理,用特征向量表达高维数据集,去除多维数据集中的冗余信息;最后,将处理后的多维数据集输入到支持向量机模型中,根据回归估计值的计算,完成异常数据的检测。实验结果表明,本文算法进行多维数据集中异常数据检测的精度更高、误检率更低,检测时间较短。  相似文献   

17.
基于神经网络的山东省机动车保有量预测   总被引:1,自引:1,他引:0  
分析了预测机动车保有量时的若干影响因素,针对少量影响因素可提高BP神经网络训练速度的特点,提出利用主成分分析法通过SPSS软件来缩减影响因素数量.并根据这些筛选出来的因素,建立神经网络并对其训练达到预定误差后对机动车保有量进行预测.最后通过山东省实例,将BP神经网络预测的数据与趋势外推法预测的数据进行对比,得出BP神经网络法运算速度较快、误差较小的结论.  相似文献   

18.
分析了预测机动车保有量时的若干影响因素,针对少量影响因素可提高BP神经网络训练速度的特点,提出利用主成分分析法通过SPSS软件来缩减影响因素数量。并根据这些筛选出来的因素,建立神经网络并对其训练达到预定误差后对机动车保有量进行预测。最后通过山东省实例,将BP神经网络预测的数据与趋势外推法预测的数据进行对比,得出BP神经网络法运算速度较快、误差较小的结论。  相似文献   

19.
针对变压器故障诊断困难的问题,提出了一种基于改进Elman神经网络的变压器故障诊断方法.利用核主成分分析算法对Elman神经网络进行改进,通过引入累积贡献率计算得到改进Elman神经网络最优输入特征参数,基于数据集和测试集将改进Elman神经网络应用于变压器的常见故障诊断中,并将试验结果与其他故障诊断方法的诊断结果进行对比.结果表明,所提方法诊断准确率超过90%,与支持向量机和BP神经网络诊断方法相比,该方法的诊断准确率更高.  相似文献   

20.
在无线传感网离群值检测算法中,如何自适应调整离群值检测算法的参数是一项重大挑战。由于节点之间存在相关性,不能孤立地去考虑单个传感器节点,因此根据其周围节点情况来动态设置节点参数很有必要。在文中提出一种基于锚节点的无线传感网离群值检测算法,该算法预先为锚节点设置最佳参数,同时计算锚节点与普通节点之间的相关性,利用大小根堆、滑动窗口与标准差来动态地调整每个普通节点的参数,并将其转换为锚节点。最终每个节点都能自适应地将参数调整为最佳。仿真实验表明:在自适应调整方式下,检测算法的真阳性率在84.3%以上,假阳性率在20%以下,并且能够将数据正确地分离出来。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号