首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 609 毫秒
1.
谭琦  杨沛 《计算机应用研究》2008,25(9):2620-2622
为了解决误判问题,从预测的角度给出了离群点的定义,并提出了预测可信度和离群度的概念;同时,提出采用置换技术来降低离群点对预测模型的影响,并提出了基于集成预测的稀有时间序列检测算法。针对真实数据集的实验表明,可信度和离群度的定义是合理的,稀有时间序列检测算法是有效的。  相似文献   

2.
针对无线传感器网络的离群点检测算法由于没有充分考虑数据的时空关联性和网络的分布特性,导致检测精度低、通信量大和计算复杂度高等局限,提出了基于时空关联的分布计算与过滤的在线离群点检测算法。该算法在各传感器节点上利用传感器读数的时间关联性生成候选离群点,并利用空间关联性对候选离群点进行过滤得到局部离群点,最终将所有传感器节点上的局部离群点集中到sink节点上获得全局离群点。利用时空关联性提高了检测精度,利用分布计算与过滤减少了通信量和计算量,理论分析和实验结果均表明该算法优于现有算法。  相似文献   

3.
针对现有基于距离的离群点检测算法在处理大规模数据时效率低的问题,提出一种基于聚类和索引的分布式离群点检测(DODCI) 算法。首先利用聚类方法将大数据集划分成簇;然后在分布式环境中的各节点处并行创建各个簇的索引;最后使用两个优化策略和两条剪枝规则以循环的方式在各节点处进行离群点检测。在合成数据集和整理后的KDD CUP数据集上的实验结果显示,在数据量较大时该算法比Orca和iDOoR算法快近一个数量级。理论和实验分析表明,该算法可以有效提高大规模数据中离群点的检测效率。  相似文献   

4.
基于动态网格的数据流离群点快速检测算法   总被引:8,自引:0,他引:8  
离群点检测问题作为数据挖掘的一个重要任务,在众多领域中得到了应用.近年来,基于数据流数据的挖掘算法研究受到越来越多的重视.为了解决数据流数据中的离群点检测问题,提出了一种基于数据空间动态网格划分的快速数据流离群点检测算法.算法利用动态网格对空间中的稠密和稀疏区域进行划分,过滤处于稠密区域的大量主体数据,有效地减少了算法所需考察的数据对象的规模.而对于稀疏区域中的候选离群点,采用近似方法计算其离群度,具有高离群度的数据作为离群点输出.在保证一定精确度的条件下,算法的运行效率可以得到大幅度提高.对模拟数据集和真实数据集的实验检测均验证了该算法具有良好的适用性和有效性.  相似文献   

5.
目前,大部分离群点检测算法需要人工输入参数,不能同时检测出全局和局部离群点,不能有效处理密度不均匀数据。针对这些问题,提出一种基于密度划分的离群点检测算法DD-DBSCAN。主要创新包括:1)运用最小生成树的方法,新定义簇密度概念,将数据录入后划分成密度不等的簇,使算法能够处理密度分布不均匀的数据;2)采用"分而治之"的思想,对经过划分的数据集分别进行离群点检测,使得算法能够同时处理全局和局部离群点;3)通过在各个簇中自适应地计算所需参数值,算法不再需要人工输入参数(聚类半径(Eps)等)。通过在2D模拟数据集和Iris真实数据集上的实验表明,与DBSCAN算法比较,本文算法具有更高的覆盖率和正确率。  相似文献   

6.
基于信息论的高维海量数据离群点挖掘   总被引:1,自引:1,他引:0  
针对高维海量数据集离群点挖掘存在“维数灾难”的问题,提出了基于信息论的高维海量数据的离群点挖掘算法。该算法采用属性选择,去除冗余属性降维。利用信息嫡作为离群点判断的度量标准,消除距离和密度量纲的弊端。在真实数据集上的实验结果表明,算法对高维海量数据离群点挖掘是有效可行的,其效率和精度得到了明显提高。  相似文献   

7.
离群点或异常检测是数据挖掘和机器学习等领域的研究热点之一,研究人员已提出了多种离群点检测方法,并将其应用于入侵检测和异常交易检测等问题.但多数离群点检测方法主要针对表数据或时间序列数据等,无法直接应用于离群文档检测.现有基于相近性的离群文档检测方法一般用文档与整个文档集的距离来衡量离群性,无法发现基于局部考量的离群文档,而且采用欧几里德距离可能无法刻画出文档间的语义相近性.基于概率模型的离群文档检测方法过于复杂,并且同样只从全局来定义文档的离群值.针对这些问题,文中提出了一种新的基于相近性的离群文档检测方法.该方法引入最优输运距离,基于利用文档词嵌入向量的语义信息,在文档之间使用最优输运算法以度量距离,并利用LDA主题模型对文本进行层级抽象,通过最优输运算法算出主题之间的距离后,再计算文档距离,文中基于这两种最优运输距离计算文档与它的k近邻文档之间的距离来衡量该文档的离群程度.该方法从局部视角来定义文档的离群性,所采用的文档距离能体现文档之间的语义相近性.在两个开源数据集上进行了较细致的对比实验,实验结果显示,所提方法在多个指标上优于基准离群文档检测方法;还检验了基于k近邻离群文档定义的有效性以及k值的选取对结果的影响.  相似文献   

8.
为解决现有高维海量数据离群点挖掘在时间与空间效率上的不足,提出了一种基于粗约简和网格的离群点检测算法RRGOD。算法在基于密度的离群点检测算法LOF的基础上,结合粗糙集理论特点,引入属性权值概念,淘汰属性权值低于重要度阈值的属性降低维度,从而减少了进行聚类的计算量。在网格聚类阶段,对传统的网格划分方法进行改进,引入属性维半径向量概念,提出了一种可变网格划分方法,根据数据集特点自适应地划分网格空间。在真实数据集和仿真数据集上进行了实验。结果表明,该算法在进行离群点检测时能在保持足够精确度的同时,检测效率有显著的改善。  相似文献   

9.
离群点检测算法在网络入侵检测、医疗辅助诊断等领域具有十分广泛的应用。针对LDOF、CBOF及LOF算法在大规模数据集和高维数据集的检测过程中存在的执行时间长及检测率较低的问题,提出了基于图上随机游走(BGRW)的离群点检测算法。首先初始化迭代次数、阻尼因子以及数据集中每个对象的离群值;其次根据对象之间的欧氏距离推导出漫步者在各对象之间的转移概率;然后通过迭代计算得到数据集中每个对象的离群值;最后将数据集中离群值最高的对象判定为离群点并输出。在UCI真实数据集与复杂分布的合成数据集上进行实验,将BGRW算法与LDOF、CBOF和LOF算法在执行时间、检测率和误报率指标上进行对比。实验结果表明,BGRW算法能够有效降低执行时间并在检测率及误报率指标上优于对比算法。  相似文献   

10.
冯骥  冉瑞生  魏延 《智能系统学报》2019,14(5):998-1006
数据挖掘领域,基于最近邻居思想的离群检测算法在面对复杂数据时,很难在没有足够先验知识条件下进行适当的参数选择。为了解决这个问题,本文在自然邻居方法的基础上,提出一种利用加权自然邻居邻域图进行离群检测的算法。该算法在整个过程不需要人为设置参数,并且能在不同分布特征的数据中准确找到数据集中的全局离群点和局部离群点。人工数据集和真实数据的离群检测结果均证明,本算法能够取得和有参数的算法中最优参数相近的效果,算法检测结果远好于对参数敏感算法的大部分情况,且更优于对参数不敏感的算法,具有更强的普适性和实用性。  相似文献   

11.
张悦  刘杰  李航 《计算机工程》2013,39(3):46-50,55
现有孤立点检测方法大多数都需要预先设定孤立点个数,若设定不准确将降低孤立点检测的准确性。针对该问题,提出一种基于概率的孤立点检测方法。结合基于密度的DBSCAN算法与中位数求方差的方法,对待检测数据集进行聚类,提取出不包含在任何聚类中的可疑孤立点并进行分析,从而确定最终孤立点。该方法所检测的数据与时间因素线性无关,不必预先设定孤立点个数及聚类数,并且对噪声数据具有较强的抗干扰能力。IRIS测试数据集上的实验结果表明,该方法能够有效地识别孤立点。  相似文献   

12.
现有的大多数孤立点检测算法都需要预先设定孤立点个数,并且还缺乏对不均匀数据集的检测能力。针对以上问题,提出了基于聚类的两段式孤立点检测算法,该算法首先用DBSCAN聚类算法产生可疑孤立点集合,然后利用剪枝策略对数据集进行剪枝,并用基于改进距离的孤立点检测算法产生最可能孤立点排序集合,最终由两个集合的交集确定孤立点集合。该算法不必预先设定孤立点个数,具有较高的准确率与检测效率,并且对数据集的分布状况不敏感。数据集上的实验结果表明,该算法能够高效、准确地识别孤立点。  相似文献   

13.
为了提高离群数据检测精度和效率,提出了一种基于相关子空间的离群数据检测算法。该算法首先根据数据局部密度分布特征得出稀疏度矩阵,通过高斯相似核函数放大稀疏度特征;然后计算各属性维中数据稀疏度相似因子,确定子空间向量及相关子空间,结合数据稀疏度和维度权值得出数据对象的离群因子,选取最大的若干个对象为离群数据;最后采用人工数...  相似文献   

14.
为了提高高维数据集合离群数据挖掘效率,该文分析传统的离群数据挖掘算法,提出一种离群点检测算法。该算法将非线性问题转化为高维特征空间中的线性问题,利用核函数-主成分进行维数约减,逐个扫描数据对象的投影分量,判断数据点是否为离群点,适用于线性可分数据集的离群点、线性不可分数据集的离群点的检测。实验表明了该算法的优越性。  相似文献   

15.
子空间聚类能在高维空间挖掘隐藏在不同低维子空间中的簇类,能在分类的基础上有效降维。针对目前入侵检测实时性和准确性的要求,提出子空间聚类ASCOD算法,该算法内嵌离群点扫描处理,能动态计算最优的算法参数,将该算法应用于入侵特征选择领域,实验结果证明这种策略的抗干扰能力较强,并能高效进行特征选择,提高了入侵检测的检测速度和精度。  相似文献   

16.
针对基于密度的局部离群因子算法(LOF),需要计算距离矩阵来进行[k]近邻查寻,算法时间复杂度高,不适合大规模数据集检测的问题,提出基于网格查询的局部离群点检测算法。算法利用距离目标网格中的数据点最近的[k]个其他数据点,一定在该目标网格或在该目标网格的最近邻接网格中这一特性,来改进LOF算法的邻域查询操作,以此减少LOF算法在邻域查询时的计算量。实验结果证明,提出的LOGD算法在与原LOF算法具有基本相同的检测准确率的情况下,能够有效地降低离群点检测的时间。  相似文献   

17.
基于子空间解决高维离群点挖掘的问题已经引起人们的广泛关注,现有方法存在的主要问题是难以选取合适的子空间且选取计算量大、阈值等参数设置困难等。这些影响了检测精度和检测效率。利用高对比度子空间选取方法解决子空间选取问题,利用自适应方法解决阈值参数的确定问题,据此提出自适应的高对比性子空间离群点检测方法(AHiCS)。该方法利用统计检验算法选取高对比性子空间,在高对比性的子空间里自适应计算离群点得分,提高了离群点检测的精度与效率。理论和实验表明,该方法可以有效地挖掘高维离群点。  相似文献   

18.
随着陆地资源不断开发,可用资源减少,人类将资源的开发转移到海洋领域,此时能够收集大量海底数据的多波束测深系统起着重要作用。但未经检测和过滤的、包含异常数据的多波束测深系统会给海洋开发带来危害,因此需要对异常数据进行检测。常用的检测异常值的算法有截断最小二乘估计异常值检测算法、基于改进GA异常值检测算法等,但这些算法的检测精度均较低。随着深度学习不断发展,许多异常值检测的算法均基于深度学习进行改进。提出一种新的异常检测方法——深度支持向量检测算法,与之前方法相比在检测出更多异常值的同时,能减少误判和漏判的情况且提高了检测精度。  相似文献   

19.
为了解决k-means算法的离群点检测容易受到初始聚类中心的影响陷入局部最优的问题,本文提出一种基于改进布谷鸟搜索的k-means算法的离群点检测方法。首先,对原始布谷鸟搜索算法中的发现概率和莱维飞行步长做自适应策略改进并进行实验仿真;其次讨论改进后的布谷鸟搜索算法的收敛性问题;最后将改进后的布谷鸟搜索算法与k-means的离群点检测算法融合成一种新的离群点检测算法——基于改进布谷鸟搜索的k-means算法的离群点检测。通过对UCI数据集进行仿真实验,结果表明,本文算法不仅精确度方面有着明显优势,而且在3个数据集上收敛速度均有改善,可有效地抑制k-means算法的离群点检测容易陷入局部最优的问题,缩短运行时间。  相似文献   

20.
提出了基于粗糙集和改进最小二乘支持向量机的入侵检测算法。算法利用粗糙集理论的可辨识矩阵对样本属性进行约简,减少样本维数;利用稀疏化算法对最小二乘支持向量机进行改进,使其既具备稀疏化特性又具备快速检测的特点,提高了数据样本分类的准确性。结合算法不仅充分发挥粗糙集对数据有效约简和支持向量机准确分类的优点,同时克服了粗糙集在噪声环境中泛化性较差,支持向量机识别有效数据和冗余数据的局限性。通过实验证明,基于粗糙集和改进最小二乘支持向量机的入侵检测算法的检测精度高,误报率和漏报率较低,检测时间短,验证了算法的实效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号