首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 139 毫秒
1.
异常点检测是数据挖掘领域的一个重要研究方向,传统的基于近邻和局部异常因子的异常点检测算法存在计算复杂度高和误检率高的缺陷.为解决该缺陷,提出一种基于观测点机制的异常点检测(observation-point mechanism-based outlier detection,OPOD)算法.首先在原始样本空间中随机放置若干观测点,然后计算观测点与样本点之间的距离,将原始数据转换为与观测点相对应的距离数据,再估计距离数据的概率密度函数,进而计算距离数据出现的概率值,最后通过对多个观测点距离数据概率值的融合最终确定原始样本点中的异常点.基于PyCharm平台,采用sklearn. datasets的make_blobs函数生成仿真数据集,分别测试不同规模和不同维度数据集对OPOD算法性能的影响,并对比了OPOD算法、基于局部异常因子的异常点检测(local outlier factor-based outlier detection,LOFOD)算法和基于近邻的异常点检测(nearest neighbor-based outlier detection,NNOD)算法的运行时间、异常点召回...  相似文献   

2.
针对局部异常因子(local outlier factor,LOF)异常检测算法时间空间复杂度高、对交叉异常及低密度簇周围异常点不敏感等局限,提出了基于近邻搜索空间提取的LOF异常检测算法(isolation-based data extracting LOF,iDELOF),将基于隔离思想的近邻搜索空间提取(isolation-based KNN search space extraction,iKSSE)前置于LOF算法,以高效剪切掉大量无用以及干扰数据,获得更加精准的搜索空间。基于此完成了理论以及4组实验分析,每组实验分别进行iDELOF算法与LOF、iForest、iNNE等多种典型算法的对比分析。结果表明:iDELOF算法通过拉大正异常点局部离群因子的差距,增强了对交叉异常以及低密度簇周围异常点的识别能力,提升了LOF的检测效果;iDELOF算法在识别轴平行异常方面与LOF同样具有明显优越性;iDELOF算法通过iKSSE所获数据子集显著小于原数据集,多数子集数据量小于原数据集的1%,因此iDELOF的时间空间复杂度显著降低,且原数据集数据量越大,优越性越明显,当数据量足够大时,iDELOF算法的运行时间将低于IF算法。  相似文献   

3.
针对K-means异常检测算法检测性能低的问题,提出了一种结合信息熵与改进K-means算法的异常检测算法。该算法均匀地选出密度大于数据集平均密度的数据对象作为初始聚类中心,避免了初始中心的随机选择。在此基础上,引入了信息熵确定属性权重的方法来计算簇中数据点与该簇聚类中心的加权欧氏距离,通过对比簇中数据点的加权欧氏距离与该簇中所有数据点的平均加权欧氏距离来进行异常检测。实验表明,改进算法具有更高的检测率和更低的误检率,应用于电力负荷数据时检测率达到了90. 5%,能够有效地检测出异常的负荷数据。  相似文献   

4.
为了准确检测网络中的流量异常情况,确保网络正常运行,提出基于特征符号表示的网络异常流量检测算法(NAAD-FD). NAAD-FD算法利用趋势转折点将网络流量数据按照基于趋势特征的符号表示方法进行转化,按照表示结果将原始数据转化为包含7项特征值的子序列,将7项特征值运用到提出的距离计算方法中;结合基于密度的算法,按照时间序列的网络异常流量定义执行异常检测. 通过对算法参数、仿真数据和真实网络流量数据的实验与分析可知,该算法具有较强的鲁棒性,验证了该算法的有效性和稳定性. 该算法通过降维简化表示,显著降低了算法的时间复杂度,有效加速异常检测过程约40%.  相似文献   

5.
广义回归神经网络的改进及在交通预测中的应用   总被引:1,自引:0,他引:1  
本研究基于k近邻的方法通过网络性能评价指标来对平滑因子进行选择确定。通过k近邻法找出使得网络性能评价最好的平滑因子,不再仅依赖于一个均方误差数值,而根据均方误差组的排序来选择最优的平滑因子。该算法能够在保持较好的预测效果的前提下解决因数据波动性大而最终得不到最优平滑因子的难题。通过预测交通数据的实验验证了算法的有效性。结果表明通过k近邻方法得到的最优平滑因子会使网络预测误差降至最小。  相似文献   

6.
为了减少基于密度的异常点检测算法邻域查询操作的次数,同时避免ODBSN(Outlier Detection Basedon Square Neighborhood)中有意义异常点的丢失和稀疏聚类中的对象靠近稠密聚类时导致错误的异常点判断,提出了一种基于邻域和密度的异常点检测算法NDOD(Neighborhoodand Densitybased Outlier Detection)。NDOD吸收基于网格方法的思想,以广度优先扩张方形邻域,成倍地减少了邻域查询的次数,从而快速排除聚类点并克服基于网格方法中的“维灾”。新引入的基于邻域的局部异常因子代表候选异常点的异常程度,用于对候选异常点的精选,可避免ODBSN的缺陷,发现更多有意义的异常点。大规模和任意形状的二维空间数据的测试结果表明,该算法是可行有效的。  相似文献   

7.
一类基于贝叶斯信息准则的k均值聚类算法   总被引:1,自引:0,他引:1  
典型k-均值算法中的聚类数k必须是事先给定的确定值,然而,实际应用中k很难被精确地确定。同时该算法对初始聚类中心的依赖性而导致聚类结果可能陷入局部极小,使得该算法对一些实际问题无效。采用基于密度聚类算法(DBSCAN),在筛选局部代表点时结合贝叶斯信息准则(BIC),得到少量精准反映局部数据分布的BIC核心点。然后,以BIC核心点为初始聚类中心,BIC核心点数量为类别数,对全局数据进行k-均值聚类。实验结果表明,优化的k-均值算法是一种有效可行的聚类算法。  相似文献   

8.
连续压实质量检测参数单点异常值识别及处理   总被引:2,自引:0,他引:2  
为解决现行连续压实检测参数异常值识别及处理方法未考虑数据空间分布特征的问题,结合地统计学的半变异函数,提出基于自相关距离的近邻加权估计识别法,并定义单点异常值判定指标:异常指数αi,将异常值剔除后,利用普通克里金插值法对原异常值点处的数据进行估计,并通过沪昆高铁娄底试验段进行了连续压实质量检测试验验证.结果表明:当某点的异常指数αi0.2时,可判定其为单点异常值点;相比于现行的拉依达准则(3σ准则)识别方法,基于自相关距离的近邻加权估计法具有更高的准确度和识别效率;普通克里金插值法能够更为准确地估计单点异常值处的数据,降低数据的变异系数,提高连续压实质量检测参数的均匀性.  相似文献   

9.
针对传统果蝇算法面临的收敛稳定性差、难以协调全局搜索及局部搜索能力等缺点,提出一种基于群密度的改进果蝇优化算法。首先,借鉴现有算法的优势,将果蝇种群分为搜索果蝇和跟随果蝇,并分别使用两类果蝇进行全局化搜索与局部精细化搜索。然后,为提高算法全局搜索的稳定性,在每次迭代过程中使用基于最优区间回避的分区采样策略更新搜索果蝇的位置;该策略在每次迭代过程中获得表现最优的若干只果蝇以构造最优果蝇组,根据最优果蝇组中果蝇个体在每个维度上的取值范围确定最优区间,并通过对最优区间外的其他区间分区采样以确定搜索果蝇的新位置。最后,为协调算法的全局搜索能力与局部搜索能力,引入群密度的概念,通过计算果蝇群密度并结合相关阈值实现不同种群规模的动态调整。针对典型测试函数的实验结果表明,基于最优区间回避的分区采样策略相对于传统随机函数具有更强的全局优化性能。与传统优化算法相比,本文算法在保证收敛速度的同时获得了较高的寻优精度及稳定性,在综合性能上得到明显提升。在KDDcup99数据集上的异常检测仿真实验结果表明,本文基于分区采样及群密度的果蝇优化算法能有效避免局部最优,在获取异常检测分类器的重要参数最佳取值方面起到一定作用。  相似文献   

10.
现有数据流聚类算法多数面向的是确定性数据,可是不确定数据的数据流聚类逐步被受到关注,因为经典的不确定数据聚类算法具有概率密度函数获取困难、实用性不强以及计算复杂等缺点,提出一种基于区间数的不确定数据流聚类算法UIDStream.算法用区间数来表示属性不确定性数据和基于区间数的距离计算方法,定义了不确定性数据之间的相似度,并利用传统k近邻聚类的思想,提出基于区间数的2k近邻微簇和最优2k近邻微簇的概念,通过最优2k近邻微簇的融合,实现不确定数据流的聚类.实验结果表明:改进后的算法具有良好的聚类效果,提高了不确定数据流聚类的聚类质量和速率.  相似文献   

11.
为解决核模糊相似性度量谱聚类算法的样本点降噪问题,优化聚类效果和稳定性,本文从分析异常点分布特性出发,引入局部异常因子(LOF)算法,提出聚类中心候选对象的概念,过滤数据集的噪声数据,从而优化初始聚类中心的计算,突出正常样本点在聚类中心调整中的影响力,使聚类算法更易于得出准确的聚类结果. 同时提出一种局部过滤因子以修正相似性度量的方法,该方法通过放大正常数据之间的权值、缩小正常数据与噪声数据间的权值,使优化后的核模糊谱聚类算法大大降低对异常点的敏感度. 算法有效性实验和算法稳定性实验表明:该方法对相似性度量修正的有效性使核模糊谱聚类算法更为稳定和鲁棒.  相似文献   

12.
本研究结合信息熵与粗糙集理论中的属性约简技术,提出了一种新颖的离群点检测算法。这种方法通过在更小的属性子空间去获得相同或相近的离群数据集,使对离群数据的分析更加集中于较小的目标域。该算法对原属性空间进行划分,通过分析计算将具有最大相对熵与负相对势的对象集合判定为离群点集合。为了验证算法的有效性,还在通用数据集上进行了测试,理论分析和实验结果表明该离群点检测算法是有效可行的。  相似文献   

13.
为了解决现代化工过程采集的数据维度高、分布复杂的问题,提出一种基于两步子空间(two step subspace division, TSSD)划分的化工过程监测方法。为了降低过程分析复杂度,将具有相似特性的变量划分为同一空间。考虑数据的复杂分布问题,将第一步得到的每个子空间划分为高斯空间与非高斯空间。利用主元分析(principal component analysis, PCA)和独立元分析(independent component analysis, ICA)方法建立检测模型并构造统计量。整合每个子空间的统计量并基于局部离群因子(local outlier factor, LOF)方法构建综合统计量。结果表明:TSSD方法对于16个故障均能取得最优的漏报率,尤其是故障10和故障16,漏报率分别为15.375%和6.75%,有效验证所提出的基于两步子空间划分的过程监测方法的优越性。  相似文献   

14.
针对实际数据存在不确定性的问题,提出了新的异常点检测方法。首先,定义了基于距离的不确定数据异常点检测概念;其次,设计了相应的不确定数据的异常点检测算法;再次,为降低算法时间复杂度,设计了剪枝策略;最后,实验分析说明了算法对不确定异常点检测的可行性与效率。  相似文献   

15.
k近邻查询算法是查询大规模空间数据的常用算法之一,使用Kd-Tree先构建大规模空间数据的索引,然后对搜索空间进行层次划分,再进行k近邻查询,能保证搜索的效率。但是,传统的Kd-Tree构建有两个缺点:使用测试数据点进行k近邻查询每次都需要回溯到根节点,影响了查询的效率;Kd-Tree使用split域对空间进行层次划分,空间划分为立方体(二维数据表现为矩形),多边形空间在相交判断时会出现没必要进行数据距离比较的多余空间,这样会影响查询的效率。针对这两个缺点,本文提出了相应的改进算法---RB算法。实验结果证明,该算法比传统的KD算法拥有更高的查询效率。本文的主要贡献有两点:(1)构建一种快速创建Kd-Tree索引来支持KNN算法进行大规模数据的分类查询操作。(2)改进传统的Kd-Tree索引构建方法,提出新的改进算法RB算法,提高KNN算法查询的效率。  相似文献   

16.
针对旁路分析技术对小规模硬件木马检测精度低的问题,提出基于边界Fisher分析的硬件木马检测方法.定义规则式选择近邻样本,以减小样本与其同类近邻样本间距离和增大样本与其异类近邻样本间距离的方式构建投影子空间,在不对数据分布作任何假设的前提下,提取原始功耗旁路信号中的差异特征,实现硬件木马检测. AES加密电路中的硬件木马检测实验表明,该方法能够检测出占原始电路规模0.02%的硬件木马,优于已有的检测方法.  相似文献   

17.
该文针对复杂电磁环境下的海面声探测系统,造成传感器接收到多目标原始数据中,含强杂波、强噪声密集,提出了一种基于海面声探测多目标数据预处理算法.在最近邻数据关联基础上,利用方位角信息变化率、方位角相关性,采用拟合的方式及最近邻原则来解决目标关联及去噪问题.并由实验数据验证了算法的有效性,实现了强杂波、强噪声干扰下多目标数...  相似文献   

18.
为了使孤立点检测更为自动化,减少用户对参数选择的困难,提出了平均密度的定义,并给出基于平均密度的孤立点检测方法。该方法提出了孤立点对象的密度要小于数据集的平均密度;非孤立点对象的密度不应因为封闭区间的收缩而减少。采用企鹅图像边缘检测对该方法进行验证,实验结果表明,该方法能够有效地检测出图像边缘孤立点,同时简化了孤立点检测时对用户输入参数的要求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号