首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
针对局部异常因子(local outlier factor,LOF)异常检测算法时间空间复杂度高、对交叉异常及低密度簇周围异常点不敏感等局限,提出了基于近邻搜索空间提取的LOF异常检测算法(isolation-based data extracting LOF,iDELOF),将基于隔离思想的近邻搜索空间提取(isolation-based KNN search space extraction,iKSSE)前置于LOF算法,以高效剪切掉大量无用以及干扰数据,获得更加精准的搜索空间。基于此完成了理论以及4组实验分析,每组实验分别进行iDELOF算法与LOF、iForest、iNNE等多种典型算法的对比分析。结果表明:iDELOF算法通过拉大正异常点局部离群因子的差距,增强了对交叉异常以及低密度簇周围异常点的识别能力,提升了LOF的检测效果;iDELOF算法在识别轴平行异常方面与LOF同样具有明显优越性;iDELOF算法通过iKSSE所获数据子集显著小于原数据集,多数子集数据量小于原数据集的1%,因此iDELOF的时间空间复杂度显著降低,且原数据集数据量越大,优越性越明显,当数据量足够大时,iDELOF算法的运行时间将低于IF算法。  相似文献   

2.
针对大多数基于距离和密度的异常检测算法敏感于近邻参数k的问题,提出了一种鲁棒性异常检测标准——k-近邻域中心偏移异常因子(COOF).数据结点的k-近邻域中心位置会随着近邻参数k的变化而发生迁移,鉴于异常结点要比正常结点对k-近邻域中心位置偏移量的影响更大,通过累加因递增k而产生的偏移量来表征数据结点的异常程度,并在COOF基础上实现了鲁棒性的异常检测算法.通过综合数据和真实数据的实验仿真可知,COOF不仅对近邻参数k具有鲁棒性,而且相比基于距离的k最近邻算法、基于局部距离的异常因子和基于密度的局部异常因子具有更稳定且更准确的异常检测性能.  相似文献   

3.
孤立点检测是数据挖掘的重要分支之一,旨在发现一个数据集中与多数对象行为明显不同的一些对象.针对分类型矩阵数据,通过给出一种矩阵对象自身的内聚度和该矩阵对象与其他矩阵对象之间的耦合度,定义了矩阵对象的孤立因子,提出一种面向分类型矩阵数据的孤立点检测算法.在Market basket、Microsoft web和MovieLens真实数据集上的实验结果表明,与基于共同近邻(common-neighbor-based,CNB)算法、局部异常因子(local outlier factor,LOF)算法和基于信息熵(information entropy-based,IE-based)的算法相比,本算法能有效检测分类型矩阵数据中的孤立点.  相似文献   

4.
为了减少基于密度的异常点检测算法邻域查询操作的次数,同时避免ODBSN(Outlier Detection Basedon Square Neighborhood)中有意义异常点的丢失和稀疏聚类中的对象靠近稠密聚类时导致错误的异常点判断,提出了一种基于邻域和密度的异常点检测算法NDOD(Neighborhoodand Densitybased Outlier Detection)。NDOD吸收基于网格方法的思想,以广度优先扩张方形邻域,成倍地减少了邻域查询的次数,从而快速排除聚类点并克服基于网格方法中的“维灾”。新引入的基于邻域的局部异常因子代表候选异常点的异常程度,用于对候选异常点的精选,可避免ODBSN的缺陷,发现更多有意义的异常点。大规模和任意形状的二维空间数据的测试结果表明,该算法是可行有效的。  相似文献   

5.
为解决核模糊相似性度量谱聚类算法的样本点降噪问题,优化聚类效果和稳定性,本文从分析异常点分布特性出发,引入局部异常因子(LOF)算法,提出聚类中心候选对象的概念,过滤数据集的噪声数据,从而优化初始聚类中心的计算,突出正常样本点在聚类中心调整中的影响力,使聚类算法更易于得出准确的聚类结果. 同时提出一种局部过滤因子以修正相似性度量的方法,该方法通过放大正常数据之间的权值、缩小正常数据与噪声数据间的权值,使优化后的核模糊谱聚类算法大大降低对异常点的敏感度. 算法有效性实验和算法稳定性实验表明:该方法对相似性度量修正的有效性使核模糊谱聚类算法更为稳定和鲁棒.  相似文献   

6.
将数据点的k最近邻(k-NN)距离作为孤立程度指标能够有效地发现数据集中的孤立点,但是基本算法需要O(N2)次数据点间的距离计算,不适用于大数据集.为此提出了一种利用度量空间中三角不等式的快速挖掘算法--提前修剪(ADVP).ADVP利用每次k-NN查询中保存的近邻点到被查询点的距离计算出近邻点的孤立程度上界.孤立程度上界小于已发现最弱孤立点的孤立程度的数据点可被修剪而无须进行k-NN查询.基于抽样方法优化了搜索次序以提高修剪效果.同时将ADVP自然地扩展为增量式算法.在标准大数据集上的实验结果表明,ADVP和现有算法相比明显节省了计算开销,具有更好的伸缩性;增量式ADVP能够有效地处理新增数据.  相似文献   

7.
为了解决查询高维浮点型数据的近邻点需要计算代价昂贵的欧式距离,内存占用率较高的问题,将高维浮点型数据通过哈希映射函数映射为低维二进制编码,并保证同一样本点在两种空间内的归一化距离满足相似性。从而在实现近邻检索任务时,可使用代价较低的汉明距离替换欧式距离,达到降低检索复杂度的目的。为保证由哈希函数生成的二进制编码具有较优的近邻检索性能,本文首先基于查找机制得到数据集适应空间分布特性的二进制标签,然后利用SVM算法得到二进制标签的分类平面,并选择其中具有最大熵值的平面函数作为最终的哈希映射函数。为了进一步提高近邻检索性能,在训练阶段,初始化多种不同的编码中心点用以生成多重二进制标签,并得到与此相应的多重哈希函数和多重二进制编码。在检索过程中,建立了基于多重二进制编码的近邻检索体系,返回具有较小平均汉明距离的样本点作为最终检索结果。实验结果表明:与其他现存优秀算法相比,本文算法可以快速、有效地将浮点型数据转化为二进制编码,而且基于这些二进制编码的近邻检索性能较优。  相似文献   

8.
针对K-means异常检测算法检测性能低的问题,提出了一种结合信息熵与改进K-means算法的异常检测算法。该算法均匀地选出密度大于数据集平均密度的数据对象作为初始聚类中心,避免了初始中心的随机选择。在此基础上,引入了信息熵确定属性权重的方法来计算簇中数据点与该簇聚类中心的加权欧氏距离,通过对比簇中数据点的加权欧氏距离与该簇中所有数据点的平均加权欧氏距离来进行异常检测。实验表明,改进算法具有更高的检测率和更低的误检率,应用于电力负荷数据时检测率达到了90. 5%,能够有效地检测出异常的负荷数据。  相似文献   

9.
基于LLM的时间序列异常子序列检测算法   总被引:1,自引:0,他引:1  
为了提高时间序列中异常子序列检测算法的有效性,提出一种基于局部线性映射(Local Linear Mapping,LLM)的异常子序列检测算法.该算法将时间序列子序列通过其相邻子序列线性重构,很好地保留了时间序列子序列与其相邻子序列的相关性基于LLM的映射特性,使用两种异常指标(贡献因子,重构误差),并将其应用于ST东方(B)股票交易时间序列数据集的异常子序列检测中.实验结果表明,所提出的算法对异常子序列的异常检测具有很好的效果,有效提高了时间序列中异常子序列的检测效率.  相似文献   

10.
提出一种基于全局距离和类别信息的邻域保持嵌入算法。该方法在使用欧氏距离构造邻域图中,加入表征全局距离的全局因子和表示类别信息的函数项,全局因子可以使分布不均匀的样本变得平滑均匀,类别信息可以使同类样本点紧凑异类样本点疏离,通过提高所选邻近点的质量,优化数据的局部邻域,使降维后的数据具有更好的可分性。试验结果表明,该算法具有较高的准确率,优于传统的邻域保持嵌入算法。  相似文献   

11.
为解决k-means聚类算法中异常样本点破坏数据分布,致使簇中心发生较大偏差的问题,通过计算样本点与潜在簇中心的距离赋予样本点不同的权重,降低外点对数据分布的影响,并通过对权重向量施加0-norm范数在聚类模型中自适应移除外点. 采用交替最小化优化算法求解模型,在人工合成数据集和真实数据集上的实验表明,所提模型能有效降低外点对聚类的影响,可得到更有效的聚类效果.  相似文献   

12.
针对大数据集中存在海量数据,当数据规模扩大到一定程度时,离散点检测处理效率受到限制的问题,提出了一种基于分类和回归树(CART)决策树的网络大数据集离群点动态检测算法。首先,划分大数据集异常数据标准,利用方差衡量数据离散程度,使用支持向量机建立异常数据样本关联规则矩阵,明确大数据集异常数据范围,并通过动态网格划分策略降低离群点检测计算量;然后,运用CART决策树方法在分支节点采取布尔检测,将待检测数据统一拟作连续数据,升序排列训练数据集,计算数据最高信息增益,剪枝决策树直到没有非叶子节点可被替换,得到离群点动态检测结果。仿真结果证明,本文算法离群点检测准确率高、检测耗时短,具备显著的计算优势,能为大数据集的可靠应用提供积极帮助。  相似文献   

13.
针对实际数据存在不确定性的问题,提出了新的异常点检测方法。首先,定义了基于距离的不确定数据异常点检测概念;其次,设计了相应的不确定数据的异常点检测算法;再次,为降低算法时间复杂度,设计了剪枝策略;最后,实验分析说明了算法对不确定异常点检测的可行性与效率。  相似文献   

14.
针对局部线性嵌入(LLE)降维算法中邻域参数的人工设定及其全局性的缺陷,研究了聚类和降维的内在联系,提出了邻域参数的自适应选取策略,构建了一种聚类和降维的自适应局部线性嵌入(ALLE)算法,为每个样本点设计最佳的近邻搜索空间,自适应选取邻近点计算权值重建矩阵,基于类信息重新定义了重构误差函数。实验表明,新算法更能体现出数学上流形概念的局部坐标化本质,对不相关数据、冗余数据和噪声数据具有良好的鲁棒性,在实际识别问题中体现出优越的性能。  相似文献   

15.
连续压实质量检测参数单点异常值识别及处理   总被引:2,自引:0,他引:2  
为解决现行连续压实检测参数异常值识别及处理方法未考虑数据空间分布特征的问题,结合地统计学的半变异函数,提出基于自相关距离的近邻加权估计识别法,并定义单点异常值判定指标:异常指数αi,将异常值剔除后,利用普通克里金插值法对原异常值点处的数据进行估计,并通过沪昆高铁娄底试验段进行了连续压实质量检测试验验证.结果表明:当某点的异常指数αi0.2时,可判定其为单点异常值点;相比于现行的拉依达准则(3σ准则)识别方法,基于自相关距离的近邻加权估计法具有更高的准确度和识别效率;普通克里金插值法能够更为准确地估计单点异常值处的数据,降低数据的变异系数,提高连续压实质量检测参数的均匀性.  相似文献   

16.
为了准确检测网络中的流量异常情况,确保网络正常运行,提出基于特征符号表示的网络异常流量检测算法(NAAD-FD). NAAD-FD算法利用趋势转折点将网络流量数据按照基于趋势特征的符号表示方法进行转化,按照表示结果将原始数据转化为包含7项特征值的子序列,将7项特征值运用到提出的距离计算方法中;结合基于密度的算法,按照时间序列的网络异常流量定义执行异常检测. 通过对算法参数、仿真数据和真实网络流量数据的实验与分析可知,该算法具有较强的鲁棒性,验证了该算法的有效性和稳定性. 该算法通过降维简化表示,显著降低了算法的时间复杂度,有效加速异常检测过程约40%.  相似文献   

17.
为降低高光谱数据的信息冗余以提高其分类精度,采用加权距离度量测度来衡量样本间的相似度并进而选择近邻样本,提出一种加权近邻保持嵌入数据降维(WNPE)算法.加权距离的主要思想为根据数据点附近样本点的分布来自适应地决定距离函数,由此可以避免基于标准欧氏距离的近邻选择方法产生的数据冗余现象,从而更好地提取信息量大的光谱波段.CUPRITE矿区高光谱数据上的实验结果表明,与目前具有代表性的稀疏降维和基于流形学习的降维算法对比,WNPE能够有效提高高光谱数据的分类总精度和Kappa系数,分别达到了90.97%和0.878 6.  相似文献   

18.
特异性因子是数据的重要特征之一,常通过累计数据之间的差异得到,是面向特异性挖掘的核心概念,然而遇到了计算时间复杂度过高的问题。本文在分析已有特异性因子定义特点及其计算算法时间复杂度的基础上,指出应该基于采样的方法定义特异性因子。给出了一种基于采样的特异性因子定义,即采样特异性因子(sampled peculiarity factor,SPF),并提出了一种基于SPF的异常检测算法。在真实数据集上进行对比实验,结果表明:该算法在检测异常数据时,精度降低不明显,而运行效率得以较大提高,这说明基于采样定义特异性因子的方法可行和更为合理。本文还指出采用合适的采样方法可经进一步优化SPF的计算过程,进而节约占用CPU时间和满足实时性要求高的应用。  相似文献   

19.
针对多维数据集异常数据检测过程中未对多维数据集进行降维处理,导致多维数据集中异常数据检测精度较低、误检率较高、检测时间较长的问题,提出一种基于谱聚类的多维数据集异常数据检测方法。首先,通过拉普拉斯矩阵对多维数据集中的数据进行聚类,初步分类数据;其次,采用局部线性嵌入(LLE)算法对分类后的数据进行降维处理,用特征向量表达高维数据集,去除多维数据集中的冗余信息;最后,将处理后的多维数据集输入到支持向量机模型中,根据回归估计值的计算,完成异常数据的检测。实验结果表明,本文算法进行多维数据集中异常数据检测的精度更高、误检率更低,检测时间较短。  相似文献   

20.
工业品缺陷存在目标多尺度和随机性等特点,易导致现有的目标检测算法出现误检或漏检现象.基于卷积神经网络架构,提出一种高性能的工业缺陷视觉检测模型,记为SNDec(Siamese network detection).采用并行权重共享的孪生网络(Siamese network, SN)将工业缺陷转化为视觉差异特征.孪生网络由并行特征提取通道构成,并以两通道的差异特征作为输出,能够在抑制同类属性的前提下,最大程度地凸显缺陷特征.结合弱监督定位算法,所提模型能够在实现高精度识别的同时,获取工业缺陷发生位置.通过引入卷积块注意力机制(convolutional block attention module, CBAM),进一步提升了模型检测精度.在真实工况采集的注塑瓶盖数据集以及公开的MVTec数据集上,将当前主流的工业品缺陷视觉检测算法(ResNet 50、1-NN、U-Student和GANomaly)与SNDec模型进行比较.结果表明,SNDec模型取得了89.2%的分类准确率和90.1%的召回率,比ResNet50模型分别提高了5.7%和3.2%.仿真结果验证了基于差异特征实现工业缺陷检...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号