首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
孤立点检测是数据挖掘的一个重要内容,用来发掘数据集中显著不同干其他数据的对象。文章讨论了孤立点检测在零售业中的应用,并在基于距离和的孤立点检测算法的基础上,对孤立点的具体位置做了进一步的确定和分析。  相似文献   

2.
目的 提出一种聚类分析的新算法,解决聚类和同时检测孤立点的问题.方法 结合SNN算法和LOF算法给出新算法-SNN_LOF算法原理:(1)建立相似度矩阵;(2)去除噪声;(3)密度;(4)标记核心点;(5)计算每个数据点的lrd值;(6)由核心对象出发来形成一个聚;(7)取出被作为噪声的数据点;(8)计算被定义为噪声数据的LOF值,输出被视为孤立点的数据点.编制算法程序实现聚类和孤立点检测.结果 用CURE数据集,DBSCAN聚类算法和SNN聚类算法结果相同,时间消耗是很接近的.但当数据上升到10000以上时,SNN_LOF算法聚类的效率明显要高于DBSCAN算法,同时也检测到了孤立点.结论 SNN_LOF算法可以在聚类的同时发现孤立点.在大数据量时,SNN_LOF算法的聚类时间效率明显要高于DBSCAN算法.  相似文献   

3.
针对孤立点检测算法的一些弊端和煤矿安全预警系统的实际情况,选择一个基于距离和孤立点检测算法对瓦斯浓度的异常数据进行处理,分析出设备异常数据、噪声数据和瓦斯突出孤立点数据,通过挖掘孤立点来发现真实的潜在的信息,保证安全预警的准确性。  相似文献   

4.
本文利用AdaBoost算法对K-means算法进行提升,提出了一种基于AdaBoost算法的K-means遥感影像分类方法.其中,针对数据集分布调整的具体实施问题,设计了一种有效的加权变值方法.实验结果表明,融合提升后的分类结果较基本K-means在孤立点的消除和细长目标的识别提取上效果更加显著.  相似文献   

5.
提高低剂量CT图像的信噪比(SNR)是使低剂量CT获得有效临床应用的关键。本文对低剂量CT投影数据噪声研究发现,在投影图像的某些区域中可能会存在一些孤立的噪声点,滤除这些孤立点后的投影数据近似服从非平稳高斯噪声分布。由此,提出一种低剂量CT图像降噪算法,包括孤立点检测与滤波(IDE),基于最大后验概率(MAP)的高斯噪声滤波及FBP重建过程。计算机仿真以及真实数据实验表明,本文提出的去噪算法获得的重建CT图像,SNR及视觉效果均有明显的提高。  相似文献   

6.
将数据点的k最近邻(k-NN)距离作为孤立程度指标能够有效地发现数据集中的孤立点,但是基本算法需要O(N2)次数据点间的距离计算,不适用于大数据集.为此提出了一种利用度量空间中三角不等式的快速挖掘算法--提前修剪(ADVP).ADVP利用每次k-NN查询中保存的近邻点到被查询点的距离计算出近邻点的孤立程度上界.孤立程度上界小于已发现最弱孤立点的孤立程度的数据点可被修剪而无须进行k-NN查询.基于抽样方法优化了搜索次序以提高修剪效果.同时将ADVP自然地扩展为增量式算法.在标准大数据集上的实验结果表明,ADVP和现有算法相比明显节省了计算开销,具有更好的伸缩性;增量式ADVP能够有效地处理新增数据.  相似文献   

7.

基于CLOF的乙烯裂解炉温度测量数据异常值检测

辛一丹1,胡绍林1,2,陈文卓1,宋鹤1

(1. 西安理工大学 自动化与信息工程学院,西安710048;

2. 广东石油化工学院 自动化学院石油化工设备与故障诊断省级重点实验室,广东 茂名525000)

摘要:

烟道温度是表征乙烯裂解炉燃烧状态的重要指标之一,温度采样数据异常值会直接影响裂解炉炉管结焦诊断。使用常规异常检测算法如孤立森林算法对烟道温度测量数据进行异常值检测无法检测出所有的异常值。为提高检测准确率同时降低运算量,本文提出一种基于CLOF(Clipping Local Outlier Factor, CLOF)算法的烟道测量数据异常值检测算法,该算法将聚类剪枝与离群因子检测算法相结合,在原始数据中筛选出异常值候选集,对异常值候选集中的数据点进行离群因子检测,实现了对裂解炉烟道温度测量数据高准确率、高效率异常值检测。采用某石化工厂乙烯裂解炉烟道温度实测数据,根据实验效果对CLOF算法中主要参数进行选定,对比分析孤立森林算法、常规LOF算法与CLOF算法异常值检测效果。结果显示,CLOF算法中合适的裁剪系数能显著提高检测效率与检测准确度,相比孤立森林算法的异常值检测结果,CLOF检测结果的准确率大幅提高,数据计算量也显著减少。

关键词:温度数据;异常检测;乙烯裂解炉;聚类;数据减枝;局部离群因子

  相似文献   

8.
ODA-IPNMF: 一种在线全网络流量异常检测方法   总被引:2,自引:0,他引:2  
为实时、高效地检测网络流量异常,提出一种基于增量投影非负矩阵分解(IPNMF)的全网络流量异常检测方法(ODA-IPNMF).提出一种增量投影非负矩阵算法,该算法不仅具有与PCA相同的表达形式,还能以增量的方式构建正常子空间和异常子空间,进而利用Shewhart控制图实现全网络流量异常的在线检测.理论分析表明,该方法计算开销远小于NMF-NAD,具有更高的实用价值;模拟网络数据以及实测网络数据实验表明,基于NMF异常检测方法(NMF-NAD和ODAIPNMF)的检测性能优于PCA方法;本文所提ODA-IPNMF与NMF-NAD网络异常检测效果相当,且可在线检测网络异常.  相似文献   

9.
异常点检测是数据挖掘领域的一个重要研究方向,传统的基于近邻和局部异常因子的异常点检测算法存在计算复杂度高和误检率高的缺陷.为解决该缺陷,提出一种基于观测点机制的异常点检测(observation-point mechanism-based outlier detection,OPOD)算法.首先在原始样本空间中随机放置若干观测点,然后计算观测点与样本点之间的距离,将原始数据转换为与观测点相对应的距离数据,再估计距离数据的概率密度函数,进而计算距离数据出现的概率值,最后通过对多个观测点距离数据概率值的融合最终确定原始样本点中的异常点.基于PyCharm平台,采用sklearn. datasets的make_blobs函数生成仿真数据集,分别测试不同规模和不同维度数据集对OPOD算法性能的影响,并对比了OPOD算法、基于局部异常因子的异常点检测(local outlier factor-based outlier detection,LOFOD)算法和基于近邻的异常点检测(nearest neighbor-based outlier detection,NNOD)算法的运行时间、异常点召回...  相似文献   

10.
针对UUV避碰声呐探测障碍物过程中数据的弱可观问题,提出了基于支持向量聚类的障碍物孤立点惰性检测方法.利用基于支持向量的聚类算法将声呐探测的数据划分为噪声点,低威胁障碍物和威胁障碍物.由于噪声点和低威胁障碍物不会对UUV的航行造成威胁,所以根据其分布的随机性特点将其作为孤立点进行检测.为了避免探测数据的过早判定导致的对障碍物的过度估计及误判,提出了惰性算法来降低由原始数据的弱可观性和声呐的过度敏感性所带来的障碍物误判的概率.通过仿真试验和海试数据验证表明了该方法对障碍物数据中孤立点检测的有效性.  相似文献   

11.
提出了一种基于空间相邻关系的点对象离群检测算法SAOD(Space Adjacent Relations Based GML Point Outlier Detection Algorithm).利用空间相邻关系作为空间点对象的相似度度量准则,得到相似度矩阵,从而挖掘GML中的离群点对象.实验结果表明,SAOD算法能有效地检测GML中的离群点对象并且具有较高的效率.  相似文献   

12.
分类算法是时间序列数据挖掘中极为重要的任务和技术,该文提出一种基于簇中心群的时间序列数据分类方法。该方法根据时间序列训练数据集中的类别标签进行簇划分,利用近邻传播算法分别对每个簇进行中心代表点选择,构造出各代表点的代表对象集;然后借助基于动态时间弯曲的均值中心方法对各代表对象集实现中心群计算,结合改进后的K近邻算法实现时间序列数据的分类。数值实验结果表明,与传统方法相比,新方法具有更好的分类效果和计算性能。  相似文献   

13.
面向对象分类过程,首先对图像进行分割得到对象,然后将对象进行分类,分割效果直接影响最终分类精度.针对这一问题,提出一种改进的全极化合成孔径雷达(SAR)影像面向对象分类方法,在分类时首先通过计算各对象内部像元类别比例对对象进行判断,若所有类别比例均没有达到某个阈值,则认为此对象存在分割偏差,对其进行基于像元的分类,反之则进行面向对象分类,最后整合像元级和对象级分类结果.分类算法采用改进分类器动态选择法(ICDS)对差异性较大的3个基分类器Wishart、核-KNN和Wishart-KNN进行决策级融合.以AIRSAR,EMISAR的全极化SAR影像为数据进行分类实验.结果表明:改进算法充分利用了对象级和像素级分类的优点,从而得到高精度的分类结果,该算法具有良好的应用前景.  相似文献   

14.
提出一种基于模糊核聚类的鲁棒性基础矩阵估计算法。算法提取匹配点的余差作为特征,利用核函数将一维非线性可分特征映射到高维可分空间,在高维特征空间利用模糊均值分类将匹配点分为内点集和外点集;用高斯函数分别对已分类的内点集和外点集进行建模,定义并计算两类高斯分布的可分性判定值;判断该判定值是否收敛,如未收敛则以内点集作为初始值重新迭代计算。模拟数据和真实数据的基础矩阵估计实验表明,本文算法在计算效率和精度上均优于经典的随机抽样一致性算法。  相似文献   

15.
在粗糙集值约简算法中,需要对决策表的属性值进行分类.文中基于二进制可辨矩阵和为同一决策类的不同对象建立的二进制矩阵,提出一种简化的属性值分类方法,该方法能实现决策表属性值快速分类.最后通过实例分析验证了该方法的可行性和有效性.  相似文献   

16.
为了降低谱聚类算法尺度参数对分类结果的影响,避免Nystrm逼近导致的分类结果不稳定,提出了一种基于谱聚类集成的极化合成孔径雷达(SAR)地物分类方法.首先,利用像素间的空间关系和极化信息,将基于相干矩阵Wishart距离的相似性测度和基于极化特征矢量欧氏距离的相似性测度相结合,引入马尔可夫随机场势函数,构造谱聚类的相似性矩阵;然后,采用基于Nystrm逼近的谱聚类实现极化SAR数据的单次谱分类;最后,采用集成策略完成对极化SAR图像的地物分类.实验结果表明,该算法提高了分类精度,区域一致性保持较好,且分类结果稳定.  相似文献   

17.
针对Keyhole标记语言(KML)文件的信息隐藏技术,提出了一种基于KML文件的信息隐藏算法.分析了KML文件区别于扩展标记语言文件的特点,介绍了基于KML文件的信息隐藏算法现状,提出了在KML文件中基于经纬度坐标值的信息嵌入、信息检测算法.该算法通过统计不重要位置的数值来进行分类,再通过将信息隐藏在统计位置后的数位来嵌入信息.检测算法与嵌入算法相同,均通过分类来提取信息.实验结果表明,该算法对载体数据增删攻击和旋转攻击的抵抗性具有鲁棒性.  相似文献   

18.
聚类效果往往依赖于密度和相似度的定义,并且当数据的维增加时,其复杂度也随之增加。该文基于共享型最近邻居聚类算法SNN,提出了一种改进的共享型最近邻居聚类算法RSNN,并将RSNN应用于高速公路交通数据集上,解决了SNN算法在"去噪"、孤立点和代表点的判断、聚类效果等方面的不足之处。实验结果表明,RSNN算法比SNN算法在时空数据集上具有更好的聚类效果。  相似文献   

19.
为了使孤立点检测更为自动化,减少用户对参数选择的困难,提出了平均密度的定义,并给出基于平均密度的孤立点检测方法。该方法提出了孤立点对象的密度要小于数据集的平均密度;非孤立点对象的密度不应因为封闭区间的收缩而减少。采用企鹅图像边缘检测对该方法进行验证,实验结果表明,该方法能够有效地检测出图像边缘孤立点,同时简化了孤立点检测时对用户输入参数的要求。  相似文献   

20.
传统的入侵检测机器学习算法,面对有差异的新旧数据尤其是未知的攻击行为,会出现检测准确率较低、漏检率较高的问题.为此,提出了一种将人工蜂群(ABC)算法、XGBoost模型与迁移学习相结合的ABC-XGBTrl算法.首先通过使用少量有标签的新数据训练初始分类模型,然后将有标签的旧数据中分类正确的部分与少量有标签的新数据合并,用于训练新的迁移分类模型,最终用来检测未使用的新数据.迁移分类模型中的分类算法使用XGBoost,并利用人工蜂群算法优化XG-Boost的参数.采用NSL-KDD数据集进行了测试,结果表明,这种方法比现有的一些经典集成学习算法具有更高的检测准确率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号