首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
基于近邻传播与密度相融合的进化数据流聚类算法   总被引:3,自引:0,他引:3  
邢长征  刘剑 《计算机应用》2015,35(7):1927-1932
针对目前数据流离群点不能很好地被处理、数据流聚类效率较低以及对数据流的动态变化不能实时检测等问题,提出一种基于近邻传播与密度相融合的进化数据流聚类算法(I-APDenStream)。此算法使用传统的两阶段处理模型,即在线与离线聚类两部分。不仅引进了能够体现数据流动态变化的微簇衰减密度以及在线动态维护微簇的删减机制,而且在对模型采用扩展的加权近邻传播(WAP)聚类进行模型重建时,还引进了异常点检测删除机制。通过在两种类型数据集上的实验结果表明,所提算法的聚类准确率基本能保持在95%以上,其纯度对比实验等其他相关测试都有较好结果,能够高实效、高质量、高效率地处理数据流数据聚类。  相似文献   

2.

针对传统数据流聚类算法聚类信息损失大、不准确的缺点, 提出一种基于维度最大熵的数据流聚类算法. 采用动态数据直方图将数据维度划分为不同的维度组, 计算各维度最大熵划分维度空间簇, 将相同维度簇的数据聚集成微簇, 通过比较微簇的信息熵大小及其分布特点实现数据流的异常检测. 该方法提升了聚类速度, 克服了传统数据流聚类算法信息丢失的缺点. 实验结果表明, 所提出算法能够提高数据流异常检测的准确性和有效性.

  相似文献   

3.
在不确定数据流聚类算法的研究中,位置不确定性是一种新的不确定数据类型.已有的不确定数据模型不能很好地描述和处理位置不确定数据.鉴于此,在提出基于联系数的位置不确定数据模型、联系距离函数、微簇密度可达性等主要概念的基础上,提出了一种联系数表达的位置不确定数据流聚类算法--UCNStream.数据流聚类算法采用在线/离线两级处理框架,使用基于密度峰值思想的初始化策略,定义了新的可动态维护的微簇聚类特征向量.利用衰减函数和微簇删除机制对微簇进行在线维护,准确地反映了数据流的演化过程.最后,分析了算法的计算复杂性,并通过对实际数据集上的实验与几种优秀的聚类算法进行了比较,实验结果表明,UCNStream算法具有较高的聚类精度和处理效率.  相似文献   

4.
处理数据流的能力成为入侵检测系统面临的挑战,针对这一现状提出DC-stream算法,该算法采用在线离线两阶段聚类,设计了一套缓冲式异常点处理机制,在保证数据流聚类效率和精度的同时,能够过滤噪音数据。实验结果证明,该算法能在海量的网络数据流中及时有效地发现入侵行为,并具有较强的抗干扰能力。  相似文献   

5.
针对桥梁健康监测系统中的数据流异常问题,提出一种基于微簇的数据流异常检测框架。首先对原始采集信号进行数据合并、缺失值填补等预处理;由于监测系统各传感器测点数据间存在一定的关联,利用主成分分析法提取桥梁主要特征参数,去除重叠信息;利用密度聚类算法把数据流转换成微簇,进行微簇的实时生成,并根据微簇更新机制进行微簇维护,对数据流进行分类。通过对湖北某大桥监测数据的实验表明,该方法具有较好的异常识别能力,可以自适应概念漂移现象。  相似文献   

6.
基于混合差分进化的滑动窗口数据流聚类算法研究   总被引:1,自引:0,他引:1  
针对传统的基于滑动窗口的数据流聚类算法存在的算法执行效率低、聚类质量较差等缺点,提出了一种基于混合差分进化的滑动窗口数据流聚类算法。该算法将数据流聚类过程分为两个部分:在线的时序窗口数据信息微簇特征向量生成和离线阶段的聚类优化。对在线生成的微簇进行微簇集合的更新与维护,利用改进的粒子群算法对离线的微簇数据信息进行适应度值的计算,将种群分为优势子种群和普通子种群,然后利用个体适应度值和平均适应度值的判别来生成当前个体环境的最优候选解,并迭代地对个体进行进化,输出具有最优适应度值的聚类集合,完成对数据流的聚类。仿真实验结果表明,算法在对数据流执行聚类时具有较高的执行效率,并且最后聚类的质量较好,算法实用性强。  相似文献   

7.
基于密度与近邻传播的数据流聚类算法   总被引:1,自引:0,他引:1  
针对现有算法聚类精度不高、处理离群点能力较差以及不能实时检测数据流变化的缺陷,提出一种基于密度与近邻传播融合的数据流聚类算法.该算法采用在线/离线两阶段处理框架,通过引 入微簇衰减密度来精确反映数据流的演化信息,并采用在线动态维护和删减微簇机制,使算法模型更 符合原始数据流的内在特性.同时,当模型中检测到新的类模式出现时,采用一种改进的加权近邻传播聚类(Weighted and hierarchical affinity propagation,WAP)算法对模 型进行重建,因而能够实时检测到数据流的变化,并能给出任意时间的聚类结果.在真实数据集和人工 数据集上的实验表明,该算法具有良好的适用性、有效性和可扩展性,能够取得较好的聚类效果.  相似文献   

8.
为提高数据流聚类的精度和时效性,提出一种具有时态特征与近邻传播思想的高效数据流聚类算法(TCAPStream).该算法利用改进的WAP将新检测到的类模式合并到聚类模型中,同时利用微簇时态密度表征数据流的时态演化特征,并提出在线动态删除机制对微簇进行维护,使算法模型既能体现数据流的时态特征,又能反映数据流的分布特性,得到更精确的聚类结果.实验结果表明,该算法在多个人工数据集和真实数据集上不仅具有良好的聚类效果,而且具有较好的伸缩性和可扩展性.  相似文献   

9.
李娜  邢长征 《计算机应用》2011,31(5):1363-1366
为了提高数据流的聚类质量和效率,采用等时间跨度滑动窗口技术,然后利用改进的微簇结构保存数据流的概要信息,最后利用微簇删除策略,定期删除过期、孤立微簇。基于真实数据集与人工数据集的实验表明:与传统基于界标模型的聚类算法相比,该算法可获得较好的效率、较小的内存开销和快速的数据处理能力。  相似文献   

10.
网络入侵检测算法是网络安全领域研究的热点和难点内容之一。目前许多算法如KNN、TCMKNN等处理的训练样本集都比较小,在处理大样本集时仍然非常耗时。因此,提出了一种适应大样本集的网络入侵检测算法(Cluster-KNN算法)。该算法分为离线数据预处理(数据索引)和在线实时分类两个阶段:离线预处理阶段建立大样本集的聚簇索引;在线实时分类阶段则利用聚簇索引搜索得到近邻,最终采用KNN算法得出分类结果。实验结果表明:与传统的KNN算法相比,Cluster-KNN算法在分类阶段具有很高的时间效率,同时在准确率、误报率和漏报率方面与其它同领域入侵检测方法相比也具有相当的优势。Cluster-KNN能够很好地区分异常和正常场景,且在线分类速度快,因而更适用于现实的网络应用环境。  相似文献   

11.
鉴于现有算法缺乏从时序演化角度解决不确定数据流聚类问题,提出基于近邻传播的不确定数据流演化聚类算法。考虑不确定数据流在线形成微簇时的变化因素对离线聚类的影响,提出不确定微簇变化率的概念。从不确定数据流演化的角度衡量微簇之间的相似程度,提出不确定微簇关联度的概念,并以此为基础构造不确定相似度矩阵,结合近邻传播思想实现不确定数据流演化聚类。通过实验证明文中算法的有效性和良好的聚类效果。  相似文献   

12.
吴德鹏  柳毅 《计算机应用研究》2020,37(11):3396-3400
针对神经网络在线入侵检测模型训练时易出现过拟合和泛化能力弱的问题,提出基于改进的集成降噪自编码在线入侵检测模型以区分正常和异常的流量模式。降噪自编码减少了训练数据与测试数据的差别,缓解过拟合问题,提高模型的性能。同时阈值的选择方法直接影响网络入侵检测模型检测精度,该阈值采用随机方法确定,无须于离线入侵检测,不需通过完整的数据集即可选择最佳的阈值。采用CICIDS2017中的异常的数据流对模型进行测试,准确率分别为90.19%。结果表明,作为一种在线检测模型,提出的异常检测模型优于其他异常检测方法。  相似文献   

13.
随着大数据应用的普及,网络攻击日益严重并已成为主要的网络安全问题。针对大数据环境下的网络攻击检测问题,设计一种融合聚类和智能蝙蝠算法(DEBA)的网络攻击检测系统。该系统将K-means算法与蝙蝠算法相结合进行数据流分类,实现了对异常数据的高效检测。实验结果显示,该系统的聚类准确率、算法耗时和误报率方面明显优于基于传统蝙蝠算法的K-means算法和单独K-means算法的网络异常数据检测方法。  相似文献   

14.
Novelty detection, also referred to as one-class classification, is the process of detecting ‘abnormal’ behavior in a system by learning the ‘normal’ behavior. Novelty detection has been of particular interest to researchers in domains where it is difficult or expensive to find examples of abnormal behavior (such as in medical/equipment diagnosis and IT network surveillance). Effective representation of normal data is of primary interest in pursuing one-class classification. While the literature offers several methods for one-class classification, very few methods can support representation of non-stationary classes without making stringent assumptions about the class distribution. This paper proposes a one-class classification method for non-stationary classes using a modified support vector machine and an efficient online version for reducing computational time. The presented method is applied to several simulated datasets and actual data from a drilling machine. In addition, we present comparison results with other methods that demonstrate its superior performance.  相似文献   

15.
针对计算机网络访问请求具有实时到达以及动态变化的特点,为了实时检测网络入侵,并且适应网络访问数据的动态变化,提出一个基于数据流的网络入侵实时检测框架。首先,将误用检测模式与异常检测模式相结合,通过初始聚类建立由正常模式和异常模式构成的知识库;其次,采用数据点与数据簇之间的不相似性来度量网络访问数据与正常模式和异常模式的相似性,从而判定网络访问数据的合法性;最后,当网络访问数据流发生演化时,通过重新聚类来更新知识库以反映网络访问的最近状态。在入侵检测数据集KDDCup99上进行实验,当初始聚类的样本数为10000,缓冲区聚类的样本数为10000,调节系数为0.9时,召回率达到91.92%,误报率达到0.58%,接近传统非实时检测模式的结果,但整个学习和检测过程只需扫描网络访问数据一次,并引入了知识库的更新机制,在入侵检测的实时性和适应性方面更具有优势。  相似文献   

16.
针对深度学习方法运用于入侵检测时需要大量标注数据集和难以实时检测的缺陷,利用网络流量中正常数据多于异常数据的一般规律,提出一种结合集成K-means聚类和自编码器的EKM-AE(ensemble K-means and autoencoder)入侵检测方法.首先通过集成K-means聚类从实时抓取的网络流量中得出正常样例,用于训练自编码器,然后由完成训练的自编码器执行入侵检测.在虚拟局域网主机环境下进行了入侵检测实验,结果表明,在绝大多数实际应用场景(正常流量多于异常流量)下该方法具有良好的检测性能,且具有全过程无监督、可实时在线检测的优点,对主机网络安全有良好的提升作用.  相似文献   

17.
异构复杂信息网络下的异常数据检测算法   总被引:1,自引:0,他引:1  
穆丽文  彭贤博  黄岚 《计算机科学》2015,42(11):134-137
异构复杂信息网络承载着不同的协议和网络信道,并通过云储存实现资源调度,由此产生的异常数据会给网络信息空间带来安全威胁和存储开销,所以需要进行异常数据准确检测。传统的检测算法采用简化梯度算法进行异常数据检测,不能有效去除多个已知干扰频率成分的异常数据,检测性能不好。提出一种基于自适应陷波级联模型的异常数据检测算法。构建异构复杂信息网络系统模型,采用固有模态分解把异常数据信号解析模型分解为多个窄带信号,设计二阶格型陷波器结构,用多个固定陷波器级联抑制干扰成份,采用匹配投影法寻求优化特征解,找出所有匹配的特征点对,从而实现异常数据检测的改进。仿真实验表明,采用该算法进行异常数据检测时,信号幅值大于干扰噪声数据幅值;该算法提高了检测性能,具有较好的抗干扰性能。  相似文献   

18.
5G通讯技术的迅猛发展使工业物联网得到了全面提升, 工业物联网数据规模将越来越大、数据维度也越来越高, 如何高效利用流聚类进行工业物联网数据挖掘工作是一个亟需解决的问题. 提出了一种基于工业物联网数据流自适应聚类方法. 该算法利用微簇之间的高密性, 计算各微簇节点的局部密度峰值以自适应产生宏簇数; 采用引力能量函数对微...  相似文献   

19.
轨迹大数据异常检测:研究进展及系统框架   总被引:1,自引:0,他引:1  
定位技术与普适计算的蓬勃发展催生了轨迹大数据,轨迹大数据表现为定位设备所产生的大规模高速数据流。及时、有效地对以数据流形式出现的轨迹大数据进行分析处理,可以发现隐含在轨迹数据中的异常现象,从而服务于城市规划、交通管理、安全管控等应用。受限于轨迹大数据固有的不确定性、无限性、时变进化性、稀疏性和偏态分布性等特征,传统的异常检测技术不能直接应用于轨迹大数据的异常检测。由于静态轨迹数据集的异常检测方法通常假定数据分布先验已知,忽视了轨迹数据的时间特征,也不能评测轨迹大数据中动态演化的异常行为。面对轨迹大数据低劣的数据质量和快速的数据更新,需要利用有限的系统资源处理因时变带来的概念漂移,实时检测多样化的轨迹异常,分析轨迹异常间的因果联系,继而识别更大时空区域内进化的、关联的轨迹异常,这是轨迹大数据异常检测的核心研究内容。此外,融合与位置服务应用相关的多源异质数据,剖析异常轨迹的起因以及其隐含的异常事件,也是轨迹大数据异常检测当下亟待研究的问题。为解决上述问题,对轨迹异常检测技术的研究成果进行了分类总结。针对现有轨迹异常检测方法的局限性,提出了轨迹大数据异常检测的系统架构。最后,在面向轨迹流的在线异常检测、轨迹异常的演化分析、轨迹异常检测系统的基准评测、异常检测结果语义分析的数据融合、以及轨迹异常检测的可视化技术等方面探讨了今后的研究工作。  相似文献   

20.
伴随大数据的快速发展,数据分析和知识发现成为研究热点,异常数据检测是数据质量提升的关键。基于序列集成学习的异常数据检测方法在面向高维数值型数据时可能因为噪声数据和维数过多导致检测精度下降。本文提出一种基于弹性网络的多层次序列集成学习的高维数值型异常数据检测方法,其中每层包含异常数据候选集模块、弹性网络降维模块和数据异常打分模块共3个模块。首先,异常数据候选集选择模块根据异常分数选择出一部分可能的异常数据;然后,弹性网络根据异常数据候选集和异常分数对高维数据进行特征选择,选择出与异常分数最相关的特征;最后,利用选择出来的特征对数据再次进行异常打分。每层异常数据候选集选择模块中的阈值设置为不同的值,循环地执行每一层,直到当前弹性网络的均方误差大于上一次的均方误差或者当前的检测精度小于初始的检测精度。在实验阶段,使用ODDS提供的高维异常数据检测数据集并根据检测精度、提取特征数、收敛速度等指标对本文方法的性能进行了测试。结果表明本文方法不仅能够提高对高维数值型异常数据的检测精度,而且能够有效地降低噪声对检测结果的影响。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号