首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 204 毫秒
1.
基于近邻传播与密度相融合的进化数据流聚类算法   总被引:3,自引:0,他引:3  
邢长征  刘剑 《计算机应用》2015,35(7):1927-1932
针对目前数据流离群点不能很好地被处理、数据流聚类效率较低以及对数据流的动态变化不能实时检测等问题,提出一种基于近邻传播与密度相融合的进化数据流聚类算法(I-APDenStream)。此算法使用传统的两阶段处理模型,即在线与离线聚类两部分。不仅引进了能够体现数据流动态变化的微簇衰减密度以及在线动态维护微簇的删减机制,而且在对模型采用扩展的加权近邻传播(WAP)聚类进行模型重建时,还引进了异常点检测删除机制。通过在两种类型数据集上的实验结果表明,所提算法的聚类准确率基本能保持在95%以上,其纯度对比实验等其他相关测试都有较好结果,能够高实效、高质量、高效率地处理数据流数据聚类。  相似文献   

2.
基于密度与近邻传播的数据流聚类算法   总被引:1,自引:0,他引:1  
针对现有算法聚类精度不高、处理离群点能力较差以及不能实时检测数据流变化的缺陷,提出一种基于密度与近邻传播融合的数据流聚类算法.该算法采用在线/离线两阶段处理框架,通过引 入微簇衰减密度来精确反映数据流的演化信息,并采用在线动态维护和删减微簇机制,使算法模型更 符合原始数据流的内在特性.同时,当模型中检测到新的类模式出现时,采用一种改进的加权近邻传播聚类(Weighted and hierarchical affinity propagation,WAP)算法对模 型进行重建,因而能够实时检测到数据流的变化,并能给出任意时间的聚类结果.在真实数据集和人工 数据集上的实验表明,该算法具有良好的适用性、有效性和可扩展性,能够取得较好的聚类效果.  相似文献   

3.
针对分布式数据流聚类算法存在的聚类质量不高、通信代价大的问题,提出了密度和代表点聚类思想相结合的分布式数据流聚类算法。该算法的局部站点采用近邻传播聚类,引入了类簇代表点的概念来描述局部分布的概要信息,全局站点采用基于改进的密度聚类算法合并局部站点上传的概要数据结构进而获得全局模型。仿真实验结果表明,所提算法能明显提高分布式环境下数据流的聚类质量,同时算法使用类簇代表点能够发现不同形状的聚簇并显著降低数据传输量。  相似文献   

4.
面向大规模数据集的近邻传播聚类   总被引:1,自引:0,他引:1       下载免费PDF全文
近邻传播聚类在计算过程中需构建相似度矩阵,该矩阵的规模随样本数急剧增长,限制了算法在大规模数据集上的直接应用。为此,提出一种改进的近邻传播聚类算法,利用数据点的局部分布,借鉴半监督聚类的思想构造稀疏化的相似度矩阵,并对聚类结果中的簇代表点再次或多次聚类,直至得到合适的簇划分。实验结果表明,该算法在处理能力和运算速度上优于原算法。  相似文献   

5.
近邻传播算法是一种新的聚类算法,在许多领域有较好的应用.近邻传播算法倾向于生成多于真实数目的类,且先验值P对该算法结果优劣有很大影响.故提出了一种有效的近邻传播的层次优化算法——CAP算法.CAP算法利用CURE算法对近邻传播算法的结果进行优化,是一种半监督的聚类算法.在5个UCI数据集上进行了实验验证,结果显示该算法均取得比近邻传播算法更好的聚类结果质量且使得生成的类的个数更接近真实类个数;同时与K-means、Spectral、CURE算法进行比较,结果表明CAP算法能取得更优的结果.  相似文献   

6.
为提高数据流聚类的精度和时效性,提出一种具有时态特征与近邻传播思想的高效数据流聚类算法(TCAPStream).该算法利用改进的WAP将新检测到的类模式合并到聚类模型中,同时利用微簇时态密度表征数据流的时态演化特征,并提出在线动态删除机制对微簇进行维护,使算法模型既能体现数据流的时态特征,又能反映数据流的分布特性,得到更精确的聚类结果.实验结果表明,该算法在多个人工数据集和真实数据集上不仅具有良好的聚类效果,而且具有较好的伸缩性和可扩展性.  相似文献   

7.
针对受工况、光照的限制,现场采集的含有直接零件标志(DPM)条码的图像经常亮度不一,并伴有变形等情况,导致因定位不准确而识别DPM条码困难,提出一种改进的SUSAN角点检测和半监督机制下的近邻传播聚类相结合的DPM条码定位算法.首先针对DPM条码图像区域多直角的特点对检测角点的SUSAN算法进行改进,使其适应由于光照问题导致灰度不均的DPM条码区域,具有检出变形角点的能力,同时极大程度地抑制背景上及条码区域中的伪角点;以此为基础,使用近邻传播聚类算法对角点进行聚类,并将DPM条码区域中角点的聚集特点转化为监督规则,形成半监督机制下的角点近邻传播聚类.实验结果表明,该算法检测出的角点对DPM条码区域的示意性强、效率高,基于角点聚类结果的DPM条码定位比其他算法精准、快速.  相似文献   

8.
作为当前数据流挖掘研究的热点之一,多数据流聚类要求在跟踪多个数据流随时间演化的同时按其相似程度进行划分。文中提出一种基于灰关联分析并结合近邻传播聚类的多数据流聚类方法。该方法基于一种灰关联度,将多个数据流的原始数据压缩成可增量更新的灰关联概要信息,并根据该信息计算多个数据流之间的灰关联度作为其相似性测度,最后应用近邻传播聚类算法生成聚类结果。在真实数据集上的对比实验证明该方法的有效性。  相似文献   

9.
近邻传播半监督聚类算法的分析与改进   总被引:1,自引:0,他引:1       下载免费PDF全文
近邻传播半监督聚类算法SAP在小数据集上运行时可能会出现并列类代表点的现象,当出现并列类代表点时,依据决策矩阵E对角线上数值大于0确定的类代表点并不是全部的类代表点。分析了近邻传播算法的性质,找出了并列类代表点的出现原因,并针对此现象给出了改进算法。  相似文献   

10.
现有的数据流聚类算法大都只能处理单一数值属性的数据,不能应对同时包含数值属性与分类属性特征的数据,且已存在的混合属性数据流聚类算法在对数据的标准化处理和聚类上还有很大的改进之处,为此,提出二重k近邻混合属性数据流聚类算法.该算法采用CluStream算法的在线、离线框架,并提出了混合属性数据流下三步聚类的思想.算法先运用二重k近邻和改进的维度距离生成微聚类,然后利用动态标准化数据方法和基于均值的余弦模型生成初始宏聚类,最后利用基于均值的余弦模型和先验聚类结果进行宏聚类优化.实验结果表明,所提出的算法具有良好的聚类质量及可扩展性.  相似文献   

11.
进化数据流中基于密度的聚类算法   总被引:1,自引:1,他引:0  
分析当前数据流聚类算法的优点及不足,提出一种新的进化数据流中基于密度的聚类算法——Sdstream算法,该算法能够分析并处理大规模进化数据流,利用真实数据集和仿真数据集对其进行性能测试,实验结果表明,该算法具有良好的适用性、有效性和可扩展性,能够取得较高的聚类效果。  相似文献   

12.
高维数据流聚类及其演化分析研究   总被引:5,自引:0,他引:5  
基于数据流数据的聚类分析算法已成为研究的热点.提出一种基于子空间的高维数据流聚类及演化分析算法CAStream,该算法对数据空间进行网格化,采用近似的方法记录网格单元的统计信息,并将潜在密集网格单元快照以改进的金字塔时间结构进行存储,最后采用深度优先搜索方法进行聚类及其演化分析.CAStream能够有效处理高雏数据流,并能发现任意形状分布的聚类.基于真实数据集与仿真数据集的实验表明,算法具有良好的适用性和有效性.  相似文献   

13.
Clustering entities into dense parts is an important issue in social network analysis. Real social networks usually evolve over time and it remains a problem to efficiently cluster dynamic social networks. In this paper, a dynamic social network is modeled as an initial graph with an infinite change stream, called change stream model, which naturally eliminates the parameter setting problem of snapshot graph model. Based on the change stream model, the incremental version of a well known k-clique clustering problem is studied and incremental k-clique clustering algorithms are proposed based on local DFS (depth first search) forest updating technique. It is theoretically proved that the proposed algorithms outperform corresponding static ones and incremental spectral clustering algorithm in terms of time complexity. The practical performances of our algorithms are extensively evaluated and compared with the baseline algorithms on ENRON and DBLP datasets. Experimental results show that incremental k-clique clustering algorithms are much more efficient than corresponding static ones, and have no accumulating errors that incremental spectral clustering algorithm has and can capture the evolving details of the clusters that snapshot graph model based algorithms miss.  相似文献   

14.
We propose a new algorithm to cluster multiple and parallel data streams using spectral component similarity analysis, a new similarity metric. This new algorithm can effectively cluster data streams that show similar behaviour to each other but with unknown time delays. The algorithm performs auto-regressive modelling to measure the lag correlation between the data streams and uses it as the distance metric for clustering. The algorithm uses a sliding window model to continuously report the most recent clustering results and to dynamically adjust the number of clusters. Our experimental results on real and synthetic datasets show that our algorithm has better clustering quality, efficiency, and stability than other existing methods.  相似文献   

15.
高维数据流子空间聚类发现及维护算法   总被引:3,自引:2,他引:3  
近年来由于数据流应用的大量涌现,基于数据流模型的数据挖掘算法研究已成为重要的应用前沿课题.提出一种基于Hoeffding界的高维数据流的子空间聚类发现及维护算法--SHStream.算法将数据流分段(分段长度由Hoeffding界确定),在数据分段上进行子空间聚类,通过迭代逐步得到满足聚类精度要求的聚类结果,同时针对数据流的动态性,算法对聚类结果进行调整和维护.算法可以有效地处理高雏数据流和对任意形状分布数据的聚类问题.基于真实数据集与仿真数据集的实验表明,算法具有良好的适用性和有效性.  相似文献   

16.
传统数据流聚类算法大多基于距离或密度,聚类质量和处理效率都不高。针对以上问题,提出了一种基于关联函数的数据流聚类算法。首先,将数据点以物元的形式模型化,建立解决问题所需要的关联函数;其次,计算关联函数的值,以此值的大小来判断数据点属于某簇的程度;然后,将所提方法运用到数据流聚类的在线-离线框架中;最后,采用真实数据集KDD-CUP99和随机生成的人工数据集进行算法的测试。实验结果表明,所提方法的聚类纯度在92%以上,每秒能处理约6300条记录,与传统算法相比,处理效率有了较大的提高,在维度和簇数目方面的可扩展性较强,适用于处理大规模的动态数据集。  相似文献   

17.
In this paper a new approach called evolving principal component clustering is applied to a data stream. Regions of the data described by linear models are identified. The method recursively estimates the data variance and the linear model parameters for each cluster of data. It enables good performance, robust operation, low computational complexity and simple implementation on embedded computers. The proposed approach is demonstrated on real and simulated examples from laser-range-finder data measurements. The performance, complexity and robustness are validated through a comparison with the popular split-and-merge algorithm.  相似文献   

18.
基于粒子群优化算法的数据流聚类算法   总被引:1,自引:0,他引:1  
肖裕权  周肆清 《微机发展》2011,(10):43-46,50
针对当前基于滑动窗口的聚类算法中对原始数据信息的损失问题和提高聚类质量和准确性,在现有基于滑动窗口模型数据流聚类算法的基础上,提出了一种基于群体协作的粒子群优化算法(PSO)的新数据流聚类算法。这种优化的新数据流聚类算法利用改进的时间聚类特征指数直方图作为数据流的概要结构以及应用PSO在聚类过程中对聚类质量的局部迭代优化。实验结果表明,此方法有效减少了内存的开销,解决了对原始数据信息损失的问题。与传统的数据流聚类算法相比,基于粒子群优化算法的数据流聚类算法在聚类质量和准确性上明显优于传统的数据流聚类算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号