首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
现有的针对分类数据的算法需要多次扫描数据库,对于数据开采经常处理的大容量数据,多遍I/O操作是一项沉重的系统开销.CACD(clustering algorithm for categoricaldata)是针对分类属性数据的聚类算法,该算法采用压缩技术缩小需要处理的数据量以提高效率,同时算法提出了一种新的基于压缩数据结构的标准用于衡量分类数据的相似度.CACD只需扫描数据库一遍,算法理论分析和实验分析都表明该算法比同类针对分类数据的聚类算法效率要高,并且压缩技术对聚类结果的质量影响不大.  相似文献   

2.
乔颖  王士同  杭文龙 《控制与决策》2017,32(6):1075-1083
受Kuramoto模型启发,构造一种新的万有引力同步模型,用以解决现有同步聚类算法时间复杂度高的问题,并提出大规模数据集的引力同步聚类算法(LSCGS).首先,使用快速压缩集密度估计(RSDE)算法对大规模数据集进行压缩;然后,通过万有引力同步聚类算法对压缩数据集进行聚类,使用Davies-Bouldin指标自动寻优到最佳聚类数;最后,利用提出的剩余样本聚类(RSC)算法对除压缩集以外的剩余数据进行聚类,可以有效地区分孤立类以及噪声点.通过在大规模人造数据集、UCI真实数据集和图像数据上的实验,验证LSCGS算法的有效性,与传统同步聚类算法相比,聚类的运算成本得到大幅度的降低.  相似文献   

3.
针对现有的Sync算法具有较高时间复杂度,在处理大样本数据集时有相当的局限性,提出了一种快速大样本同步聚类算法(Fast Clustering by Synchronization on Large Sample,FCSLS)。首先将基于核密度估计(KDE)的抽样方法对大样本数据进行抽样压缩,再在压缩集上进行同步聚类,通过Davies-Bouldin指标自动寻优到最佳聚类数,最后,对剩下的大规模数据进行聚类,得到最终聚类结果。通过在人造数据集以及UCI真实数据集上的实验,FCSLS可以在大规模数据集上得到任意形状、密度、大小的聚类且不需要预设聚类数。同时与基于压缩集密度估计和中心约束最小包含球技术的快速压缩方法相比,FCSLS在不损失聚类精度的情况下,极大地缩短了同步聚类算法的运行时间。  相似文献   

4.
针对原始的仿射传播(affinity propagation,AP)聚类算法难以处理多代表点聚类,以及空间和时间开销过大等问题,提出了快速多代表点仿射传播(multi-exemplar affinity propagation using fast reduced set density estimator,FRSMEAP)聚类算法。该算法在聚类初始阶段,引入快速压缩集密度估计算法(fast reduced set density estimator,FRSDE)对大规模数据集进行预处理,得到能够充分代表样本属性的压缩集;在聚类阶段,使用多代表点仿射传播(multi-exemplar affinity propagation,MEAP)聚类算法,获得比AP更加明显的聚类决策边界,从而提高聚类的精度;最后再利用K-邻近(K-nearest neighbor,KNN)算法分配剩余点得到最终的数据划分。在人工数据集和真实数据集上的仿真实验结果表明,该算法不仅能在大规模数据集上进行聚类,而且具有聚类精度高和运行速度快等优点。  相似文献   

5.
针对数据库中数据急速膨胀的状况,提出一种新的适用于语义压缩的数据库压缩算法--基于最优匹配的OPMC算法.算法将数据表中的属性元组分类并进行最优匹配的筛选为每类选取一个代表元组,将数据集中到最优匹配的聚类中心点上,消除相似的、冗余的数据,从而实现数据的压缩.该算法经仿真实验验证,有效改善了压缩比率,相对其他算法的压缩比率提高18%.  相似文献   

6.
目前,谱聚类已经成为图像分割领域的研究热点,但是,常见谱聚类算法具有0(n3)的复杂度,在图像分割的应用受到限制.基于在线的多尺度竞争学习,文中提出了一种基于在线编码的多尺度谱聚类算法,并应用于图像分割.首先,算法通过在线竞争学习算法构造m(m≤n)个原型来编码原始数据.然后,利用多尺度谱聚类对原型进行分组,标注样本并得到最终的聚类结果.算法的复杂度近似为O(mn十m2),因而,较好地提高了谱聚类在图像分割上的效率.在三组数据上开展了实验:在非凸数据集上的结果表明,文中算法具有良好的多尺度性质.在合成的高斯数据集上进行了效率对比分析,说明文中算法能有效压缩样本量,提高效率.在标准的图像上的分割效率优于通常的NJW谱聚类算法和在分割质量上优于k-means算法.和基于抽样的Nystr(o)m算法相比,具有一定优势.  相似文献   

7.
现有的同步聚类方法Sync在同步过程中需要将样本中的每一个分量看作相位振子进行计算,具有较高的时间复杂度,因此在大规模数据集上聚类时具有相当大的局限性.为了解决这一问题,提出了快速自适应同步聚类方法(fast adaptive KDE-based clustering by synchronization,FAKCS).FAKCS首先引入基于压缩集密度估计和中心约束最小包含球技术的快速压缩方法对大规模数据集进行压缩,然后通过使用Davies-Bouldin指标,在压缩集上进行ε参数自适应的同步聚类,并采用新定义的序列参量来评价局部同步的程度.另外,研究了序列参量和核密度估计间的联系,从理论上揭示了样本点的局部同步在概率密度意义下的本质.FAKCS可以在大规模数据集上得到任意形状、个数、密度的聚类而无需预设聚类数目.在图像分割和大规模UCI数据集上的实验验证了FAKCS的有效性.  相似文献   

8.
基于投票机制的融合聚类算法   总被引:1,自引:0,他引:1  
以一趟聚类算法作为划分数据的基本算法,讨论聚类融合问题.通过重复使用一趟聚类算法划分数据,并随机选择阈值和数据输入顺序,得到不同的聚类结果,将这些聚类结果映射为模式间的关联矩阵,在关联矩阵上使用投票机制获得最终的数据划分.在真实数据集和人造数据集上检验了提出的聚类融合算法,并与相关聚类算法进行了对比,实验结果表明,文中提出的算法是有效可行的.  相似文献   

9.
朱林  雷景生  毕忠勤  杨杰 《软件学报》2013,24(11):2610-2627
针对高维数据的聚类研究表明,样本在不同数据簇往往与某些特定的数据特征子集相对应.因此,子空间聚类技术越来越受到关注.然而,现有的软子空间聚类算法都是基于批处理技术的聚类算法,不能很好地应用于高维数据流或大规模数据的聚类研究中.为此,利用模糊可扩展聚类框架,与熵加权软子空间聚类算法相结合,提出了一种有效的熵加权流数据软子空间聚类算法——EWSSC(entropy-weighting streaming subspace clustering).该算法不仅保留了传统软子空间聚类算法的特性,而且利用了模糊可扩展聚类策略,将软子空间聚类算法应用于流数据的聚类分析中.实验结果表明,EWSSC 算法对于高维数据流可以得到与批处理软子空间聚类方法近似一致的实验结果.  相似文献   

10.
面向热点话题时间序列的有效聚类算法研究   总被引:3,自引:0,他引:3  
聚类热度时间序列是揭示和建模网络热点话题形成与发展的重要过程.Leskovec等人在2010年提出面向话题时间序列的K_SC聚类算法,其精确度较高且能较好地刻画话题内在发展趋势特征.但K_SC算法具有对初始类矩阵中心高度敏感、高时间复杂度等特性,使其难以在实际高维大数据集上应用.文中结合小波变换技术,提出一个新的迭代式聚类算法WKSC,主要提出两个创新:(1)用Haar小波变换将原始时间序列进行压缩,降低原始时间序列的维度,从而降低了算法的时间复杂度;(2)在Haar反小波变换中,将低维聚类返回得到的矩阵中心作为高维聚类的初始矩阵中心,在迭代聚类过程中优化了对初始矩阵中心高敏感性的问题,提高了聚类的效果.文中分别采用国内外3个数据集作为测试样本,进行了大量的实验.实验结果表明WKSC算法能显著降低聚类的时间复杂度,同时改进聚类效果.WKSC算法可很好的应用于大量高维热点话题的模式分析.  相似文献   

11.
Mundur等提出了一种基于Delaunay三角网的聚类算法,并将其应用于视频帧的多维特征数据的聚类以生成视频摘要,取得了较好的效果。但是,该算法计算量太大,导致效率不高。为提高该算法的效率,以适合于对大数据集的处理,提出了一种改进的基于Delaunay三角网的聚类算法。通过在典型数据集上的实验,提出了一种新的确定全局聚类阈值的方法,使得计算量大为减少。实验结果表明,该算法无需用户提供聚类参数,也能得到良好的聚类结果,因此能够实现聚类过程自动化;并且计算速度更快,效率更高,适合于大数据集的处理。  相似文献   

12.
Kernel Grower 是一种有效的核聚类方法, 它具有计算精度高的优点. 然而, Kernel Grower在应用中的一个关键问题是对于大规模数据运算速度缓慢, 这在很大程度上制约了该方法的应用. 本文提出了一种大规模数据的快速核聚类方法, 该方法通过近似最小包含球快速算法, 显著地提高了的Kernel Grower计算速度, 并且该方法的计算复杂度仅与样本个数成线性关系. 在人工数据集和标准测试集上的模拟实验均说明本文算法的有效性. 本文还给出该方法在真实彩色图像分割中应用.  相似文献   

13.
基于异常的入侵检测方法难以有效地获得一个用于建立正常行为模式的正常数据训练集,而粒子群优化模糊聚类算法的初始化聚类数目一般凭经验确定,准确性不高。为此,提出一种自控粒子群优化模糊聚类算法。从网络数据中提取训练集,并初始化具有不同聚类数目的粒子群,在迭代过程中,根据不同粒子群的聚类有效性函数,通过列控制向量对各粒子群规模进行调整,由此实现聚合。实验结果表明,该方法的聚类结果准确率高,可以为基于异常的入侵检测方法提供可靠的训练数据。  相似文献   

14.
提出了一种改进的基于对称点距离的蚂蚁聚类算法。该算法不再采用Euclidean距离来计算类内对象的相似性,而是使用新的对称点距离来计算相似性,在处理带有对称性质的数据集时,可以有效地识别给定数据集的聚类数目和合适的划分。在该算法中,用人工蚂蚁代表数据对象,根据算法给定的聚类规则来寻找最合适的聚类划分。最后用本算法与标准的蚂蚁聚类算法分别对不同的数据集进行了聚类实验。实验结果证实了算法的有效性。  相似文献   

15.
Clustering divides data into meaningful or useful groups (clusters) without any prior knowledge. It is a key technique in data mining and has become an important issue in many fields. This article presents a new clustering algorithm based on the mechanism analysis of chaotic ant swarm (CAS). It is an optimization methodology for clustering problem which aims to obtain global optimal assignment by minimizing the objective function. The proposed algorithm combines three advantages into one: finding global optimal solution to the objective function, not sensitive to clusters with different size and density and suitable to multi-dimensional data sets. The quality of this approach is evaluated on several well-known benchmark data sets. Compared with the popular clustering method named k-means algorithm and the PSO-based clustering technique, experimental results show that our algorithm is an effective clustering technique and can be used to handle data sets with complex cluster sizes, densities and multiple dimensions.  相似文献   

16.
模糊-Modes聚类算法针对分类属性的数据进行聚类,使用爬山法来寻找最优解,因此该算法对初始值较为敏感。为了克服该缺点,提出一种动态的模糊K—Modes初始化算法,该方法能够自动确定聚类数目,以及对应的聚类中心;而且能够应用于数值属性和分类属性相混合的数据集。该初始化算法可以有效地克服模糊K—Modes算法对初值的敏感性。实验的结果表明了该初始化算法的可行性和有效性。  相似文献   

17.
聚类趋势问题的研究综述*   总被引:1,自引:1,他引:0       下载免费PDF全文
聚类算法的性能与数据集的结构是密切相关的,虽然目前已经研究出了很多聚类算法,但没有普遍适用的万能聚类算法,欠缺对数据集结构的有效解释。对聚类分析过程中重要的关键性问题,即聚类趋势问题进行了系统性的研究,从统计检验、可视化分析等角度给予了讨论,为数据集的无监督聚类分析提供了合理和有效的前期分析工具。  相似文献   

18.
Autonomous Clustering Using Rough Set Theory   总被引:1,自引:0,他引:1  
This paper proposes a clustering technique that minimizes the need for subjective human intervention and is based on elements of rough set theory (RST). The proposed algorithm is unified in its approach to clustering and makes use of both local and global data properties to obtain clustering solutions. It handles single-type and mixed attribute data sets with ease. The results from three data sets of single and mixed attribute types are used to illustrate the technique and establish its efficiency.  相似文献   

19.
王小华  楼佳 《计算机工程》2010,36(13):27-29
综合考虑聚类、分类的特点,从聚类结果出发,学习并利用初始聚类结构信息形成训练集,结合迭代分类思想重新划分原数据集,提出一种基于迭代分类的聚类结果改进方法。实验结果表明该方法具有更高准确率,为获得良好的聚类效果提供了新思路。  相似文献   

20.
聚类分析是数据挖掘中的一个重要研究内容。按照数据对象间的关系进行聚类在许多情况具有特殊的意义。提出一种相容关系数据对象的聚类算法。该算法首先对每个数据对象按字典排序,利用相容集的反单调性性质来产生极大相容簇,即通过相容集的连接产生更高层的相容集的候选,再通过剪枝的方法来得到更高层的相容集。该方法可以有效压缩算法的搜索空间,是现有相容关系聚类算法的有益改进和补充。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号