首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 265 毫秒
1.
研究文本聚类问题.传统的文本聚类算法存在着假设各特征词对聚类结果影响相同,聚类准确率较低的缺陷.还有一些算法通过加权的方法,能赋予重要特征词较大的权重,却造成了算法时间复杂度的增加.为解决上述问题,提出了一种新的属性加权模糊C均值文本聚类算法.算法能在迭代过程中标注出每一特征词的权重,却不影响算法的执行效率.使得类内距离之和较小的属性,权值较大;反之则权值较小.经多次仿真证明,提出的文本聚类算法在运算速度、准确率和标注不同属性的重要程度方面都有一定的优势.为文档自动文摘、数字图书馆服务和文档集合自动整理等系统的设计提供了可靠的依据.  相似文献   

2.
聚类分析研究进展   总被引:4,自引:0,他引:4  
聚类是数据挖掘中重要的研究课题,是数据挖掘中一种重要的挖掘任务和挖掘方法.介绍聚类分析及其过程,讨论划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法等聚类算法及其不足之处,提出聚类研究今后的发展趋势及研究重点.  相似文献   

3.
地理信息系统存储了大量的二维空间对象,对这些对象进行聚类分析是数据挖掘的一项重要任务.本文提出一种针对二维空间对象的聚类算法.该算法引用层次聚类方法的思想,将子聚类信息用一个聚类特征表示.采用基于密度的方法,发现任意形状的簇,能较好地处理孤立点,并且支持增量式聚类.实验证明该算法是有效的.  相似文献   

4.
聚类分析技术是数据挖据中的一种重要技术.本文介绍了数据挖掘对聚类的典型要求和聚类方法的分类,研究分析了聚类的主要算法,并从多个方面对这些算法的性能进行比较.  相似文献   

5.
一种基于划分的不同参数值的DBSCAN算法   总被引:6,自引:0,他引:6  
聚类是数据挖掘领域中一个重要的研究方向,DBSCAN是一种基于密度的聚类算法.该算法将具有足够高密度的区域划分成簇,并可以在带有“噪声”的空间数据库中发现任意形状的簇.分析DBSCAN算法发现存在如下问题:当数据分布不均匀时,由于使用统一的全局变量,使得聚类的效果差.针对这一缺陷,提出了一种基于数据划分的思想,并对各个局部数据集采取不同的参数值分别进行聚类,最后合并各局部聚类结果.实验结果表明,改进后的算法有效并可行.  相似文献   

6.
基于Delaunay三角网的CBDT聚类算法研究   总被引:1,自引:0,他引:1  
聚类分析是空间数据挖掘的重要方法之一.Delaunay三角网具有良好的空间邻近特性,应用于空间聚类分析具有独特的优势,提出了一种基于Delaunay三角网的聚类算法--CBDT算法,该算法采用了将Delaunay三角剖分得到的三角形划分为小三角形、狭长三角形和大三角形的聚类模型,通过一定规则分别以小三角形、狭长三角形为基准进行扩展从而实现聚类.CBDT算法相对于AUTOCLUST算法能识别密度渐变的簇,而且计算量要比AUTOCLUST小得多.经实验验证,证明了该算法的有效性.  相似文献   

7.
基于k均值分区的流数据高效密度聚类算法   总被引:2,自引:0,他引:2  
数据流聚类是数据流挖掘研究的一个重要内容,已有的数据流聚类算法大多采用k中心点(均值)方法对数据进行聚类,不能对数据分布不规则以及高维空间数据流进行有效聚类.论文提出一种基于k均值分区的流数据密度聚类算法,先对数据流进行分区做k均值聚类生成中间聚类结果(均值参考点集),随后对这些均值参考点进行密度聚类,理论分析和实验结果表明算法可以有效解决数据分布不规则以及高维空间数据流聚类问题,算法是有效可行的.  相似文献   

8.
朱林  雷景生  毕忠勤  杨杰 《软件学报》2013,24(11):2610-2627
针对高维数据的聚类研究表明,样本在不同数据簇往往与某些特定的数据特征子集相对应.因此,子空间聚类技术越来越受到关注.然而,现有的软子空间聚类算法都是基于批处理技术的聚类算法,不能很好地应用于高维数据流或大规模数据的聚类研究中.为此,利用模糊可扩展聚类框架,与熵加权软子空间聚类算法相结合,提出了一种有效的熵加权流数据软子空间聚类算法——EWSSC(entropy-weighting streaming subspace clustering).该算法不仅保留了传统软子空间聚类算法的特性,而且利用了模糊可扩展聚类策略,将软子空间聚类算法应用于流数据的聚类分析中.实验结果表明,EWSSC 算法对于高维数据流可以得到与批处理软子空间聚类方法近似一致的实验结果.  相似文献   

9.
杨辉  彭晗  朱建勇  聂飞平 《计算机仿真》2021,38(8):328-332,343
谱聚类可以任意形状的数据进行聚类,在聚类集成中能够有效的提高基聚类的质量.以往的聚类集成算法中,聚类集成得到的结果并不是最终聚类结果,还需要利用聚类算法来获得最终聚类结果,在整个过程中会使得解由离散-连续-离散的转变.提出了一种基于谱聚类的双边聚类集成算法.算法首先在生成阶段使用谱聚类算法来获得基聚类,通过标准互信息来选取基聚类.将选出来基聚类和样本作为图的顶点,并对构建的图利用双边聚类算法对基聚类和样本同时聚类直接得到最终聚类结果.在实验中,将所提方法与一些聚类集成算法进行了比较,取得了较好的结果.  相似文献   

10.
一种层次化的检索结果聚类方法   总被引:3,自引:1,他引:2  
检索结果聚类能够帮助用户快速地浏览搜索引擎返回的结果.传统的聚类方法由于不能生成有意义的类别标签因此是不适合的,为了改善检索结果层次化聚类的效果,采用了基于标签的聚类算法,提出了将DF、查询日志、查询词上下文特征融合的类别标签抽取算法,并以抽取的标签构造基础类别图,通过GBCA算法构建层次化聚类结果.实验证明了多特征融合模型的有效性;GBCA算法在类别标签抽取和F-Measure两个评价指标上都比STC和Snaket算法有很大的提高.  相似文献   

11.
结合密度聚类和模糊聚类的特点,提出一种基于密度的模糊代表点聚类算法.首先利用密度对数据点成为候选聚类中心点的可能性进行处理,密度越高的点成为聚类中心点的可能性越大;然后利用模糊方法对聚类中心点进行确定;最后通过合并聚类中心点确定最终的聚类中心.所提出算法具有很好的自适应性,能够处理不同形状的聚类问题,无需提前规定聚类个数,能够自动确定真实存在的聚类中心点,可解释性好.通过结合不同聚类方法的优点,最终实现对数据的有效划分.此外,所提出的算法对于聚类数和初始化、处理不同形状的聚类问题以及应对异常值等方面具有较好的鲁棒性.通过在人工数据集和UCI真实数据集上进行实验,表明所提出算法具有较好的聚类性能和广泛的适用性.  相似文献   

12.
在目前聚类方法中, k-means与势函数是最常用的算法,虽然两种算法有很多优点,但也存在自身的局限性。 k-means聚类算法:其聚类数目无法确定,需要提前进行预估,同时对初始聚类中心敏感,且容易受到异常点干扰;势函数聚类算法:其聚类区间范围有限,对多维数据进行聚类其效率低。针对以上两种算法的缺点,提出了一种基于 K-means 与势函数法的改进聚类算法。它首先采用势函数法确定聚类数目与初始中心,然后利用K-means法进行聚类,该改进算法具有势函数法“盲”特性及K-means法高效性的优点。实验对改进算法的有效性进行了验证,结果表明,改进算法在聚类精度及收敛速度方面有很大提高。  相似文献   

13.
章永来  周耀鉴 《计算机应用》2019,39(7):1869-1882
大数据时代,聚类这种无监督学习算法的地位尤为突出。近年来,对聚类算法的研究取得了长足的进步。首先,总结了聚类分析的全过程、相似性度量、聚类算法的新分类及其结果的评价等内容,将聚类算法重新划分为大数据聚类与小数据聚类两个大类,并特别对大数据聚类作了较为系统的分析与总结。此外,概述并分析了各类聚类算法的研究进展及其应用概况,并结合研究课题讨论了算法的发展趋势。  相似文献   

14.
Yao  Yuhui  Chen  Lihui  Chen  Yan Qiu 《Neural Processing Letters》2001,14(3):169-177
A novel neural network, named Associative Clustering Neural Network (ACNN), is developed for clustering data whose underlying distribution shapes are arbitrary. ACNN is a dynamic model that collectively measures and updates the similarity of any two patterns through the interaction of a group of patterns. Such a new measure of similarity helps to achieve more robust clustering performance than using the existing measures that are staticly and individually based on the distances among the isolated pairwise data. The efficience of ACNN has been verified through the performance study.  相似文献   

15.
随着数据信息的积累,如何从这些海量信息中有效地提取所需要的知识成为当前数据挖掘的重要内容。聚类作为数据挖掘的重要工具,通过将数据划分成多个类,使得类内数据尽可能相似,而类间数据的相似度尽可能小,已成为研究热点。本文总结在数据挖掘中的聚类算法,针对聚类中所存在的问题进行归纳,并对未来的研究进行了展望。  相似文献   

16.
基于自适应在线聚类的背景提取   总被引:1,自引:0,他引:1  
分析目前应用于背景提取的各类聚类方法的原理和存在的问题,提出一种基于自适应在线聚类的背景提取方法。通过使用自适应动态改变的聚类阈值对视频进行在线聚类,无须设定任何参数即能自适应地提取出背景图像。实验结果表明,该方法具有较好的自适应性,能够提取出较优的背景图像,对于各种视频具有较好的鲁棒性。  相似文献   

17.
软硬结合的快速模糊C-均值聚类算法的研究   总被引:2,自引:1,他引:1       下载免费PDF全文
讨论的是对模糊C-均值聚类方法的改进,在原有的模糊C-均值算法的基础上,提出一种软硬结合的快速模糊C-均值聚类算法。快速模糊C-均值聚类算法是在模糊C-均值聚类算法之前加入一层硬C-均值聚类算法。硬聚类算法能比模糊聚类算法以高得多的速度完成,将硬聚类中心作为模糊聚类中心的迭代初值,从而提高模糊C-均值聚类算法的收敛速度,这对于大量数据的聚类是很有意义的。用数据仿真验证了这种快速模糊C-均值聚类算法比模糊C-均值算法迭代调整过程短,收敛速度快,聚类效果好。  相似文献   

18.
基于集群计算思想建立的集群系统可以为市级税务部门信息处理大集中提供服务器平台。集群系统由处理计算节点集群、SAN存储系统、数据库管理集群、集群内部互连网络、外部服务网络和集群管理控制台等6部分组成。通过对山东地税系统使用基于集群技术的税务大集中应用案例的分析和测试,显示了集群技术应用在税务大集中项目中的先进性、优越性和实用性,完全可以满足市级税务大集中的应用需求,具有广阔的应用前景。  相似文献   

19.
Clustering high dimensional data has become a challenge in data mining due to the curse of dimensionality. To solve this problem, subspace clustering has been defined as an extension of traditional clustering that seeks to find clusters in subspaces spanned by different combinations of dimensions within a dataset. This paper presents a new subspace clustering algorithm that calculates the local feature weights automatically in an EM-based clustering process. In the algorithm, the features are locally weighted by using a new unsupervised weighting method, as a means to minimize a proposed clustering criterion that takes into account both the average intra-clusters compactness and the average inter-clusters separation for subspace clustering. For the purposes of capturing accurate subspace information, an additional outlier detection process is presented to identify the possible local outliers of subspace clusters, and is embedded between the E-step and M-step of the algorithm. The method has been evaluated in clustering real-world gene expression data and high dimensional artificial data with outliers, and the experimental results have shown its effectiveness.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号