首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
一种优化初始化中心的k均值web信息聚类算法   总被引:1,自引:0,他引:1  
k-means算法是一种重要的聚类算法,在网络信息处理领域有着广泛的应用。由于k-means算法终止于一个局部最优状态,所以初始类中心点的选择会在很大程度上影响其聚类效果。针对k-means算法所存在的问题,构造了文本集合的相似度矩阵,基于平均相似度集合通过排序迭代优选出了初始中心点。实验表明此算法可以有效减少迭代次数并提高聚类精度,最终获得较好的聚类效果。  相似文献   

2.
提出并设计了一种用于高维稀疏相似矩阵的文本聚类算法.该算法结合了层次聚类和划分聚类的思想,通过一个阈值来控制聚类算法的选取和新簇的建立.从一个小样本的实验结果来看,该算法的召回率和正确率比各种经典的方法更高.  相似文献   

3.
提出了k-means聚类算法中选取初始聚类中心及处理孤立点的新方法,改进了 k-means算法对初始聚类中心和孤立点文本很敏感的不足之处,并将改进后的算法应用于中文文本聚类中.实验结果表明,改进的算法较原算法在准确率上有较大提高,并且具有更好的稳定性.  相似文献   

4.
一种改进的模糊C均值聚类算法   总被引:1,自引:0,他引:1  
针对模糊C均值(FCM)聚类算法中,聚类效果往往受到聚类数目和初始聚类中心的影响这一问题,提出了基于平均信息熵确定聚类数目的方法,并采用密度函数法来获得初始聚类中心.实验结果表明,改进后的算法较好地解决了初值问题,与随机初始化方法相比,迭代次数少,收敛速度快.  相似文献   

5.
针对多尺度可能性聚类算法(MPCM)计算复杂度较高的问题,提出一种改进的多尺度可能性聚类算法(IMPCM).算法利用k-均值聚类的收敛点来作为MPCM的初始点,在继承了MPCM优点的同时,解决了原始MPCM中无效初始点过多以及初始点位置不理想造成的迭代次数过高的问题.对比实验结果表明,算法具有良好的聚类效果与更高的计算效率.  相似文献   

6.
互联网上存在着海量蕴含丰富信息的短文本数据,由于短文本存在特征稀疏、用语不规范的特点,使用传统的聚类算法效果较差。提出了一种使用词向量表示特征并结合关键词提取的短文本聚类算法:定义特征权重计算公式,计算类簇中特征的权重,得到类簇的关键词;使用Skip gram模型训练得到的词向量计算关键词之间的语义相似度进而得到类簇的相似度实现聚类。在4个数据集上进行的实验结果表明文章的方法效果优于传统的聚类算法,宏平均较次优结果分别提高了22.3%、24.9%、2.9%和34.4%。  相似文献   

7.
应用模糊C均值算法对文档进行分类,具有不使用语法知识、不使用词法规则、无监督等特点.采用模糊c均值算法对文档进行聚类,实验结果表明:该方法优于普通的聚类算法,聚类结果能充分体现文本的多样性.  相似文献   

8.
通过对模糊C-均值聚类算法的研究,用遗传算法的相关知识对其进行优化与改进.并使用著名的IRIS数据集分别对传统的模糊C-均值聚类算法和用遗传算法改进后的模糊C-均值聚类算法进行测试、比较.实验结果表明,用遗传算法改进后的模糊C-均值聚类算法比传统的模糊C-均值聚类算法更加准确、高效.这将为以后的聚类分析研究工作提供一定的帮助.  相似文献   

9.
一种改进的k-means中文文本聚类算法   总被引:3,自引:0,他引:3  
提出了k-means聚类算法中选取初始聚类中心及处理孤立点的新方法,改进了k-means算法对初始聚类中心和孤立点文本很敏感的不足之处,并将改进后的算法应用于中文文本聚类中。实验结果表明,改进的算法较原算法在准确率上有较大提高,并且具有更好的稳定性。  相似文献   

10.
传统的密钥生成算法没有同时利用幅值及相位两方面的信息,对信道信息利用不充分。针对此问题,提出了一种使用k均值聚类进行密钥生成的方案,该方法可以充分利用多个维度的信息,提高生成密钥的一致性。在密钥生成过程中,双方通过传输聚类中心的位置来进行对测量值进行分类,不会造成密钥信息的泄露。为了更好地提高密钥的一致性与随机性,结合随机导频系数和二维补偿方法,又提出了一种k均值二维补偿密钥生成方案。仿真结果表明,相比于其他密钥生成方法,两个方案在密钥的一致性与随机性方面性能更优。  相似文献   

11.
一类基于贝叶斯信息准则的k均值聚类算法   总被引:1,自引:0,他引:1  
典型k-均值算法中的聚类数k必须是事先给定的确定值,然而,实际应用中k很难被精确地确定。同时该算法对初始聚类中心的依赖性而导致聚类结果可能陷入局部极小,使得该算法对一些实际问题无效。采用基于密度聚类算法(DBSCAN),在筛选局部代表点时结合贝叶斯信息准则(BIC),得到少量精准反映局部数据分布的BIC核心点。然后,以BIC核心点为初始聚类中心,BIC核心点数量为类别数,对全局数据进行k-均值聚类。实验结果表明,优化的k-均值算法是一种有效可行的聚类算法。  相似文献   

12.
一种改进的模糊C-均值聚类算法   总被引:1,自引:0,他引:1  
分析了现有FCM聚类算法存在的问题,提出了一种改进的FCM聚类算法.该算法引入了最近邻聚类算法来初始化FCM算法的聚类数和聚类中心.实例分析表明改进后的FCM算法不仅能提高聚类的准确性,而且能有效地避免陷入局部最优.  相似文献   

13.
针对传统模糊C-均值聚类算法对含噪图像分割时未充分考虑空间信息的问题,提出一种改进的模糊C-均值聚类算法,将图像的局部和非局部两种空间信息引入到模糊C-均值聚类算法的目标函数中,以使两种空间信息在含噪图像分割中发挥互补作用。将改进算法应用于不同含噪图像的分割实验,结果表明图像像素的均方误差均比改进前有所降低。  相似文献   

14.
针对传统的动态文本聚类将描述方式不同的同类文本划分到不同组中;以及聚类类别个数与真实类别数之间差距明显等问题,该文提出了一种半监督语义动态文本聚类算法(SDCS)。该算法以语义表征文本的方式来捕获文本间的语义关系,在聚类过程中动态学习类别语义,让文本能根据语义准确聚类。同时该算法利用半监督聚类的方法对新类的产生进行监督,学习符合实际情况的聚类结果。实验结果表明该文提出的算法是有效可行的。  相似文献   

15.
针对谱聚类算法相似度函数设置困难问题,提出了一种使用证据累积的文本聚类谱算法.该算法使用超球K均值算法对文本集进行多次聚类,并将每次得到的划分结果作为判断2个文本是否应该放在一个簇中的证据,由此构建文本的相似度矩阵和正则化拉普拉斯矩阵.在TREC和Reuters文本集上进行了实验,验证了本文算法的有效性,它比层次聚类算法和CLUTO提供的K均值算法更加优越.  相似文献   

16.
为满足技术路线图编制需要,针对模糊c均值对初始值敏感和稳定性差的缺点,通过引入遗传算法和类的概念向量,提出了一种改进的模糊均值文本聚类挖掘方法—CGFCM方法.首先根据遗传算法全局搜索的特点,CGFCM方法利用遗传算法求出文本的初始聚类中心,然后利用类的概念向量,建立概念向量矩阵,使用迭代概念向量矩阵完成文本的模糊聚类...  相似文献   

17.
对搜索窗中的父块和子块,根据其方差的不同,利用K-均值聚类优化方法分别对子块和父块进行聚类,子块只对同一类中的父块进行匹配,从而大大缩短了编码时间。仿真实验结果表明,在不影响信噪比和压缩比的前提下,与经典分形压缩算法相比,该算法编码速度可提高大约5倍;同近期文献报道的基于方差的快速分形压缩算法相比,该算法的结果也有明显的改善。  相似文献   

18.
将非负矩阵分解(NMF)引入到文本聚类集成问题中,为解决NMF随机初始化所引起的不稳定性问题,首先采用最小最大原则确定K均值算法的初始质心,并获得稳定的聚类结果;其次,将K均值算法的聚类结果作为NMF的初始因子矩阵,并对超图的邻接矩阵进行NMF,获得基矩阵和系数矩阵;最后根据系数矩阵获得最终的聚类结果,由此设计了NMFK算法。在多组真实文本集上进行了实验,结果表明:NMFK算法运行高效,并且获得了比其他常见的聚类集成算法更加优越的结果。  相似文献   

19.
针对模糊C-均值算法(FCM)具有局部最优问题和初值敏感性的缺陷,将微粒群优化算法应用于文本模糊聚类, 提出了基于微粒群优化算法的模糊C-均值算法PFCM.该算法首先采用实数编码方式对聚类原型进行编码,利用微粒群优化算法的全局搜索性能对初始聚类原型的选取进行指导,然后利用模糊C-均值算法进行聚类.使用算法PFCM对文本集合进行聚类实验,并用目标函数值和划分系数来判断模糊划分的效果,实验结果表明,与FCM相比,该算法具有较好的全局收敛性和较好的聚类结果.  相似文献   

20.
自适应的模糊C均值聚类算法   总被引:1,自引:0,他引:1  
针对模糊C均值聚类算法对聚类数预先不可知的缺陷,提出了自适应的模糊C均值聚类算法,该算法利用已有的有效性函数自动确定聚类数目,继而进行模糊聚类,实验表明,该方法无须人工的干预,并且具有良好的有效性和可行性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号