首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
针对现有聚类集成谱算法聚类结果不稳定的问题,引入近邻传播聚类思想,设计了基于近邻传播的聚类集成谱算法(APCESA).该算法先由聚类集成和谱分得到空间结构相对简单的文本低维嵌入,然后通过近邻传播算法得到最终的聚类结果.在谱分解过程中,采用矩阵变换方法,避免了谱算法中特征值分解的高昂计算代价.对真实文本数据集的实验结果表明,所提算法比对比算法聚类更稳定,且聚类结果的NMI值和ANMI值均高于对比算法.  相似文献   

2.
将非负矩阵分解(NMF)引入到文本聚类集成问题中,为解决NMF随机初始化所引起的不稳定性问题,首先采用最小最大原则确定K均值算法的初始质心,并获得稳定的聚类结果;其次,将K均值算法的聚类结果作为NMF的初始因子矩阵,并对超图的邻接矩阵进行NMF,获得基矩阵和系数矩阵;最后根据系数矩阵获得最终的聚类结果,由此设计了NMFK算法。在多组真实文本集上进行了实验,结果表明:NMFK算法运行高效,并且获得了比其他常见的聚类集成算法更加优越的结果。  相似文献   

3.
针对k均值算法在文本聚类中由于初始聚类质心随机选择,使得聚类结果陷入局部最优,且孤立点和不确定的聚类个数造成k均值算法准确性低、收敛速度慢的问题,提出了一种改进的k均值文本聚类算法。该算法采用fp-growth算法挖掘文本频繁项集,过滤频繁项集得到核心频繁项集,并利用核心频繁项集指导文本初始聚类质心和聚类个数的生成,最后k均值算法利用初始聚类质心和聚类个数完成文本聚类。在新浪微博数据集上进行文本聚类实验,实验结果表明,改进的k均值算法提高了文本聚类的准确性,加快了收敛速度,具有较强的鲁棒性。  相似文献   

4.
随着文本数据的快速积累,文本自动分析成为管理和利用海量文本数据的重要手段。其中,文本聚类是文本分析的基本任务之一。本文着重介绍文本分析与谱聚类的研究进展,阐述目前在文本分析中应用谱聚类技术的主要方法,旨在为文本分析中谱聚类方法的应用提供引导作用。  相似文献   

5.
针对传统的动态文本聚类将描述方式不同的同类文本划分到不同组中;以及聚类类别个数与真实类别数之间差距明显等问题,该文提出了一种半监督语义动态文本聚类算法(SDCS)。该算法以语义表征文本的方式来捕获文本间的语义关系,在聚类过程中动态学习类别语义,让文本能根据语义准确聚类。同时该算法利用半监督聚类的方法对新类的产生进行监督,学习符合实际情况的聚类结果。实验结果表明该文提出的算法是有效可行的。  相似文献   

6.
在图像分割中谱聚类算法需要计算像素之间的相似度矩阵,构造数据量大,并且要对拉普拉斯矩阵进行特征分解,计算比较耗时。针对这一问题,提出了一种基于稀疏矩阵的谱聚类图像分割算法。算法结合图像特征信息在不同尺度上对谱聚类进行误差分析,设计了一种新的样本信息选取方案,并利用选取的图像信息直接创建稀疏相似度矩阵。理论分析以及图像分割实验结果表明,该算法能够有效降低谱聚类的计算复杂度,同时,提高了分割的准确性和鲁棒性。  相似文献   

7.
针对模糊C-均值算法(FCM)具有局部最优问题和初值敏感性的缺陷,将微粒群优化算法应用于文本模糊聚类, 提出了基于微粒群优化算法的模糊C-均值算法PFCM.该算法首先采用实数编码方式对聚类原型进行编码,利用微粒群优化算法的全局搜索性能对初始聚类原型的选取进行指导,然后利用模糊C-均值算法进行聚类.使用算法PFCM对文本集合进行聚类实验,并用目标函数值和划分系数来判断模糊划分的效果,实验结果表明,与FCM相比,该算法具有较好的全局收敛性和较好的聚类结果.  相似文献   

8.
针对K均值聚类算法对类簇数目预先不可知及无法处理非凸形分布数据集的缺陷,提出基于进化思想的聚类算法及其类簇融合算法.该算法将K均值聚类算法嵌入进化聚类算法框架中,通过调整距离倍参,将数据逐渐划分,在此过程中自动确定类簇数目,提出基于最近距离的中间圆密度簇融合算法和基于代表类的中间圆密度簇融合算法,将相似度大的类簇进行融合,使得k值逐渐趋向真实值.实验表明,该方法具有良好的实用性.  相似文献   

9.
提出并设计了一种用于高维稀疏相似矩阵的文本聚类算法.该算法结合了层次聚类和划分聚类的思想,通过一个阈值来控制聚类算法的选取和新簇的建立.从一个小样本的实验结果来看,该算法的召回率和正确率比各种经典的方法更高.  相似文献   

10.
提出了k-means聚类算法中选取初始聚类中心及处理孤立点的新方法,改进了 k-means算法对初始聚类中心和孤立点文本很敏感的不足之处,并将改进后的算法应用于中文文本聚类中.实验结果表明,改进的算法较原算法在准确率上有较大提高,并且具有更好的稳定性.  相似文献   

11.
自适应谱聚类算法研究   总被引:4,自引:0,他引:4  
谱聚类能识别出在原空间中线性不可分的聚类, 且其效果优于传统聚类算法.谱聚类要想获得好的效果必须选择一个合适的尺度参数,本文在传统谱聚类算法的基础上引入类似核选取的技巧,提出了一个能自动选取该尺度参数的自适应谱聚类算法.将该算法和现有的谱聚类参数选择算法作了比较,在人工数据集和UCI数据集上的实验表明,自适应谱聚类算法在很多情况下优于其它参数选择算法.  相似文献   

12.
针对目前谱聚类算法的相似图包含较多错误社区信息的问题,引入了概率矩阵的概念,提出了一种改进的谱聚类社区发现算法。该算法首先利用马尔可夫过程计算节点间的转移概率,并基于转移概率构建复杂网络的概率矩阵;然后以均值概率矩阵重新构造相似图;最后通过优化归一化切割函数实现社区划分。采用人工网络和现实网络与其他典型算法进行对比实验,实验结果表明,该算法能够更加精准地划分社区,具有更加良好的聚类性能。  相似文献   

13.
为提取计算机非法入侵的证据,选取了日志作为证据来源。由于日志记录的容量通常都较大,所以结合了数据挖掘和模糊数学的相关知识,对基于Chame-leon聚类的日志分析算法进行了探讨和研究。然后根据Linux系统日志文件的特性,提出了具体的日志特征提取算法,并从日志采集性能上进行了模拟入侵测试和分析。  相似文献   

14.
为解决现有的分布式聚类算法效率低下和不能保护数据隐私的问题,在K-Dmeans算法的基础上,提出一种新的分布式聚类算法.该算法利用数据对象间的密度函数值来优化站点初始聚类中心,从而大大降低了聚类的迭代次数;同时各从站点只需向主站点传送其聚簇的特征信息,有效降低分布式聚类过程中的通信量,保护了各个站点的独立性,实验结果表...  相似文献   

15.
主题分析技术在文档聚类中的应用   总被引:1,自引:0,他引:1  
为解决高频特征对文章的主题信息反映不够全面,无法获得高质量聚类结果的问题,同时为获得聚类后各类别反映信息的精确描述,采用词汇链反映文章所描述的主题信息,并依据文本间词汇链的相似度进行聚类.将聚类后属于同一类别并反映相同主题信息的词汇链进行融合,通过分析各词汇链所描述的主题信息在不同类别内的分布来抽取能够充分反映各类别主题的关键词集合.实验证明该方法比应用高频特征进行聚类的效果好,同时由于分析了主题信息在各类别内的分布情况,使抽取的类别关键词能够很好地体现每个类别所侧重描述的信息.  相似文献   

16.
一种快速A P聚类算法   总被引:3,自引:0,他引:3  
Affinity propagation(AP)聚类算法中的一个重要参数-收敛系数(damping factor)对算法的运行效率有较大影响,而传统的AP算法中收敛系数常作为固定参数在算法运行中保持不变,因此AP算法的收敛性能对收敛系数初始值的选择比较敏感,针对这一问题提出了一种新的AP聚类算法:F-AP,该算法在传统AP聚类算法基础上引入收缩因子调节收敛系数,使其值能够随算法进程动态调整,以加速AP算法的收敛过程。在3个不同容量模拟数据集上进行了实验,结果表明,新算法能够有效加速收敛过程,并且能够保证与原算法相同的聚类结果;在标准数据集Iris上的聚类结果也表明了新算法具有较好的收敛性能。  相似文献   

17.
针对单一聚类算法存在的不能泛化的问题,将集成学习技术应用于聚类算法中,集成学习技术可以显著提高学习系统的泛化能力。提出了1种基于粒子群和遗传算法的协同进化聚类集成算法,粒子群算法保证算法快速收敛,遗传算法全局搜索扩大搜索范围,提高了聚类的性能和收敛速度。将本研究提出的算法在多个UCI数据集上进行试验验证,结果表明该算法是有效的。  相似文献   

18.
The Circle algorithm was proposed for large datasets.The idea of the algorithm is to find a set of vertices that are close to each other and far from other vertices.This algorithm makes use of the connection between clustering aggregation and the problem of correlation clustering.The best deterministic approximation algorithm was provided for the variation of the correlation of clustering problem,and showed how sampling can be used to scale the algorithms for large datasets.An extensive empirical evaluation...  相似文献   

19.
提出一种XML文档分类算法——IL-AdaBoost。算法以XML频繁变化子结构为特征构建决策树桩,作为boosting算法的弱分类器,并改进了AdaBoost算法;利用泊松过程模拟新增XML文档的生成,反映XML文档随时间增加的特性,更新样本分布,实现增量学习。利用采样改善基本分类器的差异性,提高集成学习效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号