共查询到17条相似文献,搜索用时 60 毫秒
1.
在对标准蚁群算法分析研究基础上,结合中文文本数据的特点,对蚁群算法存在的缺点进行改进,提出一种基于改进的蚁群算法的中文文本聚类方法——ACTC。算法中为每只蚂蚁增加两个记忆体,可以解决原算法中的“未指派现象”;模拟信息素,从而使蚂蚁的移动更具目的性,加快聚类速度;引入“边界点”思想,从而不仅可以消除“停滞现象”,而且能避免“噪声”或异常数据对聚类结果的负面影响;引入动态调整相似度阈值概念,从而使聚类结果更具实际意义。实验证明,从熵值与纯度两个评价函数评价结果看,该算法的聚类效果较好,达到算法改进的目的。 相似文献
2.
文章在对DBSCN与K-means两种经典聚类算法分析研究基础上,结合中文文本数据的特点,对这两种方法进行结合与改进,提出了一种中文文本聚类方法:DKTC。该算法能自动产生簇的个数,且对“噪声”或异常数据不敏感,对数据的输入顺序不敏感,另外,与DBSCAN相比,该算法有更高的处理效率。实验表明,DKTC算法不仅能对中文文本进行聚类,且与传统DBSCN与K-means法相比,聚类效果都有一定程度的改善。 相似文献
3.
传统的聚类算法直接用于文本聚类这一应用上,存在的突出问题就是传统的聚类算法只负责将对象进行聚类,不负责对聚类后生成的类簇进行概念描述和解释.标注文本集合聚类后生成的类簇被称为聚类描述问题.聚类描述可以帮助用户迅速确认生成的文档类别与其需求是否相关,它是文本聚类应用中一项重要并富有挑战性的任务.针对文本聚类结果可读性较弱问题,本文提出了一种增强聚类结果的可理解性与可读性的算法,即基于支持向量机的文本聚类结果描述算法.实验结果表明基于支持向量机的聚类描述算法所取得的效果要优于常规的聚类结果描述方法. 相似文献
4.
基于样本加权的文本聚类算法研究 总被引:3,自引:0,他引:3
样本加权聚类算法是一种最近才引起人们注意的算法,还存在一些需要解决的问题,例如,聚类对象之间的结构信息对样本加权聚类是否有帮助,如何将结构信息自动转换为样本或对象的权重?针对该问题,本文以学术论文为聚类对象,以K-Means算法为聚类算法基础,利用论文之间的引用关系计算每篇论文的PageRank值,并将其作为权重,提出一种基于样本加权的新的文本聚类算法.实验结果表明,基于论文PageRank值加权的聚类算法能改善文本聚类效果.该算法可推广到网页的聚类中,利用网页的PageRank进行加权聚类,来改善网页的聚类效果. 相似文献
5.
6.
文本聚类结果描述研究综述 总被引:1,自引:0,他引:1
章成志 《现代图书情报技术》2009,3(2):1-8
首先对文本聚类结果描述的研究背景和相关的研究情况进行说明,分析自动标引、自动文摘、概念聚类与文本聚类结果描述的关系,定位文本聚类结果描述的研究内容;然后根据文本聚类结果描述的具体要求,对该问题进行形式化;最后给出文本聚类结果描述的评价方法。 相似文献
7.
最大词重降维算法与模拟退火算法相结合的文本聚类方法研究 总被引:1,自引:0,他引:1
提出一种基于最大词重的文本特征提取与降维算法。其基本思想是利用词在文档库的重要性,通过搜索算法将最大重要性的词从高维文档库中提取出来构成低维文档库,达到特征提取与降维的目的。在此基础上,提出利用模拟退火算法改进的K-means聚类算法对降维得到的文本进行聚类分析,实验结果表明该方法可以有效地提高聚类精度。 相似文献
8.
信誉管理系统在促进顾客对电子零售商的信任过程中起着越来越重要的作用,它是电子零售商取得成功的重要因素和保证。顾客的文本评论是信誉管理系统的一个重要组成部分,其中蕴含了大量的零售商的实际交易和信誉信息。本文从顾客文本评论的视角,采用文本挖掘技术对大量的顾客评论进行文本聚类,通过分类整理和知识提取,以期找出顾客最关注的电子零售商的信誉维度。本研究选取国内最大的IT专业网站——中关村在线作为研究对象,通过一个应用实例详细说明了通过文本聚类发现电子零售商信誉维度的方法和过程。本研究对电子零售商的信誉维度知识发现具有重要意义,也能为电子零售商提高服务质量提供参考。 相似文献
9.
提出利用蚁群聚类方法进行初始聚类,通过K-means聚类算法对初始聚类的结果进一步分层聚类,并结合术语综合相似度计算的方式提取每个类的标签,从而完成术语层次关系的构建。最后抽取部分实验结果,由领域专家对其进行评价,并对结果进行分析。 相似文献
10.
11.
针对文本聚类分析结果表达中缺乏语义关系的缺陷,本文利用人们在可视化形式下对模型和结构的理解和获取能力,提出了一种新的可视化表达方法。通过改进的Force-directed模型对聚类分析结果进行文本布局,表现文本间的语义相似关系;使用等值线生成算法构建层次性主题图,聚集和提炼文本主题;最终实现文本聚类分析结果的语义直观表达。实验结果表明,这种可视化方法不仅能够有效地表达聚类结果,体现类间、文本间的语义相关程度,而且还有助于发现隐含的信息,并通过类别之间的关联实现有效的信息导航。 相似文献
12.
基于粒子群的模糊C均值文本聚类算法研究 总被引:1,自引:0,他引:1
13.
14.
15.
为减少一词多义现象及训练样本的类偏斜问题对分类性能的影响,提出一种基于语义网络社团划分的中文文本分类算法。通过维基百科知识库对文本特征词进行消歧,构建出训练语义复杂网络以表示文本间的语义关系,再次结合节点特性采用K-means算法对训练集进行社团划分以改善类偏斜问题,进而查找待分类文本的最相近社团并以此为基础进行文本分类。实验结果表明,本文所提出的中文文本分类算法是可行的,且具有较好的分类效果。 相似文献
16.
基于凝聚式层次聚类算法的标签聚类研究* 总被引:8,自引:1,他引:8
对标签、标注、大众分类等概念进行界定,指出现有标签标注系统中存在着标签描述信息的精确度不高、标签检索结果相关度低、标签缺乏有效组织等问题,提出采用凝聚式聚类算法对标签聚类,从而实现对标签的重新组织,为用户提供更好的标签导航、浏览机制。最后通过实验对标签聚类方法进行验证。 相似文献