首页 | 官方网站   微博 | 高级检索  
     

基于遗传算法的动态文本聚类
引用本文:乐兵,王明文. 基于遗传算法的动态文本聚类[J]. 江西师范大学学报(自然科学版), 2006, 30(3): 278-281
作者姓名:乐兵  王明文
作者单位:江西师范大学,计算机信息工程学院,江西,南昌,330027;江西师范大学,计算机信息工程学院,江西,南昌,330027
基金项目:江西省自然科学基金;教育部科学技术研究项目
摘    要:为了解决动态文本聚类中聚类中心陷于局部极值点的问题,该文提出了基于遗传算法的动态文本聚类方法.采用二进制编码方式对聚类中心进行编码、类内中的点与其类中心的欧氏距离作为适应度函数.通过遗传算子的操作对类中心进行逐步迭代,直至适应度函数收敛,得到使聚类划分效果最好的聚类中心.实验表明该方法可以克服局部极值点的问题,且聚类结果的评价指标Purity(纯度)也比较好.

关 键 词:文本聚类  遗传算法  二进制编码  欧氏距离  纯度
文章编号:1000-5862(2006)03-0278-04
收稿时间:2005-09-12
修稿时间:2005-09-12

Dynamic Document Clustering Based on Genetic Algorithm
LE Bing,WANG Ming-wen. Dynamic Document Clustering Based on Genetic Algorithm[J]. Journal of Jiangxi Normal University (Natural Sciences Edition), 2006, 30(3): 278-281
Authors:LE Bing  WANG Ming-wen
Affiliation:College of Computer Information and Engineering, Jiangxi Normal University, Nanchang 330027,China
Abstract:In order to resolve the problem that clustering centers converge at extremums in the dynamic document clustering,this paper presents a new dynamic document clustering algorithm which is based on genetic algorithm.In this algorithm,the clustering center is encoded by binary,the sum of the Euclidean distances between the points and their respective centers is adopted as the fitness function and results are gained through selection,crossover and mutation.The experimental results on real datasets show that this algorithm can gain the best result effectively,the clustering criterion function(Purity) defined over the entire clustering solution is excellent.
Keywords:document clustering  genetic algorithm  binary encoding  euclidean distance  purity
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号