首页 | 官方网站   微博 | 高级检索  
     

基于主题概念聚类的中文文本聚类
引用本文:杨彩莲,谢福鼎.基于主题概念聚类的中文文本聚类[J].现代电子技术,2007,30(22):161-163.
作者姓名:杨彩莲  谢福鼎
作者单位:辽宁师范大学,辽宁,大连,116029
摘    要:文本聚类技术在文本挖掘和信息检索系统中发挥着重要的作用。目前,文本聚类方法大多数采用基于关键词集的经典向量模型来表征文本,这种方式忽略了词与词之间的语义关系,存在词频维数过高,聚类算法计算复杂度高等问题。为了解决这些问题,提出一种基于主题概念聚类的中文文本聚类方法,该方法利用HowNet提取文本的主题概念,然后使用Chameleon算法将主题概念聚类,再依据主题概念的聚类结果完成对文本的聚类。该方法用概念代替单个词条表示文本,减少文本特征之间的依赖关系,有效地降低了文本聚类的时间复杂度。

关 键 词:中文文本聚类  主题概念  Chmeleon算法
文章编号:1004-373X(2007)22-161-03
收稿时间:2007-05-15
修稿时间:2007年5月15日

Chinese Document Clustering Based on Topic Concept Clustering
YANG Cailian,XIE Fuding.Chinese Document Clustering Based on Topic Concept Clustering[J].Modern Electronic Technique,2007,30(22):161-163.
Authors:YANG Cailian  XIE Fuding
Affiliation:Liaoning Normal University,Dalian, 116029 ,China
Abstract:
Keywords:HowNet
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号