首页 | 官方网站   微博 | 高级检索  
     

基于主题的Web文本聚类方法
引用本文:张万山,肖瑶,梁俊杰,余敦辉.基于主题的Web文本聚类方法[J].计算机应用,2014,34(11):3144-3146.
作者姓名:张万山  肖瑶  梁俊杰  余敦辉
作者单位:湖北大学 计算机与信息工程学院,武汉 430062
基金项目:国家自然科学基金资助项目,湖北省自然科学基金资助项目,武汉市科技攻关计划项目
摘    要:针对传统Web文本聚类算法没有考虑Web文本主题信息导致对多主题Web文本聚类结果准确率不高的问题,提出基于主题的Web文本聚类方法。该方法通过主题提取、特征抽取、文本聚类三个步骤实现对多主题Web文本的聚类。相对于传统的Web文本聚类算法,所提方法充分考虑了Web文本的主题信息。实验结果表明,对多主题Web文本聚类,所提方法的准确率比基于K-means的文本聚类方法和基于《知网》的文本聚类方法要好。

关 键 词:多主题  Web文本  聚类  特征词  准确率
收稿时间:2014-07-29
修稿时间:2014-08-08

Web text clustering method based on topic
ZHANG Wanshan , XIAO Yao , LIANG Junjie , YU Dunhui.Web text clustering method based on topic[J].journal of Computer Applications,2014,34(11):3144-3146.
Authors:ZHANG Wanshan  XIAO Yao  LIANG Junjie  YU Dunhui
Affiliation:School of Computer and Information Engineering, Hubei University, Wuhan Hubei 430062, China
Abstract:Concerning that the traditional Web text clustering algorithm without considering the Web text topic information leads to a low accuracy rate of multi-topic Web text clustering, a new algorithm was proposed for Web text clustering based on the topic theme. In the method, multi-topic Web text was clustered by three steps: topic extraction, feature extraction and text clustering. Compared to the traditional Web text clustering algorithm, the proposed method fully considered the Web text topic information. The experimental results show that the accuracy rate of the proposed algorithm for multi-topic Web text clustering is higher than the text clustering method based on K-means or HowNet.
Keywords:multi-topic  Web text  clustering  characteristic word  accuracy
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《计算机应用》浏览原始摘要信息
点击此处可从《计算机应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号