首页 | 官方网站   微博 | 高级检索  
     

中文RSS信息自动检索与分类研究
引用本文:李庆诚,左珊珊,董振华,张金.中文RSS信息自动检索与分类研究[J].计算机工程,2011,37(6):79-81.
作者姓名:李庆诚  左珊珊  董振华  张金
作者单位:南开大学信息技术科学学院,天津,300071
基金项目:天津市软件产业发展专项基金资助项目
摘    要:设计并实现了RSS垂直爬虫算法,利用广度优先算法聚焦于RSS源进行自动采集,并在文本分词基础上,针对RSS源进行词语权重计算方法的改进及词语过滤,利用VSM方法实现RSS自动分类。实验结果表明,RSS系统在较低的负载下,能以较高的效率和正确率实现中文RSS信息自动检索与分类,从而有效进行RSS信息聚合管理。

关 键 词:RSS  信息检索  爬虫  中文文本分类  向量空间模型

Research on Automatic Retrieval and Classification for Chinese RSS Information
LI Qing-cheng,ZUO Shan-shan,DONG Zhen-hua,ZHANG Jin.Research on Automatic Retrieval and Classification for Chinese RSS Information[J].Computer Engineering,2011,37(6):79-81.
Authors:LI Qing-cheng  ZUO Shan-shan  DONG Zhen-hua  ZHANG Jin
Affiliation:(College of Information Technical Science,Nankai University,Tianjin 300071,China)
Abstract:This paper presents a web crawler fitting for RSS which uses breadth-first algorithm and focuses on RSS to carry out automatically collection.And based on word segment,it improves the method to calculate word weight,works on word filtering,and implements automatically classification aiming at RSS using VSM.Experimental result shows that the system achieves to retrieve and classify Chinese RSS information with lower system cost and higher accuracy.And it can take manage of RSS information syndication effectively.
Keywords:Really Simple Syndication(RSS)  information retrieval  crawler  Chinese text classification  VSM
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程》浏览原始摘要信息
点击此处可从《计算机工程》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号