首页 | 官方网站   微博 | 高级检索  
     

基于重复检测的多摘要消重方法
引用本文:程菲,汪建海,罗键.基于重复检测的多摘要消重方法[J].计算机工程与设计,2006,27(23):4521-4524,4555.
作者姓名:程菲  汪建海  罗键
作者单位:厦门大学,自动化系,福建,厦门,361005
摘    要:针对目前Web信息挖掘中存在大量页面重复的问题,从Web信息的组织角度对其中的一些关键问题进行深入分析,提出了基于关键词的部分相似页面消重算法——Web多摘要消重方法(multi abstractremoverepeat,MARR)。MARR方法对传统基于词表和倒排文件的Web信息数据库进行改装,增加一个字段用于记录关键词所对应的摘要块号,采用文本摘要算法,按倒排文件方式索引,根据内容基于查询词目的相似程度,在检索过程中过滤或标识与查询词目相关的部分内部重复现象,以获得更合理的检索结果组织形式。MARR方法还将传统按PageRank值顺序排列改成树型组织方式,以方便用户信息发现的需要。该方法在基于三明钢铁集团MES智能信息代理的原型化Web检索系统中得到应用。

关 键 词:信息检索  消重方法  文本摘要  倒排文件  树型组织
文章编号:1000-7024(2006)23-4521-04
收稿时间:2005-11-29
修稿时间:2005-11-29

Multi abstract remove repeat method for web mining research
CHENG Fei,WANG Jian-hai,LUO Jian.Multi abstract remove repeat method for web mining research[J].Computer Engineering and Design,2006,27(23):4521-4524,4555.
Authors:CHENG Fei  WANG Jian-hai  LUO Jian
Affiliation:Department of Automation, Xiamen University, Xiamen 361005, China
Abstract:
Keywords:information retrieval  remove repeat method  text abstract  converse file  tree structure
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号