首页 | 官方网站   微博 | 高级检索  
     

实时Web内容重复识别及排序系统的设计与实现
引用本文:李超,陈世强,谢坤武,向军.实时Web内容重复识别及排序系统的设计与实现[J].计算机工程与设计,2011,32(3):1138-1141.
作者姓名:李超  陈世强  谢坤武  向军
作者单位:湖北民族学院,信息工程学院,湖北,恩施,445000
基金项目:湖北省自然科学基金项目
摘    要:为了解决现有Web信息检索结果中存在较多内容相似甚至相同页面的问题,给出了实时Web内容和结构信息提取的算法及内容重复识别的方法。利用Google提供的PageRank查询接口取得各个页面的PageRank值,结合特定用户的特征信息、查询请求及提取的各Web页内容及结构信息,完成了文档相似度比较,实现了实时页面的重复识别及二次排序,实验结果表明该方法达到了较好的效果。

关 键 词:实时Web  结构信息  相似性  重复识别  排序

Design and implementation of real-time web repetition identification and sorting system
LI Chao,CHEN Shi-qiang,XIE Kun-wu,XIANG Jun.Design and implementation of real-time web repetition identification and sorting system[J].Computer Engineering and Design,2011,32(3):1138-1141.
Authors:LI Chao  CHEN Shi-qiang  XIE Kun-wu  XIANG Jun
Affiliation:(College of Information Engineering,Hubei Institute for Nationalities,Enshi 445000,China)
Abstract:
Keywords:
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号