实时Web内容重复识别及排序系统的设计与实现 Design and implementation of real-time web repetition identification and sorting system期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

实时Web内容重复识别及排序系统的设计与实现

引用本文：	李超,陈世强,谢坤武,向军.实时Web内容重复识别及排序系统的设计与实现[J].计算机工程与设计,2011,32(3):1138-1141.

作者姓名：	李超陈世强谢坤武向军

作者单位：	湖北民族学院,信息工程学院,湖北,恩施,445000

基金项目：	湖北省自然科学基金项目

摘要：	为了解决现有Web信息检索结果中存在较多内容相似甚至相同页面的问题,给出了实时Web内容和结构信息提取的算法及内容重复识别的方法。利用Google提供的PageRank查询接口取得各个页面的PageRank值,结合特定用户的特征信息、查询请求及提取的各Web页内容及结构信息,完成了文档相似度比较,实现了实时页面的重复识别及二次排序,实验结果表明该方法达到了较好的效果。
关键词：	实时Web 结构信息相似性重复识别排序
Design and implementation of real-time web repetition identification and sorting system

LI Chao,CHEN Shi-qiang,XIE Kun-wu,XIANG Jun.Design and implementation of real-time web repetition identification and sorting system[J].Computer Engineering and Design,2011,32(3):1138-1141.

Authors:	LI Chao CHEN Shi-qiang XIE Kun-wu XIANG Jun

Affiliation:	(College of Information Engineering,Hubei Institute for Nationalities,Enshi 445000,China)

Abstract:

Keywords:
本文献已被 CNKI 万方数据等数据库收录！