首页 | 官方网站   微博 | 高级检索  
     

基于文档重要度的静态索引剪枝方法
引用本文:李晓明,单栋栋. 基于文档重要度的静态索引剪枝方法[J]. 华南理工大学学报(自然科学版), 2011, 39(4): 1-6. DOI: 10.3969/j.issn.1000-565X.2011.04.001
作者姓名:李晓明  单栋栋
作者单位:北京大学信息科学技术学院,北京,100871
基金项目:国家自然科学基金,广东省计算机网络重点实验室资助项目,"核心电子器件、高端通用芯片及基础软件产品"国家科技重大专项项目
摘    要:针对网页质量参差不齐、重要程度差别巨大的问题,提出了按照网页重要程度确定其剪枝幅度的静态索引剪枝方法,并在GOV2数据集上进行了验证.实验结果表明:这种方法体现了静态索引剪枝能极大降低存储需求、提高查询效率的优点;当剪枝后的索引大小是原始大小的13%时,P@10、P@20值能达到甚至超过使用完整索引时的结果;在相同的剪...

关 键 词:搜索引擎  倒排索引  静态索引剪枝  文档重要度

Static Index Pruning Based on Document Importance
Li Xiao-ming,Shan Dong-dong. Static Index Pruning Based on Document Importance[J]. Journal of South China University of Technology(Natural Science Edition), 2011, 39(4): 1-6. DOI: 10.3969/j.issn.1000-565X.2011.04.001
Authors:Li Xiao-ming  Shan Dong-dong
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号