首页 | 官方网站   微博 | 高级检索  
     

搜索引擎用户点击行为分析
引用本文:王继民,彭波.搜索引擎用户点击行为分析[J].情报学报,2006,25(2):154-162.
作者姓名:王继民  彭波
作者单位:1. 北京大学信息科学技术学院,北京,100871;中国科学院资源环境科学信息中心,兰州,730000
2. 北京大学信息科学技术学院,北京,100871
基金项目:国家高技术研究发展计划(863计划);高等学校博士学科点专项科研项目;中国博士后科学基金
摘    要:基于大规模分布式搜索引擎系统———北大“天网”的用户点击记录,本文研究发现:用户点击不同URL的数量遵从Heaps定律,点击URL的频度频级服从类Zipf分布,点击URL与页面大小相关,点击URL具有时间局部性,其顺序具有自相似性特征等一些具有普适性的规律。提出了利用点击日志确定相近查询词的一个新的有效算法。这些研究结果对于掌握用户的搜索行为,完善搜索引擎系统的设计,提高检索服务的效率和质量具有重要的意义。

关 键 词:搜索引擎  点击日志  用户行为  分布特征  相似查询
修稿时间:2005年6月10日

User Behavior Analysis for a Large-scale Search Engine
Wang Jimin,Peng Bo.User Behavior Analysis for a Large-scale Search Engine[J].Journal of the China Society for Scientific andTechnical Information,2006,25(2):154-162.
Authors:Wang Jimin  Peng Bo
Abstract:Tianwang Search Engine is a large-scale search engine system which is now maintaining index of about 240 millions web pages and 20 millions ftp files.In this paper,we analyze the clickthrough data in the click log of the WWW search service of Tianwang.The results show that the number of unique URLs selected by users conforms to Heaps law,and the popularity versus rank for the URLs selected by users is well fit by a Zipf-like distribution.The frequency of the URLs selected by users is correlated to their page size.The clicking of URLs also present high degree of locality.For a given query,a new and effective(algorithm) is presented to find the related queries.All these research results are very important to improve the effectiveness and efficiency of the search engine system and to the research on the search behavior of the users.
Keywords:search engine  click log  user behavior  characteristic distribution  similar query    
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号