首页 | 官方网站   微博 | 高级检索  
     

Web日志挖掘中数据预处理技术的研究
引用本文:于飞,丁华福,姜伦.Web日志挖掘中数据预处理技术的研究[J].微机发展,2010(5):47-50.
作者姓名:于飞  丁华福  姜伦
作者单位:哈尔滨理工大学计算机科学与技术学院;
基金项目:国家自然科学基金项目(60736014)
摘    要:数据预处理在Web日志挖掘过程中起着至关重要的作用,直接影响日志挖掘的质量和结果。详细分析了数据预处理的过程,提出一种改进的数据清洗方法,以提高日志挖掘中数据预处理的效率,并针对Web日志数据预处理中会话识别这一重要环节,提出一种改进的会话识别方法。在用户识别后,根据页面内容、站点结构确定页面重要程度,对阈值进行调整。然后,根据用户对页面内容的兴趣度来删除会话中的链接页面和不感兴趣的页面。实验结果表明,提出的方法能更准确地确定页面访问时间阈值,得到更为合理有效的会话集合。

关 键 词:Web日志挖掘  数据预处理  会话识别  数据清洗

Research on Data Preprocessing Technology in Web Log Mining
YU Fei,DING Hua-fu,JIANG Lun.Research on Data Preprocessing Technology in Web Log Mining[J].Microcomputer Development,2010(5):47-50.
Authors:YU Fei  DING Hua-fu  JIANG Lun
Affiliation:YU Fei,DING Hua-fu,JIANG Lun (College of Computer Sci.& Tech.,Harbin Univ.of Sci.& Tech.,Harbin 150080,China)
Abstract:Data preprocessing plays an essential role in the process of Web log mining,directly influenced the quality of the Web log mining and its results.Analyses data preprocessing process for Web log mining in detail,proposes an improved method of data cleaning,to improve the efficiency in data preprocessing of log mining,and proposes an improved method of session identification to Web log data preprocessing.The threshold is adjusted by the page weightness based on site's structure after the user identification.T...
Keywords:Web log mining  data preprocessing  session identification  data cleaning  
本文献已被 CNKI 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号