首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
会话识别是Web日志预处理过程中的一个重要环节,针对传统会话识别的不足,提出一种改进的会话识别算法.在识别出具体的用户之后,过滤大量的框架网页;然后根据每个页面的内容及网站结构,构造出相对合理的页面访问时间阈值,并以此阈值来进行用户的会话识别.最后通过实验数据,与几种传统的会话识别方法进行了比较,表明该算法更为合理有效.  相似文献   

2.
网络日志预处理中优化的会话识别算法   总被引:1,自引:0,他引:1  
研究网络日志预处理中会话识别问题,会话识别是网络日志数据预处理中最蘑要的一个环节.为使用户准确快速地找到需要的资源,传统网络日志预处理方法采用固定阈值会话识别算法,不能适合网络日志的动态性和不能很好消除网络日志中的冗余信息,导致后继网络日志数据挖掘效率和挖掘精度低.为更好消除网络日志冗余信息,提高后继数据挖掘的效率和精度,提出一种改进的网络日志预处理会话识别算法.新算法可根据页面内容、站点结构确定页面重要程度,对阈值进行动态调整,克服传统固定阈值缺陷,根据用户对页面内容的兴趣度删除不感兴趣页面,消除冗余信息,并对该算法进行了仿真.结果表明,相对于传统网络预测的会话识别算法,新算法能更准确地确定页面访问时间阈值,消除了网络日志冗余信息,提高了网络日志预处理效率和数据挖掘精度.  相似文献   

3.
数据预处理在Web日志挖掘过程中起着至关重要的作用,直接影响日志挖掘的质量和结果。详细分析了数据预处理的过程,提出一种改进的数据清洗方法,以提高日志挖掘中数据预处理的效率,并针对Web日志数据预处理中会话识别这一重要环节,提出一种改进的会话识别方法。在用户识别后,根据页面内容、站点结构确定页面重要程度,对阈值进行调整。然后,根据用户对页面内容的兴趣度来删除会话中的链接页面和不感兴趣的页面。实验结果表明,提出的方法能更准确地确定页面访问时间阈值,得到更为合理有效的会话集合。  相似文献   

4.
Web日志挖掘中数据预处理技术的研究   总被引:2,自引:1,他引:1  
数据预处理在Web日志挖掘过程中起着至关重要的作用,直接影响日志挖掘的质量和结果.详细分析了数据预处理的过程,提出一种改进的数据清洗方法,以提高日志挖掘中数据预处理的效率,并针对Web日志数据预处理中会话识别这一重要环节,提出一种改进的会话识别方法.在用户识别后,根据页面内容、站点结构确定页面重要程度,对阈值进行调整.然后,根据用户对页面内容的兴趣度来删除会话中的链接页面和不感兴趣的页面.实验结果表明,提出的方法能更准确地确定页面访问时间阈值,得到更为合理有效的会话集合.  相似文献   

5.
基于协同推荐的web日志预处理过程   总被引:3,自引:1,他引:3  
个性化推荐技术是电子商务系统中重要的技术,但对一般的非商务型网站如何向用户提供推荐服务成为当前研究的热点。Web日志记录了用户访问网站的详细信息,这为推荐技术提供了新的研究领域。本文提出了针对协同推荐算法的web日志预处理全过程。并对预处理过程的用户识别、会话识别、路径补充、用户兴趣评估进行了详细的探讨并提出了自己的见解。  相似文献   

6.
利用图片类日志信息改进会话识别质量   总被引:2,自引:0,他引:2  
范纯龙  姜宏飞  李华 《计算机应用》2010,30(4):1056-1058
数据预处理是Web日志挖掘的基础,而会话识别则是数据预处理的关键步骤,其质量严重影响Web日志挖掘的结果。在分析现有会话识别方法的基础上,提出了利用数据预处理中废弃的图片等日志数据,并结合扩展Web图结构,从页面分组规则和路径补全算法两个方面改进会话识别质量,并通过实验证实该方法对改善会话识别质量是有效的。  相似文献   

7.
Web使用挖掘数据预处理中的会话构造   总被引:7,自引:2,他引:5  
文章主要论述了在Web使用挖掘数据预处理中如何构造用户与网站之间的会话。首先,根据对Web服务器日志数据格式的分析,对会话概念进行了形式化描述;然后在分析目前会话构造方法的基础上,利用基于时间和引用的启发式方法来构造会话;最后依据评估会话构造方法的标准,通过实验对给出的新会话构造方法与其他方法进行了分析比较。  相似文献   

8.
本文先将原始Web日志进行预处理,即时Web日志进行数据清洗,用户识别,会话识别和格式转换等.再用蚁群聚类算法对预处理后的日志进行聚类分析,提取具有代表性的用户访问模式,最后用协同过滤推荐技术向网站访问者进行推荐,提供个性化服务,从而实现网站的个性化推荐.  相似文献   

9.
会话识别是Web日志挖掘中的数据预处理中的一个重要步骤。文中提出了一种改进的会话识别方法。首先,在用户识别后,进行框架页面的过滤,从而大大地减少了实验产生的有效页面,然后为页面设置访问时间阙值,并根据页面内容及站点结构确定的页面重要程度对该阈值进行调整。通过实验证明,相对于传统的对所有页面使用单一的先验阈值进行会话识别的方法,该方法所得到的会话集更具有真实性。  相似文献   

10.
改进的Web访问日志会话识别算法   总被引:4,自引:2,他引:2  
针对Web日志挖掘中的会话识别问题,分别对Timeout方法、参引长度法进行改进,提出了一种改进的会话识别方法.该方法运用网站的拓扑结构信息,动态设定各页面的时间间隔阀值,使页面时间间隔阀值同页面的重要程度结合起来.同时通过灵活界定内容页,并针对内容页,提出了一些启发式规则,突破了"参引长度法"所固有的一个会话中只包含一个内容页的瓶颈.该方法提高了会话识别的准确度,实验结果表明是有效的.  相似文献   

11.
Web日志挖掘数据预处理研究   总被引:6,自引:0,他引:6  
随着WWW的广泛应用及相应的Web技术的出现,数据挖掘的研究也进入了一个新的阶段。Web日志挖掘是Web数据挖掘研究领域中一个最重要的应用方面,而数据预处理在Web日志挖掘过程中起着至关重要的作用。Web日志挖掘就是运用数据挖掘的思想来对服务器日志进行分析处理。本文针对基于日志的数据挖掘,提出了前期的几种数据预处理方法,目的是分割服务器日志为多个独一无二的用户的一次访问序列,并给予了算法实现。  相似文献   

12.
Web使用挖掘的数据预处理   总被引:10,自引:0,他引:10  
Web使用挖掘的基本思想是将数据挖掘技术应用于Web使用数据源。在数据挖掘研究领域中,数据预处理起着至关重要的作用。Web使用挖掘的数据源最主要的是Web日志,介绍了Web日志的具体内容,针对Web日志的特点,介绍预处理过程中一些特殊情况的处理方法,并在事务的识别阶段给出了一种新的最大向前引用序列挖掘算法——剪枝算法。  相似文献   

13.
通过分析Web日志数据源的不准确性,提出了对Web日志数据源进行数据预处理的技术。结合实例详细介绍了数据净化、用户识别、会话识别、路径补充和事务识别等数据预处理技术。  相似文献   

14.
一种基于图结构挖掘WEB用户访问模式的方法   总被引:3,自引:0,他引:3  
挖掘Web用户访问模式常用的技术有Web挖掘特有的路径分析技术和数据挖掘领域的传统技术。文章首先分析了现有路径分析技术的不足,然后从Web用户访问模式挖掘过程预处理的结果用户会话文件开始,提出了一种基于Web拓扑结构(图结构)挖掘用户访问模式的方法,提高了发现模式的精确性和效率,并在实验室对该方法进行了简单实现和实际日志数据的测试。  相似文献   

15.
Web日志挖掘预处理中的Frame页面过滤算法   总被引:12,自引:0,他引:12  
Web日志挖掘是将数据挖掘技术应用到Web服务器的日志中,发现Web用户的行为模式,在介绍了典型的数据预处理技术的基础上,指出Frame页面降低了挖掘结果的兴趣性,并提出相应的解决方法-Frame页面过滤算法消除其影响。通过实验数据对该算法进行验证,说明Frame页面过滤算法可以显著地提高Web日志挖掘结果的兴趣性。  相似文献   

16.
一种基于Web日志文件的信息挖掘方法   总被引:19,自引:1,他引:19  
数据预处理和日志挖掘算法是Web日志挖掘中的关键技术。文中根据Web访问模式的用户特征,提出了一种基于Web日志文件的信息挖掘系统的体系结构。在此基础上,分析了其数据挖掘过程和信息挖掘算法。  相似文献   

17.
Web使用挖掘研究   总被引:5,自引:1,他引:5  
Web数据挖掘是数据挖掘技术在Web信息仓库中的应用与研究。Web数据挖掘包括Web内容挖掘、Web结构挖掘和Web使用挖掘三个研究方向,文中研究的重点是Web使用挖掘。Web使用挖掘研究的主要对象是用户的使用记录,研究的主要过程包括数据预处理、模式发现和模式分析。文中详细介绍了Web使用挖掘的最新研究成果,并对将来技术的研究方向和发展趋势进行了探讨性的预测与分析,为进一步的理论研究和实际应用工作提供了指导性的建议。  相似文献   

18.
Web访问挖掘预处理的用户识别算法   总被引:1,自引:0,他引:1  
Web访问挖掘是目前网上智能信息检索和电子商务的主要研究课题之一。该文主要对Web挖掘技术中的预处理过程进行了研究,着重分析了其中的用户识别方法,并给出了一个用户识别的通用算法。  相似文献   

19.
Advanced data preprocessing for intersites Web usage mining   总被引:2,自引:0,他引:2  
Web usage mining applies data mining procedures to analyze user access of Web sites. As with any KDD (knowledge discovery and data mining) process, WUM contains three main steps: preprocessing, knowledge extraction, and results analysis. We focus on data preprocessing, a fastidious, complex process. Analysts aim to determine the exact list of users who accessed the Web site and to reconstitute user sessions-the sequence of actions each user performed on the Web site. Intersites WUM deals with Web server logs from several Web sites, generally belonging to the same organization. Thus, analysts must reassemble the users' path through all the different Web servers that they visited. Our solution is to join all the log files and reconstitute the visit. Classical data preprocessing involves three steps: data fusion, data cleaning, and data structuration. Our solution for WUM adds what we call advanced data preprocessing. This consists of a data summarization step, which will allow the analyst to select only the information of interest. We've successfully tested our solution in an experiment with log files from INRIA Web sites.  相似文献   

20.
Web日志挖掘中的数据预处理的研究   总被引:41,自引:1,他引:40  
为了更加合理地组织Web服务器的结构,需要通过Web日志挖掘分析用户的浏览模式,而Web日志挖掘中的数据预处理工作关系到挖掘的质量。文章就此进行了深入的研究,提出一个包括数据净化、用户识别、会话识别和路径补充等过程的数据预处理模型,并通过一个实例具体介绍了各过程的主要任务。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号