首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
Web日志挖掘是目前Web挖掘研究的一个重点.针对Web日志挖掘中存在的问题,给出了基于数据仓库技术的Web日志挖掘方案,就数据预处理、数据立方体设计及数据挖掘技术的应用进行了较为深入的探讨.并以一个Web站点日志为例,详细阐述了Web日志数据预处理、Web日志立方体设计以及数据挖掘算法的实现过程,并实现了一个Web日志多维数据集,能够有效解决Web日志分析中的难题.  相似文献   

2.
Web日志挖掘是Web数据挖掘研究领域中一个最重要的应用方面。该文首先介绍了Web日志挖掘产生的背景,然后介绍了Web日志挖掘的基本概念,着重阐述了Web日志挖掘的预处理和日志挖掘算法两个关键技术,最后介绍了Web日志挖掘的应用,提出了其发展方向。  相似文献   

3.
文章在分析Web日志的基础上,结合西华师范大学计算机学院WWW站点的访问日志,主要论述了在Web日志挖掘前所做的准备工作--数据预处理.数据预处理是整个Web日志挖掘过程的基础和实施有效挖掘算法的前提,在Web日志挖掘中起着重要的作用.  相似文献   

4.
Web日志数据中保存有大量用户访问信息,而Web日志挖掘就是对系统日志信息以及用户的注册数据等进行挖掘,以发现有用的模式和知识。首先介绍了Web日志挖掘的基本流程,然后介绍了电子商务中的日志挖掘,并着重分析了在模式识别中如何利用改进的关联规则算法来挖掘出用户频繁访问的路径和页面兴趣度,为个性化推荐系统模型提供了依据,从而证实了对Web日志数据进行挖掘具有很重要的现实意义。  相似文献   

5.
文章介绍了Web挖掘技术的概念、意义、研究现状以及分类,Web日志挖掘是Web数据挖掘的重要分支,已成为研究人员关注的焦点。本文对日志挖掘过程中的数据预处理和模式发现进行了深入的讨论,并总结了Web日志挖掘的关键技术。  相似文献   

6.
Web日志中保存着用户访问网站的大量信息,通过挖掘预处理后的日志数据,可以得到用户聚类,URL聚类以及用户频繁访问路径等诸多有用信息。本文先分析处理网站的日志数据,再阐述了Web日志挖掘的算法,最后讨论了Web日志挖掘的应用。  相似文献   

7.
Web挖掘常常被分成Web内容挖掘、Web结构挖掘和Web使用挖掘三类。Web使用挖掘又称为Web日志挖掘,是指从万维网用户的导航行为中发现有价值的信息的一种数据挖掘技术。Web日志挖掘一般有4个步骤:数据预处理、挖掘过程、模式分析和知识发现。数据预处理是对网站日志文件中的数据进行整理,清洗不完全的、杂乱的、噪声数据;模式分析是指提取用户不感兴趣的信息,并找到用户感兴趣的模式的过程;知识发现是指从日志文件中收集并发现有用知识的统计。主要介绍Web日志挖掘与Web结构挖掘相结合来完成挖掘过程及其应用。  相似文献   

8.
Web日志挖掘数据预处理研究   总被引:6,自引:0,他引:6  
随着WWW的广泛应用及相应的Web技术的出现,数据挖掘的研究也进入了一个新的阶段。Web日志挖掘是Web数据挖掘研究领域中一个最重要的应用方面,而数据预处理在Web日志挖掘过程中起着至关重要的作用。Web日志挖掘就是运用数据挖掘的思想来对服务器日志进行分析处理。本文针对基于日志的数据挖掘,提出了前期的几种数据预处理方法,目的是分割服务器日志为多个独一无二的用户的一次访问序列,并给予了算法实现。  相似文献   

9.
Web日志挖掘数据预处理过程技术研究   总被引:11,自引:2,他引:11  
在Web数据挖掘研究领域中,Web日志挖掘是Web数据挖掘研究领域中一个最重要的应用方面。本文介绍了面向Web日志的数据挖掘预处理的一般过程并给出了用户识别的算法实现。  相似文献   

10.
基于用户访问树的Web日志挖掘数据预处理   总被引:1,自引:0,他引:1  
刘加伶  范军 《计算机科学》2009,36(9):154-156
在Web日志挖掘中数据预处理是整个挖掘过程的基础,直接影响日志挖掘的质量和结果.提出了一种基于用户访问树的Web日志挖掘数据预处理方法,该方法在处理过程中根据Web日志建立用户访问树,并利用用户访问树进行用户和事务识别,从而可以在缺乏网站拓扑结构的情况下准确地对Web日志进行预处理.  相似文献   

11.
秦东霞  姚遥 《电脑学习》2012,2(1):31-34
Web日志挖掘是Web数据挖掘的一个重要研究领域。Web日志挖掘通过发现Web日志中用户的访问规律和模式,可以提取出其中潜在的规律和信息,人们对这个领域的研究也日益重视。然而,传统的基于关联规则的Web日志挖掘算法都是基于所有关联规则的。这种方式往往挖掘产生大量的候选规则,而且存在大量冗余的规则。提出了一种新的无冗余的Web日志挖掘算法,该算法通过引入频繁闭项集合最小关联规则的概念,从而解决了以往基于所有关联规则挖掘算法中出现的上述问题。  相似文献   

12.
Web使用挖掘研究及实现   总被引:4,自引:2,他引:4  
Web使用挖掘并不是简单地把数据挖掘算法应用在Web日志上,由于WWW体系结构的特殊性(包括Web站点上物理路径和逻辑路径的不一致),必须采用一种新的框架来处理挖掘过程。整个挖掘过程可以分为两大部分:ECLF日志预处理和在预处理后的数据集上进行挖掘。文中从应用的角度出发,在分析了这两个过程的具体流程后,给出了一个完整的Web使用模式挖掘解决方案和从Web日志中挖掘关联规则的系统原型。  相似文献   

13.
王勇  李战怀  张阳 《计算机工程》2006,32(12):39-41
目前许多研究关注如何利用序列关联规则预测用户最近的HTTP请求,这些研究主要利用次序信息或时间信息来进行剪枝,以提高预测的精度。该文对不同序列关联规则进行了分析和比较,给出了不同次序信息和时间信息的条件下各种序列模式挖掘算法。并使用实验比较这些算法的预测精度。通过对实验结果的分析,为进一步提高预测的精度指明了方向。  相似文献   

14.
在对Web应用挖掘的基本步骤作系统性研究的基础上,设计了一个基于Web日志文件的关联规则挖掘模块。该系统应能够对用户访问Web时服务器方留下的访问记录进行挖掘,从中得出用户的访问模式和访问兴趣。为了识别用户浏览模式,实现了利用关联规则挖掘算法Apriori对Web应用挖掘过程中预处理阶段所产生的用户会话文件进行挖掘的模块,该模块针对用户选定的若干页面产生满足最小支持度和最小置信度的页面之间的强关联规则,并以文本的形式显示挖掘的结果。  相似文献   

15.
介绍一个基于关联规则数据挖掘Web日志分析的实现方法,提出通过对Apriori算法的改进,提高其挖掘效率,根据其结果,达到理解用户行为和改善Web结构的目的.  相似文献   

16.
一种基于异构系统发现日志本体关联规则的方法   总被引:1,自引:0,他引:1  
孙明  陈波  周明天 《计算机科学》2009,36(12):187-190
构建日志本体之上的访问模式关联规则是语义Web使用挖掘的主要任务之一.在DL-safe规则的限定下,将日志本体和一阶应用规则相结合,构成异构日志知识库,以提高Web日志系统的知识表示和推理能力.在此基础上借助ILP理论从异构日志知识库中挖掘出频繁用户访问模式,并生成访问模式关联规则,以发现用户访问行为之间更丰富的潜在关联知识.该方法提高了语义Web使用挖掘的质量,为改进站点结构提供了更有效的决策知识.实验结果证明了该方法的可行性和有效性.  相似文献   

17.

With millions of Web users visiting Web servers each day, the Web log contains valuable information about users' browsing behavior. In this work, we construct sequential classifiers for predicting the users' next visits based on the current actions using association rule mining. The domain feature of Web-log mining entails that we adopt a special kind of association rules we call latest-substring rules, which take into account the temporal information as well as the correlation information. Furthermore, when constructing the classification model, we adopt a pessimistic selection method for choosing among alternative predictions. To make such prediction models useful, especially for small devices with limited memory and bandwidth, we also introduce a model compression method, which removes redundant association rules from the model. We empirically show that the resulting prediction model performs very well.  相似文献   

18.
针对传统的Web service安全性测试方法存在的低效性和盲目性,提出了一种基于Web service日志挖掘的安全关联规则挖掘算法,并阐述了算法的应用环境。通过该算法挖掘出正常行为的关联规则,采用错误注入的方式对Web service注入预先设计的构造算子,并把执行后的日志与关联规则进行比较,进而发现Web service存在的安全性问题。实验结果表明,该算法较大地提高了日志挖掘的效率及覆盖率,同时应用该算法能较好地检测出Web service的安全性问题,进一步表明提出的算法是可行有效的。  相似文献   

19.
Web使用挖掘是近年来Web数据挖掘中的研究热点。针对传统遗传算法在提取关联规则问题时常采用固定染色体交叉概率和染色体变异概率,容易出现早熟、收敛速度较慢的问题,提出了改进的遗传算法,并在关联规则的提取中增加了用户页面兴趣度这一阈值,成功地运用到某商业网站服务器日志挖掘。实验证明,这种改进的遗传算法能够有效避免早熟收敛现象,是一种有效的方法。  相似文献   

20.
一种基于关联分类方法的Web用户兴趣预测   总被引:1,自引:0,他引:1  
对用户分类是Web挖掘的一个重要的研究方向。文中提出一种基于关联规则的分类方法,并且将它应用于用户兴趣预测。首先对服务器日志文件预处理,形成一个访问事务集。然后对该事务集进行数据挖掘,找出所有的满足最小支持度的类别关联规则。最后用这些类别关联规则去预测用户的兴趣。实验证明此方法是有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号