首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 234 毫秒
1.
基于Hadoop的Web日志挖掘   总被引:3,自引:0,他引:3       下载免费PDF全文
程苗  陈华平 《计算机工程》2011,37(11):37-39
基于单一节点的数据挖掘系统在挖掘Web海量数据源时存在计算瓶颈,针对该问题,利用云计算的分布式处理和虚拟化技术的优势,设计一种基于云计算的Hadoop集群框架的Web日志分析平台,提出一种能够在云计算环境中进行分布式处理的混合算法。为进一步验证该平台的高效性,在该平台上利用改进后的算法挖掘Web日志中用户的偏爱访问路径。实验结果表明,在集群中运用分布式算法处理大量的Web日志文件,可以明显提高Web数据挖掘的效率。  相似文献   

2.
当面对海量数据时,基于单一节点的Web数据挖掘存在时间和空间效率上的瓶颈.针对该问题,提出一种在Hadoop平台下实现Web日志挖掘的并行FP-growth算法,利用Hadoop分布式文件系统和MapReduce并行计算模型处理日志文件.实验结果表明,该算法的加速比能随着数据集的增大而提高,其执行效率优于串行FP-growth算法.  相似文献   

3.
Web日志数据中保存有大量用户访问信息,而Web日志挖掘就是对系统日志信息以及用户的注册数据等进行挖掘,以发现有用的模式和知识。首先介绍了Web日志挖掘的基本流程,然后介绍了电子商务中的日志挖掘,并着重分析了在模式识别中如何利用改进的关联规则算法来挖掘出用户频繁访问的路径和页面兴趣度,为个性化推荐系统模型提供了依据,从而证实了对Web日志数据进行挖掘具有很重要的现实意义。  相似文献   

4.
针对学生网络学习环境设计了一种新颖的个性化教学推荐系统。该系统通过测试学生的学习风格和挖掘Web浏览日志,构造了不同学生学习风格和Web使用习惯的模型。首先利用Item-Based Top-N推荐算法对数据稀疏的学习风格测量数据进行处理,实现对学生学习风格的诊断;然后,采用AprioriAll算法挖掘Web浏览日志中序列频繁集,分析出学生Web使用的常见习惯和兴趣;最后,依据不同的学习风格和Web使用习惯实现学习内容的个性化推荐。模拟实验表明,该推荐系统的设计是可行并有效的,能够很好地符合用户的真实需求。  相似文献   

5.
Web日志中保存着用户访问网站的大量信息,通过挖掘预处理后的日志数据,可以得到用户聚类,URL聚类以及用户频繁访问路径等诸多有用信息。本文先分析处理网站的日志数据,再阐述了Web日志挖掘的算法,最后讨论了Web日志挖掘的应用。  相似文献   

6.
随着互联网发展带来的数据爆炸,使得 Web日志的数据量也越来越大,如何从海量的 Web 日志中挖掘有价值的信息成为了目前研究的热点。本文提出基于 Hadoop 集群框架对 Web 日志进行挖掘。实验结果表明,该集群系统既可以处理海量的 web 日志,同时也能够挖掘出有价值的信息,并证实了利用sqoop在 Hive仓库和传统数据库之间数据迁移的可行性。  相似文献   

7.
随着社会和经济的快速发展,科技不断进步。笔者就Web日志挖掘系统的各部分工作情况进行了相应分析。一般来说,Web挖掘最基本的研究领域包括Web内容挖掘、结构挖掘、使用挖掘。基于此,阐述了从数据挖掘、Web数据挖掘到Web日志挖掘的一系列过程,专门介绍了该系统的一些算法。在上述内容的基础上,对该系统进行具体设计,并通过.NET实现该系统的功能。  相似文献   

8.
一种基于Web日志文件的信息挖掘方法   总被引:19,自引:1,他引:19  
数据预处理和日志挖掘算法是Web日志挖掘中的关键技术。文中根据Web访问模式的用户特征,提出了一种基于Web日志文件的信息挖掘系统的体系结构。在此基础上,分析了其数据挖掘过程和信息挖掘算法。  相似文献   

9.
Web挖掘在考试系统中应用   总被引:4,自引:0,他引:4  
阐述了在考试系统的研究和应用中,利用Web挖掘技术,有效地对考生考试过程中的数据记录到日志文件中,并对日志文件进行有效地分析和挖掘;利用Apriori改进算法FT-树增长算法,找出对考试系统及基于Web的其他教学和管理工作 有指导作用的关联规律。  相似文献   

10.
为了更加合理地组织Web服务器的结构,需要通过Web日志挖掘分析用户的访问模式.数据预处理和日志挖掘算法是Web日志挖掘中的关键技术.文章就此进行了深入的研究,在已知用户访问路径的基础上,提出一种基于MFP算法的日志挖掘算法,并结合实例具体介绍了该算法的执行过程.  相似文献   

11.
分析Web日志数据的特点,把时态约束应用到Web日志数据挖掘中可以获得更好的效率。文章从概化的角度给出了一个基于Web日志的时态关联规则挖掘算法,并用一段用户会话事务数据为例,介绍了具体挖掘过程。  相似文献   

12.
为对多个服务注册中心提供支持,方便服务访问日志的记录与挖掘,提出一种基于P2P的分布式服务执行挖掘框架。针对跨组织业务关联的需求,利用该框架构建服务注册联盟机制,设计基于日志库的Web服务关联规则挖掘算法进行组合服务频繁序列挖掘。仿真结果表明,该算法能有效挖掘日志库中的执行与交互信息,提高服务选择与组合效率。  相似文献   

13.
时空轨迹大数据分布式蜂群模式挖掘算法   总被引:1,自引:0,他引:1  
针对时空轨迹大数据的蜂群模式挖掘需求,提出了一种高效的基于MapReduce的分布式蜂群模式挖掘算法。首先,提出了基于最大移动目标集的对象集闭合蜂群模式概念,并利用最小时间支集优化了串行挖掘算法;其次,提出了蜂群模式的并行化挖掘模型,利用蜂群模式时间域无关性,并行化了聚类与子时间域上的蜂群模式挖掘过程;第三,设计了一个基于MapReduce链式架构的分布式并行挖掘算法,通过四个阶段快速地实现了蜂群模式的并行挖掘;最后,在Hadoop平台上,使用真实交通轨迹大数据集对分布式算法的有效性和高效性进行了验证与分析。  相似文献   

14.
基于网络的数据挖掘系统设计   总被引:2,自引:0,他引:2  
在研究数据挖掘系统具有的一般性设计原理基础上,针对其无法应用于网络数据的缺陷,根据网络数据存储量大且组织分散的特点,围绕如何利用多Agent的智能性、协作性、互操作性等良好特性,引入多种Agent,构建一种基于多Agent的网络数据挖掘系统,并提出设计这种基于网络的数据挖掘系统目标、原理和功能模块.  相似文献   

15.
基于Web挖掘的个性化算法及其在网络教学平台的应用   总被引:11,自引:1,他引:10  
高鹏  高岭  王峥  胡青山 《计算机应用》2005,25(5):1012-1015
在Web挖掘的基础上设计针对Web服务的Web访问事务模型WTM和个性化推荐算法。算法以WTM为基础,旨在根据用户的访问模式向用户推荐个性化的Web资源。其利用关联规则得到的频繁项集实时地匹配用户的当前访问序列,对不同的用户提供不同的推荐资源。在此过程中不需产生所有的关联规则,提高了推荐的效率。最后,将该模型和算法应用于网络教学实践得出了个性化的网络教学环境。  相似文献   

16.
针对目前在搜索方面的数据量大、搜索延迟的特点,提出了基于云计算的Web挖掘的搜索模型.采用提出的基于Map/Reduce模型的改进型算法,通过仿真实验验证了该算法的可行性,在一定程度上减少了搜索的代价,提高了搜索效率.  相似文献   

17.
本文介绍了Web数据挖掘的概念及其分类,并对Web数据挖掘技术的研究进行概述。利用Apriori算法发现频繁集,找到页面间的关联规则。针对网页超链接结构的特点:一条超链接只能建立在两个网页上,发现频繁集只要找出所有2-项集即可,从而提出网页超链接挖掘的NApriori算法。NApriori算法显著提高了Apriori算法的效率。  相似文献   

18.
隐私保护的数据挖掘近年来已经为数据挖掘的研究热点,Web网站的服务器日志保存了用户访问页面的信息,如果不加以保护会导致用户隐私数据的泄漏。针对这个问题,讨论了在Web数据挖掘中用户行为的隐私保护问题,进而提出一种将Web服务器日志信息转换成关系数据表的方法,并通过随机化回答方法产生干扰数据表项中信息,再以此为基础,提供给数据使用者进行频繁项集以及强关联规则的发现算法,从而得到真实保密的网上购物篮商品间的关联规则。经实验证明,提出的Web使用挖掘中的隐私保护关联规则挖掘算法隐私性较好,具有一定的适用性。  相似文献   

19.
一种基于Web服务的分布式数据挖掘体系结构   总被引:4,自引:0,他引:4  
分布式数据挖掘是数据挖掘领域的一个新兴研究课题,而其主要问题是知识共享和软组件重用。结合Web服务技术的跨平台、统一数据表示格式以及可实现软组件重用和数据重用等优点,文中提出了一种基于Web服务的分布式数据挖掘体系,可实现分布式异构环境下的大容量数据的数据挖掘.旨在对异构数据库的数据挖掘进行一些有意义的探讨。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号