首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
Web日志挖掘是对用户与Web服务器在交互时产生的数据,采用数据挖掘技术发现隐含的规律性知识。首先对Web日志挖掘进行了概述,重点研究了关联规则算法中的Apriori算法,并对Apriori算法进行了改进,最后给出具体实例。  相似文献   

2.
提出了使用网格技术的关联规则数据挖掘及实施,并分析、比较了经典Apriori算法和分布式Apriori算法的实施结果。通过WEKA工具对预评估系统的效率评估,和中心数据库上的Apriori和先验Apriori算法性能分析。在网格环境下可以通过减少数据处理时间、资源优化、负载分担来提高计算网络的效率并减少成本,从而使用户得到计算量更大、成本更低、速度更快的计算结果。还介绍了基于网格环境的分布式Apriori关联规则算法,并解释了如何获取知识。  相似文献   

3.
在介绍关联规则的相关概念后分析了关联规则经典的Apriori算法,探讨了Apriori算法在某商务网站用户行为分析中的具体应用,通过Apriori算法的挖掘结果分析出用户行为特征,即用户在点击购买不同商品时存在着某种必然或者大概率事件,从而改善网站结构,提高用户满意度.  相似文献   

4.
使用数据挖掘技术可以从用户的图书借阅数据中挖掘有价值的信息,获得用户的借阅行为,为用户提供个性化图书推荐服务。传统的关联规则算法在使用前不进行数据清洗,导致单一用户的单一借阅记录在整体数据集中相对地变成了离群点,使Apriori算法的运行时间显著增加。本文根据数据集的支持度、置信度和过滤度的阈值进行数据清洗,再使用Apriori算法对清洗后的数据集进行关联规则分析。实验结果表明在大数据量和小数据量的情况下,带有数据清洗的Apriori算法的分析耗时更短,强关联规则更强,在个性化图书推荐领域中效果显著。  相似文献   

5.
Apriori算法是关联规则挖掘中的经典算法。通过对Apriori算法的基本思想和性能的研究分析,提出了一种基于垂直事务列表的树形结构的挖掘算法,减少了候选频繁项集的数量,提高了挖掘算法的效率。实验结果表明新算法具有良好的性能。  相似文献   

6.
介绍电子商务和Web数据挖掘的概念,并介绍Web使用挖掘中应用最多的技术——Web日志挖掘.重点阐述了日志挖掘算法——关联规则的有关知识,以及改进的频繁项目集生成算法Apriori和强关联规则生成算法,并结合实例进行了分析研究.  相似文献   

7.
结合云计算平台提出了基于子集统计的关联规则算法,该算法能充分利用云计算的并行性特点,只需要扫描一次数据库,比传统的Apriori算法提高了效率,适用于大规模数据的关联规则挖掘.  相似文献   

8.
潘磊 《教育技术导刊》2009,19(9):186-189
为提升电网系统日志故障诊断效率,在 Spark 环境下,基于并行 Apriori 算法构建分布式日志故障挖掘系统,针对电网系统相关设备后台日志数据,构建频繁项集并挖掘关联规则,形成系统故障规则库,用于系统故障诊断。系统对 50 万条真实日志数据进行检验。结果表明,该系统可有效发现相关故障日志。同时,该系统在 80G 内存、10 个虚拟节点的集群上以 50s 的速度完成了故障挖掘工作,准确率达 90%,同时提升了原单机系统效率,实现了预期效果。  相似文献   

9.
关联规则可在庞大的数据集中找出不同事务之间隐藏的关系,其中Apriori算法是关联规则分析中较为有效的办法。然而,Apriori算法产生候选项集的效率较低且扫描数据过于频繁,造成算法计算需要耗费较长时间。另外,初始定义的最小支持度与最小置信度也不足以过滤无用的关联规则。针对以上问题,利用概率理论与有效的参数设置,在原有Apriori算法基础上,提出一种基于概率事务压缩的关联规则改进算法。数值算例结果表明,新算法可在第二次迭代之后,大幅减少低效候选项集,从而提升经典Apriori算法效率。  相似文献   

10.
提出了一种采用关联规则提高用户访问速度的方法,并通过对服务器的访问日志进行挖掘,得到用户访问序列的关联规则,将这些规则应用于客户浏览,把用户随后最有可能访问的网页预先传送到用户本地,以提高访问速度.详细论述了该方法的实现方案、算法、运行的环境以及对该方法的分析。  相似文献   

11.
计算机软件蕴含大量工作信息,有效挖掘软件数据信息之间的内在关联是信息时代对软件应用的潜在要求。针对经典Apriori算法挖掘数据效率低、复杂度高的问题,提出一种改进Apriori算法用于挖掘计算机软件数据的关联规则。为计算机软件算法设置双重支持度阈值,即频繁项集与非频繁项集支持度阈值,快速获得强关联的频繁项集;在此基础上基于映射规则重构事务数据库,压缩数据库规模,减少算法的剪枝操作,降低计算机软件数据关联规则挖掘复杂度。以人力资源类计算机软件数据为例展开关联分析测试,结果显示,该算法挖掘的关联信息与人力资源实际管理情况一致,相比经典Apriori算法其效率有所提升。  相似文献   

12.
探讨数据挖掘在现今关联规则算法中的使用情况,提出目前研究关联规则的研究现状,针对现状,总结出一种新的研究分析关联方法,指出关联规则算法在今后的出路以及进一步的研究方向。利用分析文献查询和比较分析方法,阐述各种方法对典型关联的影响,其中作为一个为基点是以核心Apriori的算法。结论是Apriori算法仍然有一些不能消除的缺点,这有待进一步研究,同时指出今后的研究方向需要提高大量数据的运算效率,并且能够与OLAP相互结合生产结果的可视化。  相似文献   

13.
为明确中医治疗抑郁症用药规律,融合Apriori优化算法与Relim算法,采用数据挖掘技术进行分析。针对传统Apriori算法频繁扫描数据库从而生成大量候选项集的缺点,改变其原有剪枝方式以减少扫描次数。将改进后的Apriori算法与无需产生候选项集的Relim算法就中医治疗抑郁症的方剂数据进行关联规则分析,并绘制两个算法时间效率图。结果发现,两种算法在挖掘药物频繁项集与关联规则的结果基本相同,通过分析发现,中医常以疏肝、理气、补肾、滋阴等药物为主治疗抑郁症。改进后的Apriori算法可降低数据库扫描次数,较传统Apriori算法运行效率有所提高,Relim算法在空间利用率和时间执行率上均略优于改进后的Apriori算法。两种算法挖掘结果体现出中医治疗抑郁症注重疏肝理气、补肾滋阴、调理气血等特点。基于关联规则的方法可作为中医用药规律分析的重要工具。  相似文献   

14.
潘磊 《教育技术导刊》2009,19(10):152-155
为了提高电力系统中故障预测效率及便捷性,提出一种基于FP-Growth算法的电力系统故障预测方法,无需先验知识及人工标注,便可从海量历史日志数据中快速提取出故障信息模式,并基于实时日志数据对未来可能发送的系统故障进行预测。该方法首先根据电力系统不同类型的日志特征对原始数据进行预处理,然后基于FP-Growth算法挖掘日志中与故障事件相关的关联规则,并使用关联规则进行故障匹配,从而达到预测效果。算法经过真实电力系统日志数据集测试,结果表明该故障预测方法平均准确率为89.5%,平均召回率为79.8%,且执行效率较高,节省了业务人员50%以上的时间。  相似文献   

15.
罗新 《教育技术导刊》2017,16(12):128-130
在陶瓷行业信息聚合网站的基础上,通过Web日志分析可以获取网站用户的访问情况,但是随着Web服务器上日志的剧增,在单机上运行日志分析或挖掘程序变得越来越不可行。采用Hadoop并行计算平台对日志进行预处理,然后对页面访问量、用户访问量、网站流量等指标进行统计,还应用Apriori算法对日志进行挖掘,对群集在不同节点数、不同数据集以及不同最小支持度的情形下的性能进行比较。实验结果表明,在Hadoop平台上,随着集群节点的增加,大数据集处理性能会得到较大提升。应用Hadoop 平台构建的日志分析平台可以为陶瓷行业信息聚合平台的管理者提供各种有价值的信息。  相似文献   

16.
提出基于云计算平台(以Hadoop为例)应用布尔矩阵Apriori算法进行大数据关联规则挖掘的MR_B_Apriori算法。将Hadoop平台与布尔矩阵Apriori算法相结合,利用MapReduce框架分块处理布尔矩阵,计算出分块数据的频度,合并融合得到大数据集的频繁项集。分析表明MR_B_Apriori算法能够适用于大数据的频繁项集挖掘。  相似文献   

17.
介绍了关联规则挖掘的情况,并在分析Apriori算法的基础上,提出一个优化的Apriori算法,减少了扫描数据库的次数,从而提高了挖掘的效率。  相似文献   

18.
本文主要研究了数据挖掘中关联规则挖掘算法的改进方法,通过分析经典的Apriori算法,找出算法的不足.提出了一种基于矩阵行向量运算的频繁集挖掘的关联规则挖掘算法思想,并对Apriori算法进行了改进。  相似文献   

19.
关联规则可在大量数据中找出事务的隐藏联系,其中,Apriori算法是关联规则分析中较为有效的方法。然而,经典Apriori算法需频繁扫描数据库和事务集,使在生成频繁项集的过程中产生大量候选项集。针对该问题,利用事务集对应权重和初始数据库映射形成的布尔矩阵,在经典Apriori算法的基础上,提出一种改进算法。数值算例结果表明,改进后的算法能较为明显地减少计算时间,从而提升经典Apriori算法效率。  相似文献   

20.
日志是计算机取证、入侵检测分析的重要数据来源,运用关联规则挖掘算法对日志进行分析是获取日志中所蕴含有用信息的重要方法,针对基于置信度-支持度框架的常用关联规则挖掘算法在日志分析中存在的不足,引入日志关键属性的概念,提出了基于关键属性约束的关联规则挖掘算法。实验结果表明,该算法能有效阻止无趣规则的产生,提高挖掘结果的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号