排序方式: 共有64条查询结果,搜索用时 15 毫秒
11.
针对大数据中的频繁项集挖掘问题,提出一种基于Spark框架的FP-Growth频繁项集并行挖掘算法。首先,根据垂直布局思想将数据按照事务标识符垂直排列,以此解决扫描整个数据集的缺陷。然后,通过FP-Growth算法构建频繁模式树,并生成频繁1-项集。接着,通过扫描垂直数据集来计算项集的支持度,从而识别出非频繁项,并将其从数据集中删除以降低数据尺寸。最后,通过迭代过程来生成频繁 -项集。在标准数据集上的实验结果表明,该算法能够有效挖掘出频繁项集,在执行时间方面具有很大的优越性。 相似文献
12.
13.
为提高换流站运维人员面对海量生成事件的分析能力,提出一种考虑换流站海量事件的关联规则挖掘分析方法。首先,利用原始事件元组特性进行记录事件与响应日志的实体特征筛选,并进行换流站实体特征的布尔映射与关联挖掘建模。然后,利用互信息(MI)原理与对称不确定性(SU)理论改进FP-Growth算法。最后,基于改进算法进行换流站事件关联分析,进而基于关联规则结果进行换流站异常反馈。通过挖掘昆柳龙直流换流站调试期间海量生成事件,表明所提出的方法可以有效地从海量事件中提取判断特征与结果特征的强关联规则,及时发现换流站的设备异常动作,并为运维分析提供决策支撑。 相似文献
14.
随着移动互联网技术的发展,通过手机进行阅读已经成为人们的一种生活习惯。为了帮助读者在成千上万的“书海”中找到自己喜欢的图书,提出将经典的频繁项集挖掘算法FP-Growth应用到图书推荐系统中。算法根据读者的历史阅读记录,挖掘频繁出现的图书阅读组合,提取满足最小支持度和最小置信度阈值的强关联性规则,并根据关联规则进行图书智能推荐。实例证明该系统能够为读者提供快速、准确的智能推荐服务。 相似文献
15.
16.
电力行业信息化已然成为新时代之大势所趋,对于电力调度运维中心来说,如何确保信息系统各种软硬件资源的正常运行是一个值得研究的重要问题。文章充分利用运维监管方法,提出一种基于FP-Growth关联规则算法的电网企业信息运维故障诊断模型。首先对电网信息系统运维监管模式进行了构建,根据电力企业规程和运维人员的实际经验制定了一系列运维指标。然后在此基础之上详细设计了信息运维故障诊断模型,分析在不同指标违规的情况下诊断推理的过程,并将其应用到实际运行的电网企业信息系统实时监管平台(ISRMP)中。最后介绍了某省电力有限公司信息通信公司ISRMP的初步实践。 相似文献
17.
从数据集中挖掘数据间的相互关系及其关联规则是数据挖掘研究领域的核心内容之一,为了挖掘实体表现出的数据特征与实体具备因素间的关系,提出了一种挖掘方法.先采用聚类分析的方法对实体的数据进行了聚类,再通过关联分析的方法分析聚类簇中实体的因素,继而得出实体具备的因素与实体数据间的相互影响及其关联规则.通过该方法分析了学生具有的因素对学生学习成绩的影响,分析结果表明了方法的可行性. 相似文献
18.
19.
在日益激烈的通信对抗中,未知协议的分析与识别占据着越来越重要的位置.传统的协议分析主要是针对已知协议类型条件下,对互联网数据传输过程中产生的大量比特流,单纯采用模式匹配方式进行特征序列提取,效率较低.针对这一问题,以更普遍的通信数据流作为研究对象,采用模式匹配和数据挖掘相结合的方法,对AC多模式识别和FP-Growth算法进行了改进和优化,提高了特征序列提取的准确率和效率.实际数据验证证明改进后算法对未知通信协议具有一定的识别效率. 相似文献
20.
一种基于FP-Growth的频繁项目集并行挖掘算法 总被引:1,自引:0,他引:1
FP-Growth算法是基于FP树挖掘频繁项目集的经典算法,为提高FP-Growth算法挖掘大规模数据频繁项目集的效率,提出了一种基于FP-Growth的频繁项目集并行挖掘算法FPPM。该算法基于Map/Reduce并行模型,在每个计算节点上首先构造局部频繁模式树,并对之进行挖掘得到局部频繁项目集,然后合并局部频繁项目集以得到全局频繁项集,由于此时得到的结果并不完备,所以对合并后未达到最小支持度阈值的项目集,重新计算其支持数。介绍了FPPM算法的设计思想,测试了其性能。实验结果表明FPPM算法具有较好的可扩展性。 相似文献