排序方式: 共有64条查询结果,搜索用时 15 毫秒
1.
关联规则挖掘是数据挖掘领域的重要研究方向之一。频繁项集的挖掘是关联规则挖掘的第一步,也是最重要的步骤。FP-Growth(Frequent Pattern-Growth)算法因其挖掘效率以及空间复杂度方面的优势被广泛应用于频繁项集挖掘任务中。面对海量数据,FP-Growth算法挖掘效率变得极低甚至失效。在Hadoop大数据平台上实现的基于MapReduce框架的并行FP-Growth算法——PFP算法解决在处理大规模数据时传统算法失效的问题,但是由于其将每次执行之后的中间结果输出到磁盘,降低算法执行效率。为提高并行FP-Growth算法执行效率,提出一种基于Spark的SPFPG算法。该算法运用负载均衡思想对分组策略进行改进,综合考虑分区计算量和FP-Tree规模两个因素,保证每个组之间负载总和近似相等。在Spark上实现FP-Growth算法——SFPG算法的基础上,实现优化后的SPFPG算法。实验结果表明,SPFPG算法相比SFPG算法挖掘效率更高,且算法具有良好的扩展性。 相似文献
2.
入侵检测系统作为一种主动的信息安全防御措施,有效地弥补了传统安全防护技术的不足,利用数据挖掘善于从大量数据中提取有用规则的特点,提出了一种改进的FP-Growth关联分析算法的网络入侵检测防御系统模型,该方法可以极大地提高数据挖掘的速度和节省数据挖掘中数据存储的空间。 相似文献
3.
4.
关联规则分析是最常用的数据挖掘方法,其目的是利用历史数据记录,从中发现属性之间的关联,有效地协助有关管理部门进行决策分析。利用关联规则中的FP-Growth算法对网上招聘系统数据库进行挖掘,从中发现属性之间的关联规则,即用人单位的录用规律,有效地协助有关部门在招生过程中指导学生选择专业,克服大家在选择专业时的盲目性,优化专业结构,从而提高就业率。 相似文献
5.
6.
针对中文在线评论中产品属性词的提取,提出了一种基于互自扩展模式的半监督学习方法。利用较少的人工参与,通过FP-Growth算法挖掘频繁项集获得种子属性词,通过增量迭代发现新的属性词,在每一轮迭代中,通过计算提取词与提取模式的置信度,确保了算法的准确性,同时避免了主题偏移。最后通过相似提取模式获得复合提取词,大大减少了因分词及词性标注错误所导致的属性词挖掘错误,以牺牲较少准确率的代价换取了较高的召回率。实验结果表明:本文算法对产品属性提取的F值可以达到78.97%,结果优于文献中其它类似提取算法。 相似文献
7.
Apriori和FP-Growth算法是频繁模式挖掘中的经典算法,由于Apriori存在更多缺陷,因此FP-Growth是单机计算环境下比较高效的算法。然而,对于非并行计算在大数据时代遇到的瓶颈,提出一种基于事务中项间联通权重矩阵的负载平衡并行频繁模式增长算法CWBPFP。算法在Spark框架上实现并行计算,数据分组时利用负载均衡策略,存入分组的数据是相应频繁项的编码。每个工作节点将分组数据中每一个事物中项的联通信息存入一个下三角联通权重矩阵中,使用被约束子树来加快每个工作节点挖掘频繁模式时创建条件FP-tree的速度,再用联通权重矩阵避免每次挖掘分组中频繁模式时对条件模式基的第一次扫描。由于联通权重矩阵和被约束子树的结合应用于每一个工作节点的FP-tree挖掘过程,因此提升了并行挖掘FP-tree性能。通过实验表明,所提出的并行算法对大的数据有较高性能和可扩展性。 相似文献
8.
《计算机应用与软件》2016,(5)
频繁项集挖掘FIM(Frequent Itemsets Mining)是关联规则挖掘算法的重要组成部分。而经典Apriori和FP-Growth算法在海量数据处理时面临内存占用、计算性能等方面的瓶颈。基于Hadoop云计算平台,提出适用大数据处理的频繁项集挖掘HBFP(High Balanced parallel FP-growth)算法,设计后缀模式转换的数据分割及均衡任务分组方案,使计算节点本地拥有计算所依赖的数据,实现不同节点相互独立的并行数据挖掘方法,并保证算法全局的负载均衡特性。实验数据表明,HBFP算法能均匀地将计算量分散至不同计算节点,并行且相互独立地进行FP-Growth挖掘过程,算法效率提高了约12%,算法全局稳定性及效率取得提升。 相似文献
9.
10.
在日益激烈的通信对抗中,未知协议的分析与识别占据着越来越重要的位置.传统的协议分析主要是针对已知协议类型条件下,对互联网数据传输过程中产生的大量比特流,单纯采用模式匹配方式进行特征序列提取,效率较低.针对这一问题,以更普遍的通信数据流作为研究对象,采用模式匹配和数据挖掘相结合的方法,对AC多模式识别和FP-Growth算法进行了改进和优化,提高了特征序列提取的准确率和效率.实际数据验证证明改进后算法对未知通信协议具有一定的识别效率. 相似文献