首页 | 官方网站   微博 | 高级检索  
     

基于Spark字典表压缩存储的关联规则算法优化
引用本文:刘丽娜,姜利群.基于Spark字典表压缩存储的关联规则算法优化[J].计算机应用与软件,2021,38(8):37-43.
作者姓名:刘丽娜  姜利群
作者单位:广州工商学院计算机科学与工程系 广东 广州510850
摘    要:针对大数据新型处理框架Spark执行Apriori算法存在速率低、内存负荷高等不足,提出一种改进的Apriori优化算法.基于字典表压缩存储的机制,结合Spark框架中列式存储模式对多维多属性值的数据集进行压缩,通过Spark集群进行数据并行处理.实验表明,该算法比原算法执行速率提高23%以上,且在数据量越大的情况下其优势更明显.该算法具有降低内存负荷量、去候选频繁项集、提高执行速率等优势,且解决了多维多属性值数据集的分析难题,具备一定的应用价值.

关 键 词:联规则  算法优化  压缩存储  字典表

OPTIMIZATION OF ASSOCIATION RULES ALGORITHM BASED ON SPARK DICTIONARY TABLE COMPRESSED STORAGE
Liu Li'na,Jiang Liqun.OPTIMIZATION OF ASSOCIATION RULES ALGORITHM BASED ON SPARK DICTIONARY TABLE COMPRESSED STORAGE[J].Computer Applications and Software,2021,38(8):37-43.
Authors:Liu Li'na  Jiang Liqun
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号