首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
序列挖掘算法产生冗余序列,造成其运行时间过长.对此,提出了一种新的闭合序列挖掘算法——时序关系下的闭合序列模式挖掘算法.依据闭合序列模式的性质,通过比较频繁序列与每个1-项频繁序列之间的时序关系,推断频繁序列模式是否可扩展.基于IBM公司的合成数据,将其与闭合序列模式挖掘算法进行比较,实验结果表明,这种新的闭合序列挖掘算法可以有效降低运行时间且不易受到属性值个数的影响.  相似文献   

2.
为提高用户的使用效率,提出基于连续查询模式挖掘(CQPM)算法的联机分析处理(OLAP)查询日志挖掘及推荐方法.CQPM算法在双向扩展频繁闭合序列模式挖掘算法(BIDE)的基础上加入查询之间的间隔约束,确保查询模式的连续性.提出方法通过基于查询后缀树的模糊查询模式匹配(AQPM)算法预测用户下一步有效查询,并将预测结果按概率大小排序后推荐给用户.通过8名OLAP分析人员在Mondrian OLAP服务器上的查询日志对提出方法进行性能评价,结果表明,相较基于prefixspan的改进算法,采用CQPM算法能够去除数量庞大的冗余的查询模式,相较基本的前缀匹配算法,AQPM算法能够提高推荐的准确率.  相似文献   

3.
提出了一种GML文档结构聚类新算法MCF_CLU.与其它相关算法不同,该算法基于闭合频繁Induced子树进行聚类,聚类过程中不需树之间的两两相似度比较,而是挖掘GML文档数据库的闭合频繁Induced子树,为每个文档求一个闭合频繁Induced子树作为该文档的代表树,将具有相同代表树的文档聚为一类.聚类过程中自动生成簇的个数,为每个簇形成聚类描述,而且能够发现孤立点.实验结果表明算法MCF_CLU是有效的,且性能优于其它同类算法.  相似文献   

4.
频繁情景可用于挖掘蕴藏在事件序列数据库中的知识,为了提高算法的时间性能,提出了一种挖掘频繁情景的并行算法PRE。研究了局部频繁情景与全局频繁情景的关系;通过研究频繁情景挖掘中事件可删除的条件,提出了逐步缩减数据库的技术,使得算法在迭代过程中需要扫描的数据库大小逐渐减少。数据实验表明,仅采用数据库缩减技术时算法PRE的时间性能比算法WINEPI提高25%,并行挖掘时算法PRE的并行效率与处理器个数近似成线性关系。  相似文献   

5.
针对序列模式挖掘进行探索,通过对项目加权体现项目的重要性,进而实现序列的加权;加权后,频繁序列的子序列不一定频繁,因此提出序列的最小加权支持概念,并由此提出了加权序列模式挖掘算法MWSP。仿真实验结果表明,与同类算法WSpan比较,MWSP算法更能体现序列的重要性。  相似文献   

6.
针对垂直分布下的隐私保护关联规则挖掘算法效率低、安全性不高的问题,提出一种隐私保护频繁闭合项集的挖掘算法。算法利用挖掘频繁闭合项集代替频繁项集,IT-Tree作为搜索空间,Diffsets作为压缩结构,采用基于RSA可交换加密算法的隐私保护集合差集协议。实验结果表明,算法具有较好的隐私性、准确性、高效性。  相似文献   

7.
为进一步解决对大型数据库进行关联规则挖掘时产生的CPU时间开销大和I/O操作频繁问题,给出一种改进的关联规则挖掘算法(ARMAC).该算法引入有向无环图和tidlist结构用以提高频繁项目集的计算效率,并将数据库划分为内存可以满足要求的若干部分,解决了对大型数据库挖掘时磁盘操作频繁的问题,从而有效地适用于大型数据库的关联规则挖掘.该算法吸取连续关联规则挖掘(CARMA)算法的优势,只需扫描两次数据库便可完成挖掘过程.实验结果表明:该算法在大型事务数据库中具有更高的执行效率.  相似文献   

8.
针对学生程序抄袭导致考核可信度降低而人工检测抄袭工作量巨大的问题,提出了程序雷同检测模型,首先通过词法分析将程序转换成token序列,并将其散列映射为数字序列;然后采用BIDE挖掘算法挖掘频繁闭合序列;在此基础上,识别相似代码片段,并计算程序之间的相似度,进而判定程序是否雷同。实验结果表明,与目前应用广泛的雷同程序检测工具MOSS相比,本文方法提高了雷同检测的准确性,不但可以准确地给出雷同统计信息,还能够较为直观地显示雷同代码片段。  相似文献   

9.
最频繁项集挖掘决定了文本关联规则挖掘算法的性能,是文本关联规则挖掘中研究的重点和难点。该文分析了当前最频繁项集挖掘方面的不足,改进了传统的倒排表,结合最小支持度阈值动态调整策略,提出了一个新的基于改进的倒排表和集合理论的Top-N最频繁项集挖掘算法。同样,给出了几个命题和推论,并把它们用于该文算法以提高性能,实验结果表明,所提算法的规则有效率和时间性能优于NApriori算法和IntvMatrix算法。  相似文献   

10.
在频繁模式挖掘(FPM)的研究中,为了在海量数据流中有效地挖掘子树结构的频繁模式,根据数据流和子树模式的特点,提出了一种基于数据流的频繁标记闭子树挖掘(SFCLTreeMiner)算法. 该算法首次对动态数据流中频繁标记闭子树的挖掘进行研究,给出了在数据流中标记闭子树集合添加、删除的批量挖掘方法,并结合时间衰减模型,有效保证了结果的时效性. 实验结果表明,该算法在挖掘性能,如挖掘时间和内存占用等方面,比类似算法有较大提高.  相似文献   

11.
基于关联图的频繁闭模式挖掘   总被引:1,自引:1,他引:0  
将关联图的数据挖掘思想应用到频繁闭模式的挖掘中,使用位向量的技术简化项集支持度的计算,构造关联图表示项集间的频繁关系.在此基础上,提出一种频繁闭模式挖掘算法,针对频繁闭模式的特点,结合剪枝策略、子集检测策略、搜索策略等技术手段,优化算法性能.实验结果表明,该算法在时间性能上优于经典的频繁闭模式算法CLOSET.  相似文献   

12.
王璇 《丹东纺专学报》2011,(2):154-158,163
将关联图的数据挖掘思想应用到频繁闭模式的挖掘中,使用位向量的技术简化项集支持度的计算,构造关联图表示项集间的频繁关系。在此基础上,提出一种频繁闭模式挖掘算法,针对频繁闭模式的特点,结合剪枝策略、子集检测策略、搜索策略等技术手段,优化算法性能。实验结果表明,该算法在时间性能上优于经典的频繁闭模式算法CLOSET。  相似文献   

13.
Indirect association is a high level relationship between items and frequent item sets in data. There are many potential applications for indirect associations, such as database marketing, intelligent data analysis, web -log analysis, recommended system, etc. Existing indirect association mining algorithms are mostly based on the notion of post - processing of discovery of frequent item sets. In the mining process, all frequent item sets need to be generated first, and then they are fihered and joined to form indirect associations. We have presented an indirect association mining algorithm (NIA) based on anti -monotonicity of indirect associations whereas k candidate indirect associations can be generated directly from k - 1 candidate indirect associations, without all frequent item sets generated. We also use the frequent itempair support matrix to reduce the time and memory space needed by the algorithm. In this paper, a novel algorithm (NIA2) is introduced based on the generation of indirect association patterns between itempairs through one item mediator sets from frequent itempair support matrix. A notion of mediator set support threshold is also presented. NIA2 mines indirect association patterns directly from the dataset, without generating all frequent item sets. The frequent itempair support matrix and the notion of using tm as the support threshold for mediator sets can significantly reduce the cost of joint operations and the search process compared with existing algorithms. Results of experiments on a real - word web log dataset have proved NIA2 one order of magnitude faster than existing algorithms.  相似文献   

14.
与传统静态数据库中的数据不同,数据流是一个按时间到达的有序的项集,这使得经典的频繁项集挖掘算法难以适用到数据流中.根据数据流的特点,提出了数据流频繁项集挖掘算法FP—SegCount.该算法将数据流分段并利用改进的FP—growth算法挖掘分段中的频繁项集.然后,利用Count Min Sketch进行项集计数.算法解决了压缩统计和计算快速高效的问题.通过和FP—Ds算法的实验对比,FP—SegCount算法具有较好的时间效率.  相似文献   

15.
一种多重最小支持度关联规则挖掘算法   总被引:5,自引:0,他引:5  
针对单一最小支持度挖掘关联规则不能反应不同数据项出现频度与性质的问题,提出了一个基于频繁模式树的多重支持度关联规则挖掘算法MSDMFIA(Multiple minimum Supports for Discover Maximum Fre-quent Item sets Algorithm),根据不同数据项的特点定义多重支持度,通过挖掘数据库中的最大频繁项目集,计算最大频繁候选项目集在数据库中的支持度来发现关联规则.该算法可以解决关联规则挖掘中经常出现的稀少数据项问题,并解决了传统的关联规则挖掘算法中的生成频繁候选集和多次扫描数据库的性能瓶颈.实验结果表明,本文提出的算法在功能和性能方面均优于已有算法.  相似文献   

16.
对Apriori算法加以改进,提出了一种更高效的关联规则挖掘算法,在扫描数据库的同时把支持每个项目的事务都标记出来,采用一种新的方法来计算候选项目集的支持度.该算法只需对源数据库进行一次扫描,就可以找出所有的频繁集,具有很高的效率.  相似文献   

17.
为了进一步提高频繁项集挖掘算法的可扩展性,对频繁项集的搜索空间以及FP-tree的操作方法进行了研究.提出了通过FP-tree的操作实现频繁项集快速挖掘的相关性质和新的搜索策略,在此基础上提出了基于FP-tree的频繁项集挖掘的改进算法.算法运用递增构建候选项集模式树的策略缩小搜索空间,运用FP-tree的部分遍历操作简化搜索过程.在多个标准测试数据集上的实验结果表明,该算法的执行时间比同类算法减少了一个数量级,且占用较少的内存空间,因此该算法对于提高频繁项集和频繁闭项集的挖掘效率具有明显的效果.  相似文献   

18.
提出了一种基于MapReduce模型,利用向量矩阵和Apriori算法实现关联规则数据挖掘的新算法.算法利用MapReduce模型处理向量矩阵,结合Apriori算法思想,产生局部频繁项集,通过合并处理得到全局频繁项集.实验证明算法能提高关联规则挖掘的效率.  相似文献   

19.
对Apriori算法的分析,提出采用分解事务数据库中最长的项集,使用前缀划分的表示方法,从而快速地归纳出事务数据库中的最大频繁项集.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号