首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
分布式序列模式发现算法的研究   总被引:12,自引:0,他引:12  
邹翔  张巍  刘洋  蔡庆生 《软件学报》2005,16(7):1262-1269
提出算法FDMSP(fast distributed mining of sequential patterns),以解决分布式环境下的序列模式挖掘问题.首先对分布式环境下序列模式的性质进行了分析.算法采用前缀投影技术划分模式搜索空间,利用序列模式前缀指定选举站点统计序列的全局支持计数,利用局部约减、选举约减、计数约减等方法减少候选序列数,同时将算法分为3个子过程异步运行,使得算法具有较低的I/O开销、内存开销和通信开销,从而高效地生成全局序列模式.实验结果显示,在具有海量数据的局域网环境中,FDMSP算法的性能优于将数据集中后采用GSP算法68.5%~99.5%,并且FDMSP算法具有良好的可伸缩性.  相似文献   

2.
一种新的蛋白质序列模式挖掘算法   总被引:2,自引:1,他引:1  
针对传统模式挖掘方法挖掘蛋白质序列会生成大量候选模式或多次构造投影数据库,导致效率降低,挖掘过程中会产生不必要的短模式或错误模式等问题,提出基于模式划分的MBioPM算法。理论分析和实验表明,MBioPM算法的性能高于其他相关算法。  相似文献   

3.
序列模式挖掘的一种渐进算法   总被引:24,自引:0,他引:24  
周斌  吴泉源 《计算机学报》1999,22(8):882-887
序列模式挖掘是数据挖掘中最重要的研究课题之一,基于时序相关数据的序列模式挖掘有其自身的特色。作者提出一种渐进式序列模式挖掘算法IMSP,目的是在数据库变化不大时,能够利用前次的结果,加速本次挖掘过程。  相似文献   

4.
针对带时间约束的序列模式,提出了一种改进的挖掘算法TSPM,克服了传统的序列模式挖掘方法时空开销大,结果数量巨大且缺少针对性的缺陷.算法引入图结构表示频繁2序列,仅需扫描一次数据库,即可将与挖掘任务相关的信息映射到图中,图结构的表示使得挖掘过程可以充分利用项目之间的次序关系,提高了频繁序列的生成效率.另外算法利用序列的位置信息计算支持度,降低了处理时间约束的复杂性,避免了反复测试序列包含的过程.实验证明,该算法较传统的序列模式发现算法在时间和空间性能上具有优越性。  相似文献   

5.
PretixSpan算法解决了类Apriori算法的不足,但产生的投影数据库花费了较多的存储空间及扫描时间.本文基于PretixSpan算法提出PSD算法,舍弃了对非频繁项的存储及对投影序列数小于最小支持数的投影数据库的扫描,减少了不必要的存储空间,提高了查询速度.实验证明,PSD算法比PretixSpan算法具有更好的时空性能.  相似文献   

6.
闭合序列模式挖掘算法   总被引:3,自引:1,他引:2  
提出了一种新的挖掘闭合序列模式的PosD算法,该算法利用位置数据保存数据项的顺序信息,并基于位置数据列表保存数据项的顺序关系提出了两种修剪方法:逆向超模式和相同位置数据。为了确保栅格存储的正确性和简洁性,另外还针对一些特殊情况做处理。试验结果表明,在中大型数据库和小支持度的情况下谊算法比CloSpan算法更有效。  相似文献   

7.
8.
在加权序列模式挖掘中,基于候选码生成-测试方法的MWSP是目前应用性最好的算法之一,然而在挖掘过程中容易出现候选组合爆炸的情况,为此文章提出了一种高效的加权序列模式挖掘算法(PWSM)。PWSM算法引入k-最小加权支持数概念并利用前缀投影数据库原理有效地避免了候选组合爆炸的发生,并且在挖掘的过程中充分利用最小加权支持数,再次对算法进行优化。实验表明,该算法较MWSP算法能更加有效地从序列数据库中挖掘加权序列模式。  相似文献   

9.
研究了如何使用SP-Feature来压缩序列模式。SP-Feature是一种简洁表示序列模式的新颖结构。一种新的相似性度量被用来聚类SP-Feature,同时也给出了SP-Feature的合并方法。基于层次聚类框架,设计了一种有效的挖掘压缩序列模式的算法CSP。在真实和模拟数据上的大量实验表明CSP能够快速有效地压缩序列模式(在稠密数据集上的恢复误差小于4%)。  相似文献   

10.
针对传统模式挖掘方法挖掘生物序列会生成大量不必要的短而且无用的模式,导致效率降低,在多支持度思想的基础上提出了基于邻近频繁模式段的模式挖掘算法JBioPM。首先,产生邻近短频繁模式段,然后组合这些短频繁模式段,产生新的长频繁模式。通过实验分析,该方法在相似性很强的序列数据库中比BioPM算法效率高。通过对真实的蛋白质序列家族库的处理,证明该算法能有效处理生物序列数据。  相似文献   

11.
序列模式挖掘综述   总被引:4,自引:0,他引:4  
综述了序列模式挖掘的研究状况。首先介绍了序列模式挖掘背景与相关概念;其次总结了序列模式挖掘的一般方法,介绍并分析了最具代表性的序列模式挖掘算法;最后展望序列模式挖掘的研究方向。便于研究者对已有算法进行改进,提出具有更好性能的新的序列模式挖掘算法。  相似文献   

12.
针对CloSpan算法分两个阶段挖掘闭合序列模式中第一阶段需要保持候选序列且未充分利用项的位置信息、存在对数据库重复扫描和计算大小的不足,提出了posCloSpan算法。算法通过对二级索引结构进行检索实现向前剪枝,避免数据库重复扫描以及对超序索引表、子序索引表的检测,实现非闭合序列的修剪,无须保存候选序列。实验结果证明,算法在处理较长序列以及存在大量重复投影数据库的数据源时,有效降低了时间上的开销。  相似文献   

13.
一种挖掘多维序列模式的有效方法   总被引:1,自引:0,他引:1       下载免费PDF全文
提出了一种新的多维序列模式挖掘算法,首先在序列信息中挖掘序列模式,然后针对每个序列模式,在包含此模式的所有元组中的多维信息中挖掘频繁1-项集,由得到的频繁1-项集开始,循环的由频繁(k-1)-项集(k>1)连接生成频繁k项集,从而得到所有的多维模式。该算法通过扫描不断缩小的频繁(k-1)-项集来生成频繁k项集,减少了扫描投影数据库的次数,因而减少了时间开销,实验表明该算法有较高的挖掘效率。  相似文献   

14.
针对序列模式挖掘,提出频繁2序列图(F2SG)来表示数据库中的序列信息,通过扫描一次数据库,将与挖掘任务相关的信息映射到F2SG中,并在此基础上提出一种新的序列模式发现算法——GBSP。GBSP算法充分利用F2SG中表示的项目之间的次序关系进行频繁序列挖掘,提高了其生成效率。理论分析与实验表明,该算法较传统的序列模式发现算法在时间和空间性能上具有优越性。  相似文献   

15.
Sequential pattern mining is an important data mining problem with broad applications. However,it is also a challenging problem since the mining may have to generate or examine a combinatorially explosivenumber of intermediate subsequences. Recent studies have developed two major classes of sequential patternmining methods: (1) a candidate generation-and-test approach, represented by (i) GSP, a horizontal format-basedsequential pattern mining method, and (ii) SPADE, a vertical format-based method; and (2) a pattern-growthmethod, represented by PrefixSpan and its further extensions, such as gSpan for mining structured patterns. In this study, we perform a systematic introduction and presentation of the pattern-growth methodologyand study its principles and extensions. We first introduce two interesting pattern-growth algorithms, FreeSpanand PrefixSpan, for efficient sequential pattern mining. Then we introduce gSpan for mining structured patternsusing the same methodology. Their relative performance in l  相似文献   

16.
研究了如何使用SP-Feature来压缩序列模式。SP-Feature是一种简洁表示序列模式的新颖结构。一种新的相似性度量被用来聚类SP-Feature,同时也给出了SP-Feature的合并方法。基于层次聚类框架,设计了一种有效的挖掘压缩序列模式的算法CSP。在真实和模拟数据上的大量实验表明CSP能够快速有效地压缩序列模式(在稠密数据集上的恢复误差小于4%)。  相似文献   

17.
Web序列模式挖掘是Web数据挖掘重要研究内容之一。在WAP算法的基础上提出了一种改进算法,该算法在Web序列模式挖掘过程中不需要反复生成条件树,从而提高了算法的运行效率。实验表明,该算法在运行时间上相对于WAP算法具有明显的优势。  相似文献   

18.
在企业营销活动中,对现有客户进行有针对性的交叉营销活动,可以节省开支,增加企业利润,将引入多维属性和多种约束的改进序列模式算法用于构建交叉营销模型,提出了增加老客户价值、进行交叉营销的合理可行的数据挖掘步骤,用以指导企业的营销决策.试验结果表明,该方法有着很好的理论价值和应用价值.  相似文献   

19.
用户访问兴趣路径挖掘方法   总被引:1,自引:1,他引:1  
针对当前挖掘用户访问模式算法仅将频繁访问路径作为用户浏览兴趣路径的问题,依据使用Web日志挖掘用户兴趣页面时,通过引入页面信息量参数,综合考虑页面访问次数、浏览时间和页面信息量大小来定义用户兴趣度,提出了基于兴趣度的用户访问模式挖掘算法。实验证明该算法是有效的,在用户浏览兴趣度量方面比当前的频繁访问路径挖掘算法更准确。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号