首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 421 毫秒
1.
关联规则是数据挖掘领域的一个重要分支,而发现频繁项目集是关联规则数据挖掘中的关键问题.频繁项目集是在给定的交易数据库D下满足最小支持度和最小置信度下的一个项目集合,但随着数据集的增减,就会产生不同的频繁项目集.如何发现在数据集变化情况下频繁项目集快速和高效地更新是文中解决的问题.为此提出了一种改进的增量更新算法,实验结果表明此算法有较好的效果.  相似文献   

2.
王云  苏勇 《科学技术与工程》2008,8(7):1824-1827
城市机动车数量的增加已经导致城市交通事故的频繁发生,能否对已发生事故做出正确的分析将直接影响到能否对未来类似事故的成功避免.随着社会的发展,道路交通事故系统的复杂性也在逐渐增强,传统的分析、预防方法已呈现其局限性.现提出一种使用数据挖掘领域中的多维关联规则技术分析大量交通事故记录的方法,通过找出可能导致交通事故发生的频繁因素组合来发现某些事故发生的规律,以期为道路安全管理提供科学的决策依据.通过该方法,我们可以有效地识别和发现事故数据的新模式,且能为交通管理决策提供有效支持,该方法易于实现,便于推广.  相似文献   

3.
应用立方体工具计算频繁维谓词集的方法   总被引:2,自引:2,他引:2  
关联规则是数据挖掘中重要的挖掘模式,数据立方体很适合挖掘多维关联规则,多维关联规则挖掘中最重要的工作是频繁维谓词集的获得.具体应用OLAPServices工具有效获得频繁维谓词集的具体方法现有书籍介绍较少.通过一个高校学生信息系统的实际例子,对经由数据立方和MDX语言对有效计算频繁维谓词集的方法进行了有意的探索.  相似文献   

4.
在大数据挖掘中使用经典Apriori算法时,会产生大量的候选集,并需要扫描数据库中所有数据,使得其在实现过程中效率大大降低。为了提高Apriori算法的应用效率,通过建立线性链表记录每个事务中的项数,以达到事务压缩的目的;设置up值来提高1-项频繁集组合的门槛,发现支持度比较大的2-项候选集,以达到剪枝的目的;通过实验来设置up的取值范围,使最终产生的频繁项集的误差能够在接受的范围。实验证明提出的改进方法可以在找出绝大部分关联规则的同时,提高算法运行的效率。  相似文献   

5.
关联规则的递增修正   总被引:1,自引:0,他引:1  
关联规则是数据挖掘的重要研究内容.由于数据库中频繁追加新数据,使得已挖掘的关联规则发生变化,递增修正技术用于维护与修正关联规则.讨论了关联规则的递增修正问题,提出了递增修正算法(FIU).FIU算法通过减小支持率,将频繁模式集合扩大,访问新追加的数据,对关联规则进行修正.FIU算法减少了数据的访问,提高了递增修正的速度.分析了支持率和频繁模式集合大小的关系,并对算法FIU和算法FUP进行了比较.  相似文献   

6.
关联规则是数据挖掘领域中最重要的研究内容,能够在数据库中发现频繁模式和关联知识。对关联规则及其相关挖掘算法Apriori进行了分析,指出了Apriori算法存在的缺点。通过基于预处理的改进Apriori算法在高校教学评价中的应用,说明数据挖掘过程,分析挖掘结果,最后指出了未来的研究方向。  相似文献   

7.
提高频繁项集挖掘算法的效率一直是数据挖掘领域中关联规则挖掘研究的一个重点。Apriori算法是一种经典的最有影响的挖掘关联规则的算法,该算法虽然能有效地挖掘出关联规则,但是产生的冗余规则多,效率低下。针对数据挖掘的现状及关联规则算法的瓶颈问题,提出一种基于串与运算的关联规则挖掘算法,并对关联规则挖掘的未来研究方向进行了展望。  相似文献   

8.
针对传统数据挖掘方法存在挖掘精度低、速度慢、占用内存多而不适于实际应用等缺点,提出一种属性受限状态下低维冗余聚类数据挖掘方法。通过计算低维冗余聚类数据的支持度,把低维冗余聚类数据挖掘问题转变成频繁项集挖掘问题;利用支持度与可信度对关联规则产生结果进行评价,并添加属性对其进行限制,以减少无用规则的产生。通过属性位复用方法建立候选区域,产生关联规则集,对符合关联规则集的低维冗余数据进行聚类,实现对其挖掘。实验结果表明,通过所提方法对属性受限状态下低维冗余数据进行挖掘,挖掘速度快,结果可靠。  相似文献   

9.
Web挖掘是将数据挖掘和WWW两个领域中的多种技术和方法结合起来的热门研究课题.它的研究领域包括Web内容挖掘、Web结构挖掘和Web使用挖掘.关联规则算法已成为数据挖掘算法中的重要课题.通过对关联规则挖掘算法进行分析,指出了该算法存在的一些问题,并提出了一种用户频繁访问模式结构.  相似文献   

10.
关联规则挖掘是数据挖掘研究领域中的一个重要任务,旨在挖掘事务数据库中有意义的关联。随着大量数据不停的收集和存储,从数据库中挖掘关联规则显得越来越有必要性,关联规则挖掘的Apriori算法是数据库挖掘的最经典算法并得到广泛应用,在介绍关联规则挖掘和Apriori算法的基础上,发现Apriori算法存在着产生候选项目集效率低和频繁扫描数据等缺点。综述了Apriori算法的主要优化方法,并指出了Apriori算法在实际中的应用领域,提出了未来Apriori算法的研究方向和应用发展趋势。  相似文献   

11.
针对传统数据挖掘方法存在挖掘精度低、速度慢、占用内存多而不适于实际应用等缺点,提出一种属性受限状态下低维冗余聚类数据挖掘方法。通过计算低维冗余聚类数据的支持度,把低维冗余聚类数据挖掘问题转变成频繁项集挖掘问题;利用支持度与可信度对关联规则产生结果进行评价,并添加属性对其进行限制,以减少无用规则的产生。通过属性位复用方法建立候选区域,产生关联规则集,对符合关联规则集的低维冗余数据进行聚类,实现对其挖掘。实验结果表明,通过所提方法对属性受限状态下低维冗余数据进行挖掘,挖掘速度快,结果可靠。  相似文献   

12.
关联规则是数据挖掘研究领域的重要内容之一,在无向项集图的罐础上,结合RSAA算法,提出了一种新的挖掘关联规则的算法,用以发现数据库中有价值的稀有数据.通过将该算法与RSAA算法的分析比较,证明了其在获得频繁项集的效率上具有更好的性能。  相似文献   

13.
神经网络与关联规则是两种重要的数据挖掘技术。介绍了数据挖掘中神经网络、关联规则的常用算法,最后以某SP公司的实际群发记录为例,运用BP神经网络方法与关联规则的Apriori算法挖掘出隐藏在数据背后有用的强规则,说明了数据挖掘对SP广告宣传策略的制定具有一定的决策支持意义。  相似文献   

14.
关联规则研究综述   总被引:10,自引:0,他引:10  
关联规则挖掘是近年来数据挖掘研究中一个相当活跃的领域.本文给出了关联规则及相关术语的定义,对关联规则挖掘中的频繁模式、频繁闭模式、最大频繁模式、并行/分布式挖掘及增量挖掘算法作了简单评述,着重介绍了近三年来发表的一些新算法,并对未来的发展趋势进行了预测和展望.  相似文献   

15.
针对使用传统关联规则算法挖掘大数据集时,挖掘过程中效率不高,挖掘出大量冗余规则的问题,提出了基于关联规则和相似度的数据挖掘算法(U-APR):首先,一次性读入数据并构建矩阵,并利用关联规则支持度度量的特性来增加判断属性,以加快结束迭代过程,从而改进了Apriori算法频繁扫描数据库问题;然后,使用相似度算法去除冗余的关联规则;最后,结合置信度、支持度和用户目标匹配度对挖掘结果进行排序输出,从而得到用户感兴趣的关联规则. 同时,应用该算法与目前常用的2种关联规则算法对广东某高校学生财务数据进行数据挖掘. 实验结果表明:与2种常用的关联规则算法相比,U-APR算法缩短了运算时间和提高了存储空间利用率,对用户分析挖掘结果有较好的优化效果.  相似文献   

16.
基于记录对比的关联规则挖掘算法设计   总被引:2,自引:0,他引:2  
介绍了数据挖掘及关联规则的基本概念、数据挖掘算法设计的基本方法、现在流行的基于“支持-可信度”的经典关联规则挖掘算法,有针对性地指出了基于“支持度-可信度”的关联规则挖掘算法的诸多不足之处,在此基础上提出了基于记录对比的关联规则算法设计思想。该算法不再认为数据源中的备条记录是独立的,而认为可以通过记录对比,从记录与记录的差异中,找出某种潜在的关系。最后对基于记录对比的关联规则挖掘算法和基于“支持度-可信度”的关联规则挖掘算法进行了对比分析。  相似文献   

17.
漏洞是引发信息安全问题的重要因素,对漏洞发生情况进行分析预测值得关注。针对信息安全漏洞数据库中的漏洞数据,基于CWE构建信息安全漏洞本体,形成漏洞领域语义基础,采用Apriori关联算法,对软件中漏洞发生情况进行分析预测。在数据挖掘的数据预处理阶段借助该语义知识,通过将低概念层级的漏洞数据泛化至高概念层级,提高项集的支持度,挖掘出隐藏的关联规则;在关联规则评估阶段通过设计基于用户关注度的规则筛选器ADARF和RDARF,实现了根据用户关注度找出符合用户兴趣度的规则;基于CNNVD漏洞库的实验证明了上述方法的有效性。  相似文献   

18.
基于多支持度的挖掘加权关联规则算法   总被引:6,自引:0,他引:6  
关联规则挖掘是数据挖掘中一个重要的模型.在其挖掘算法中,如果最小支持度很高,则出现频率比较低的规则就不能发现;如果最小支持度太低,因为频繁项的相互关联,则会出现组合爆炸.为此,提出了允许用户设定多个最小支持度、给定数据各项的权重来解决这一问题.理论、实验数据和实际应用证明,该新算法可行且符合实际情况,比同类算法用时更少,对大型数据库的关联规则挖掘非常有效.  相似文献   

19.
传统方法实现过程复杂、历史复杂时态数据的片面性,导致其无法全面地描述时态数据;且相似性计算无法准确匹配具有动态性与复杂性的时态数据,造成提取精度低。为此,提出一种新的分布式多空间数据库复杂时态数据提取技术。设计动态RBF神经网络,对分布式多空间数据库中未知动态进行识别和建模;通过建模结果完成对复杂时态数据的描述。依据加权关联规则与时态关联规则对支持度和置信度的定义,获取T-FS-tree加权时态关联规则中支持度和置信度。将复杂时态数据描述序列、最小支持度、最小置信度作为输入,将加权时态关联规则作为输出,建立T-FS-tree加权时态关联规则挖掘算法。按照向量计算获取加权时态频繁1项集以及频繁2项集,依据获取的加权时态频繁项集建立初始频繁项集树;依据初始频繁项集树获取全部时态频繁项集;通过获取的频繁项集产生加权时态关联规则。从所有关联规则中选择优先度高的规则,构建的复杂时态数据提取器,实现复杂时态数据提取。实验结果表明,所提方法复杂性低,提取结果更加全面、可靠,有很高的准确性。  相似文献   

20.
为提升数据挖掘技术与网络恶意行为识别准确率,研究基于大数据关联规则的网络恶意行为识别检测方法。模糊化处理网络中存在的大数据,构建模糊数据库,分类聚集模糊数据库中的模糊数据,离散化处理模糊数据的连续属性,确定模糊数据频繁关联规则,通过基于模糊关联规则的数据挖掘方法获得整理后的网络数据;以此为基础,分析用户恶意访问流量特征,加权处理用户访问流量特征与用户信息熵特征,建立多特征融合的网络恶意行为识别模型,完成网络恶意行为识别检测。经实验验证,该方法识别检测网络恶意行为时准确率较高,在93%以上,漏检测率较低,低于8%,在数据挖掘时具有较低的时间消耗与空间消耗,支持度较高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号