首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 890 毫秒
1.
最频繁项集挖掘决定了文本关联规则挖掘算法的性能,是文本关联规则挖掘中研究的重点和难点。该文分析了当前最频繁项集挖掘方面的不足,改进了传统的倒排表,结合最小支持度阈值动态调整策略,提出了一个新的基于改进的倒排表和集合理论的Top-N最频繁项集挖掘算法。同样,给出了几个命题和推论,并把它们用于该文算法以提高性能,实验结果表明,所提算法的规则有效率和时间性能优于NApriori算法和IntvMatrix算法。  相似文献   

2.
针对k均值算法在文本聚类中由于初始聚类质心随机选择,使得聚类结果陷入局部最优,且孤立点和不确定的聚类个数造成k均值算法准确性低、收敛速度慢的问题,提出了一种改进的k均值文本聚类算法。该算法采用fp-growth算法挖掘文本频繁项集,过滤频繁项集得到核心频繁项集,并利用核心频繁项集指导文本初始聚类质心和聚类个数的生成,最后k均值算法利用初始聚类质心和聚类个数完成文本聚类。在新浪微博数据集上进行文本聚类实验,实验结果表明,改进的k均值算法提高了文本聚类的准确性,加快了收敛速度,具有较强的鲁棒性。  相似文献   

3.
软件缺陷因素挖掘   总被引:1,自引:0,他引:1  
利用软件开发过程各个阶段中多方面的信息,构建了排序支持向量机(RankSVM)和支持向量回归(SVR)软件缺陷密度预测模型。实验结果表明,与支持向量回归软件缺陷密度预测模型相比,排序支持向量机软件缺陷密度预测模型能够更好地反映软件开发过程中多方面因素对软件缺陷密度的影响。通过对排序支持向量机软件缺陷密度预测模型的分析找出影响软件缺陷密度的重要因素,可以指导后续实践。  相似文献   

4.
为了解决因软件缺陷数据存在数据不平衡问题限制了分类器的性能,将POSS(pareto optimization for subset selection)特征选择算法和随机欠采样技术引入到软件缺陷检测中,并利用支持向量机(support vector machine, SVM)构建预测模型。试验结果表明,通过多次随机欠采样可以有效地解决软件缺陷数据不平衡问题,同时使用POSS方法对目标子集进行双向优化,从而提高分类的准确率,其结果要优于Relief、Fisher、MI(mutual information)特征选择算法。  相似文献   

5.
关联规则是当前数据挖掘研究最重要的分支之一,目前的关联规则多是在频繁项集的基础上进行挖掘,而没有挖掘非频繁项集的算法。本文在多支持度算法的基础上,提出了一种新的算法模型,在挖掘频繁项集的同时还能够对非频繁项集进行挖掘。  相似文献   

6.
目前负关联规则研究的主要形式是左右两边项集全正或者全负,如(a1a2)■┐(b1b2)、┐(a1a2)#(b1b2),但有时形如a1┐a2■b1┐b2的负关联规则能够提供更多的决策信息,然而要挖掘这样的负关联规则需要先挖掘形如a1┐a2■b1┐b2的负频繁项集。为此,本文提出了一个有效的方法来挖掘这样的负频繁项集。该方法包含一个有效的负候选项集生成算法,和仅利用正频繁项集有关信息来计算负候选项集支持度的方法,而不用再次扫描数据库。实验表明了提出方法的有效性。  相似文献   

7.
为了解决频繁模式增长( frequent pattern growth,FP-growth)算法因多次遍历频繁集列表而产生庞大频繁模式树需占用大量内存降低了运行效率的问题,提出一种改进的FP-growth( upgraded FP-growth,UFP)算法。首先,构造支持度函数实现各项与其支持度的映射,使算法的运行效率得到提高;其次,利用关键字筛选技术,把频繁项分成关键项表、非关键项表两部分,保证了最终获取的每条关联规则都是人们关注的有效信息;最后,根据频繁1-项集划分数据库子集并直接构造每一项的条件模式树,节省了内存空间。将UFP算法应用于Tenessee Eastman( TE)过程的故障诊断,通过与主成分分析( principal component analysis,PCA)、核主成分分析( kernel principal component analysis,KPCA)算法在多种故障下的诊断结果对比实验验证了算法的优越性。  相似文献   

8.
基于图的Apriori改进算法   总被引:3,自引:0,他引:3  
Apriori算法是关联规则挖掘中的经典算法,算法的核心思想是一种基于频繁理论的自底向上的递推方法。文中对Apriori算法进行分析,发现其中存在的问题。对Apriori算法做了改进。改进后的算法基于自顶向下的思想。利用有向图给出计算候选项集和项集支持度计数的更快的方法,同时简  相似文献   

9.
提出了一种基于MapReduce模型,利用向量矩阵和Apriori算法实现关联规则数据挖掘的新算法.算法利用MapReduce模型处理向量矩阵,结合Apriori算法思想,产生局部频繁项集,通过合并处理得到全局频繁项集.实验证明算法能提高关联规则挖掘的效率.  相似文献   

10.
海量数据利用传统Apriori算法进行挖掘会浪费大量存储空间和通信资源,导致算法效率低下,因此,提出MapReduce框架下Aprioi算法的改进方法,首先采用水平划分的方法将MapReduce数据库分成n个独立的数据块,然后发送到采用动态负载均衡划分的m个工作节点上。每个节点扫描各自的数据块,产生局部候选频繁项集,计算每个候选频繁项集的支持度阈值并与最小支持度阈值进行比较以确定最终的频繁项集。改进后的算法可以减少各个节点之间的数据流动,只需要扫描两次事务数据库就能挖掘出全部频繁项集,节省扫描时间和存储空间,提高挖掘效率。  相似文献   

11.
关联规则挖掘是数据挖掘及知识发现领域的重要研究内容之一,其核心任务是挖掘数据库中的频繁项集.Apriori算法是频繁项集挖掘的有效算法.在Apriori的算法中,采用哈希树存储平凡项集的候补项集以便快速计算其支持度.本文在分析算法所存在的效率瓶颈的基础上,提出了一个有效的改进算法,通过利用一维数组替代算法中复杂的哈希树...  相似文献   

12.
基于加权频繁项集的文本分类规则挖掘   总被引:2,自引:0,他引:2  
针对特征向量分量的权重和文本大小对分类规则产生的影响,提出一种可以提高关联文本分类性能的文本分类规则挖掘方法,提出了加权频繁项集的概念和相应的加权频繁项集挖掘算法,在分类规则中突出特征向量权重大的向量分量;提出一种特征向量预处理方法,消除文本大小对挖掘分类规则的影响.实验表明,解决上述两个问题将可以很好的提高文本分类的性能.  相似文献   

13.
针对Apriori算法在频繁项集挖掘过程中的缺陷,提出了一种基于权重的改进Apriori算法。该改进算法通过一次扫描事务数据库构造出二元事务矩阵,再用各事务和各项的平均权重替代权重支持度,最终挖掘出事务库中的频繁项集。通过实例分析和性能测试,证明了改进的Apriori算法避免了重复扫描事务数据库,使得算法在性能上有了明显优化,并且挖掘出了Apriori挖掘不到的、隐藏的、有价值的规则。  相似文献   

14.
由频繁项集产生的关联规则往往不能保证规则前、后件中的项是正相关的,因此可能产生无意义的关联规则;当这些关联规则用于分类时,会产生大量无用分类规则,增加了时间开销.因此,基于数学期望提出了正相关的频繁项集的分类算法.该算法在挖掘正相关频繁项集时,利用置信度进行规则选取,生成正相关关联规则组成的分类器对数据集进行分类.实验表明,这种分类算法可以大幅度减少所产生的频繁项集数量,分类准确率达到C4.5和CMAR的水平,且显著减少了算法的时间.  相似文献   

15.
Apriori算法是挖掘关联规则频繁项集的最有影响的算法之一,它通过连接、剪枝等步骤产生频繁项集,进而产生强关联规则。由于面临海量数据,因此将会产生大量的候选项集,尤其是候选2-项集,严重影响了挖掘的效率。提出了一种改进的算法,此算法不产生小项候选集而直接产生大项候选集,从而提高了算法的效率。  相似文献   

16.
提出了一种基于最小支持度变化的挖掘最大频繁项集的增量式更新算法MFIU(Maximum Frequent Itemsets Updating).针对最大频繁项集更新时的特性,分别对最小支持度变大和变小提出了两种不同的处理方法,对于最小支持度变大的复杂情况,采取了分块的更新策略,并为减少不必要的候选项集,利用了如果X是一个最大频繁项集,则其所有子集都是频繁项集,但都不可能是最大频繁项集,而进行了独特的剪枝方法.最后通过实例分析了该算法.  相似文献   

17.
针对经典Apriori算法会产生大量冗余规则的缺点,在两方面对算法进行了改进:一方面是对产生频繁项集方式的改进,使算法只产生包含目标项的频繁项集;另一方面是对产生规则方式的改进,使算法只产生关联后件中包含目标项的关联规则.Apriori算法改进前后的对比表明:改进后的Apriori算法可以避免非目标规则的产生,使算法更符合成绩分析的需要,提高算法的执行效率.将改进的Apriori算法应用于成绩分析中表明,改进后的算法能够挖掘出各门前导课程成绩对后续课程成绩的影响,因此可为教师制定有针对性的教学计划提供参考.  相似文献   

18.
关联规则挖掘是数据挖掘的一个重要研究方向。关联规则挖掘分为两个阶段:发现频繁项集和由频繁项集产生关联规则。介绍由频繁项集产生关联规则的算法设计,并用VC 6.0实现,程序运行能满足要求。  相似文献   

19.
一种基于FP-Growth的改进算法   总被引:1,自引:0,他引:1  
关联规则挖掘由于表达形式简洁、易于解释和理解已成为数据挖掘中的研究热点,对关联规则的研究具有重要的理论价值和现实意义。文章分析频繁项集挖掘算法FP—growth算法,针对算法中存在的效率瓶颈问题,提出了一个改进的挖掘算法。改进后的算法通过投影统计的方法直接得到频繁1-项集的条件模式基,从而减少了FP-growth算法中构造FP—tree和搜索的开销。通过分析,说明改进的算法具有良好的性能。  相似文献   

20.
针对负关联规则挖掘所带来的问题,提出加入最大支持度来控制频繁项集生成规模,改进了相关性的计算公式,并将其用作正负关联规则的兴趣度来剔除无兴趣的关联规则,限制关联规则中的前后件项目个数来保证挖掘出的关联规则的实用性和可理解性。最后,给出一种能够同时挖掘正负关联规则的算法,实验结果表明算法是有效的、可行的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号