首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 567 毫秒
1.
关联规则挖掘算法在分类中的应用研究   总被引:1,自引:0,他引:1  
提出了一个基于关联规则挖掘算法的医疗数据分类方法。介绍了关联规则的理论基础、关联规则挖掘算法及其在医疗数据挖掘中的应用方法,并利用介绍的算法对乳腺癌数据进行挖掘。获得了分类的实验结果,该模型系统达到了较高的分类准确率,证明了数据挖掘在辅助医疗诊断中有着广泛的应用前景。  相似文献   

2.
一个最优分类关联规则算法   总被引:1,自引:0,他引:1  
分类和关联规则发现是数据挖掘中的两个重要领域。使用关联规则算法挖掘分类规则被叫做分类关联规则算法,是一个有较好前景的方法。本文提出了一个最优分类关联规则算法——OCARA。该算法使用最优关联规则挖掘算法挖掘分类规则,并对最优规则集排序,从而获得一个分类精度较高的分类器。将OCARA与传统分类算法C4.5和一般分类关联规则算法CBA、RMR在8个UCI数据集上进行实验比较,结果显示OCARA具有更好的性能,证明OCARA是一个有效的分类关联规则挖掘算法。  相似文献   

3.
CBA算法是将关联规则挖掘与分类技术相结合的一种分类算法,在许多领域中得到了广泛应用.针对CBA处理海量数据效率低的缺点,提出了一个改进的CBA算法.该算法将粗糙集理论应用到CBA算法中,对决策表进行属性约简,提高了分类关联规则的生成效率;并应用PEP(pessimistic error pruning)方法对候选规则进行剪裁.实验结果表明,该算法比CBA具有更高的分类效率和准确度.  相似文献   

4.
基于关联规则挖掘的中文文本自动分类   总被引:7,自引:0,他引:7  
随着电子出版物和互联网文档的飞速增加,自动文档分类工作正变得日渐重要.提出一种基于关联规则的中文文本自动分类方法.该算法将文档视作事务.关键词视作项,利用改进的关联规则挖掘算法挖掘项和类剐间的相关关系.挖掘出的规则形成分类器,可用于类标号未知的文档的区分.实验证明,该算法能较快地获得可理解的规则并且具有较好的召回率和准确率.  相似文献   

5.
基于排序的关联分类算法   总被引:1,自引:0,他引:1  
提出了一种基于排序的关联分类算法.利用基于规则的分类方法中择优方法偏爱高精度规则的思想和考虑尽可能多的规则,改进了CBA(Classification Based on Associations)只根据少数几条覆盖训练集的规则构造分类器的片面性.首先采用关联规则挖掘算法产生后件为类标号的关联规则,然后根据长度、置信度、支持度和提升度等对规则进行排序,并在排序时删除对分类结果没有影响的规则.排序后的规则加上一个默认分类便构成最终的分类器.选用20个UCI公共数据集的实验结果表明,提出的算法比CBA具有更高的平均分类精度.  相似文献   

6.
基于信息增益的中文文本关联分类   总被引:1,自引:0,他引:1  
关联分类是一种通过挖掘训练集中的关联规则,并利用这些规则预测新数据类属性的分类技术。最近的研究表明,关联分类取得了比传统的分类方法如C4.5更高的准确率。现有的基于支持度-置信度架构的关联分类方法仅仅是选择频繁文字构建分类规则,忽略了文字的分类有效性。本文提出一种新的ACIG算法,结合信息增益与FoilGain在中文文本中选择规则的文字,以提高文字的分类有效性。实验结果表明,ACIG算法比其他关联分类算法(CPAR)有更高的准确率。  相似文献   

7.
基于分类规则树的频繁模式文本分类   总被引:14,自引:0,他引:14  
陈晓云  陈袆  王雷  李荣陆  胡运发 《软件学报》2006,17(5):1017-1025
基于频繁模式的关联分类是近年来出现的一种分类方法,该方法利用各类别频繁出现的模式构造分类规则,并对新文本进行分类.但现有关联分类方法应用于文本分类时存在两方面不足:一方面,用以构造分类规则的频繁模式仅考虑特征词在文本中出现与否,从而忽视了出现频度;另一方面,当产生的规则数量较多时,为提高分类效率需要进行规则修剪,修剪后的分类准确性明显降低.为此,提出了基于分类规则树的带词频的频繁模式文本分类方法.研究结果表明,词频的引入可以提高关联分类的准确率;而采用分类规则树可使分类时间明显加快又确保不降低分类质量.这两方面的措施弥补了现有关联分类应用于文本分类的不足.与3种典型文本分类方法比较后发现,在低维特征空间中,关联分类的性能优于Bayes,kNN(k nearest neighbor)和SVM(support vectormachines),因此是一种很有应用前景的文本分类方法.  相似文献   

8.
关联分类通常产生大量的分类规则,导致在分类新实例时经常产生规则冲突问题。针对这种规则冲突问题,提出了一种基于改进关联分类的两次学习框架。利用频繁且互关联的项集产生分类规则改进关联分类算法,有效减少了规则数。应用改进的关联分类算法产生的一级规则一次性分离出训练集中规则冲突的所有实例。然后,在冲突实例上应用改进的关联分类算法进行第二次学习得到二级规则。分类新实例时,首先利用第一级规则进行分类。如果出现规则冲突,则利用第二级规则分类该实例。实验结果表明,基于改进关联分类的两次学习方法降低了规则冲突比率,并且显著提高了分类准确率。  相似文献   

9.
黄再祥  周忠眉  何田中 《计算机科学》2014,41(2):111-113,122
许多研究表明关联分类具有较高的分类准确率,然而,大多数关联分类基于"支持度-置信度"框架,在不平衡数据集中,置信度和支持度都偏向产生多数类的规则,因此,少数类的实例容易被错误分类。针对上述问题,提出了一种基于相关规则的不平衡数据的关联分类算法。该算法挖掘频繁且互关联的项集,在以该项集为前件的分类规则中选取提升度最大的规则。规则按结合了提升度、置信度和补类支持度(CCS)的规则强度进行排序。实验表明,该算法取得了较高的平均分类准确率且在分类少数类的实例时具有更高的准确率。  相似文献   

10.
传统关联规则挖掘在面临分类决策问题时,易出现非频繁规则遗漏、预测精度不高的问题。为得到正确合理且更为完整的规则,提出了一种改进方法 DT-AR(decision tree-association rule algorithm),利用决策树剪枝策略对关联规则集进行补充。该方法利用FP-Growth(frequent pattern growth)算法得到关联规则集,利用C4.5算法构建后剪枝决策树并提取分类规则,在进行置信度迭代筛选后与关联规则集取并集修正,利用置信度作为权重系数采取投票法进行分类。实验结果表明,与传统关联规则挖掘和决策树剪枝方法相比,该方法得到的规则在数据集分类结果上更准确。  相似文献   

11.
肖菁  梁燕辉 《计算机工程》2012,38(17):162-165
为提高基于传统Ant-miner算法分类规则的预测准确性,提出一种基于改进Ant-miner的分类规则挖掘算法。利用样例在总样本中的密度及比例构造启发式函数,以避免在多个具有相同概率的选择条件下造成算法偏见。对剪枝规则按变异系数进行单点变异,由此扩大规则的搜索空间,提高规则的预测准确度。在Ant-miner算法的信息素更新公式中加入挥发系数,使其更接近现实蚂蚁的觅食行为,防止算法过早收敛。基于UCI标准数据的实验结果表明,该算法相比传统Ant-miner算法具有更高的预测准确度。  相似文献   

12.
传统的数据分类算法多是基于平衡的数据集创建,对不平衡数据分类时性能下降,而实践表明组合选择能有效提高算法在不平衡数据集上的分类性能。为此,从组合选择的角度考虑不平衡类学习问题,提出一种新的组合剪枝方法,用于提升组合分类器在不平衡数据上的分类性能。使用Bagging建立分类器库,直接用正类(少数类)实例作为剪枝集,并通过MBM指标和剪枝集,从分类器库中选择一个最优或次优子组合分类器作为目标分类器,用于预测待分类实例。在12个UCI数据集上的实验结果表明,与EasyEnsemble、Bagging和C4.5算法相比,该方法不但能大幅提升组合分类器在正类上的召回率,而且还能提升总体准确率。  相似文献   

13.
Classification plays an important role in decision support systems. A lot of methods for mining classification rules have been developed in recent years, such as C4.5 and ILA. These methods are, however, based on heuristics and greedy approaches to generate rule sets that are either too general or too overfitting for a given dataset. They thus often yield high error ratios. Recently, a new method for classification from data mining, called the Classification Based on Associations (CBA), has been proposed for mining class-association rules (CARs). This method has more advantages than the heuristic and greedy methods in that the former could easily remove noise, and the accuracy is thus higher. It can additionally generate a rule set that is more complete than C4.5 and ILA. One of the weaknesses of mining CARs is that it consumes more time than C4.5 and ILA because it has to check its generated rule with the set of the other rules. We thus propose an efficient pruning approach to build a classifier quickly. Firstly, we design a lattice structure and propose an algorithm for fast mining CARs using this lattice. Secondly, we develop some theorems and propose an algorithm for pruning redundant rules quickly based on these theorems. Experimental results also show that the proposed approach is more efficient than those used previously.  相似文献   

14.
针对iptables核心包分类算法的低效问题,提出一种符合Linux内核限制条件并充分利用已有内核机制的高效包分类算法。该算法具备动态更新、多维匹配、实施速度快等主流包分类算法的特点,适合实际应用。实验结果表明在规则库较大的情况下,算法性能有很大提高。  相似文献   

15.
为深入研究和评估蚁群算法在分类规则挖掘应用中具有的特点和作用,针对目前基本蚁群算法在数据挖掘方面所存在的不足,引入了改进的蚁群算法模型最大最小蚂蚁系统(MMAS)。并根据分类算法比较原则,通过实验分析对分类规则挖掘算法进行比较。根据使用不同数据集实验结果的对比分析,从仿真的精确度、速度等方面展示和证实了基于改进的蚁群算法模型MMAS的数据分类规则挖掘工具AntMiner+在分类规则挖掘中体现出的特点和优势。  相似文献   

16.
The paper presents results of application of a rule induction and pruning algorithm for classification of a microseismic hazard sate in coal mines. Due to imbalanced distribution of examples describing states “hazardous” and “safe”, the special algorithm was used for induction and rule pruning. The algorithm selects optimal parameters‘ values influencing rule induction and pruning based on training and tuning sets. A rule quality measure which decides about a form and classification abilities of rules that are induced is the basic parameter of the algorithm. The specificity and sensitivity of a classifier were used to evaluate its quality. Conducted tests show that the admitted method of rules induction and classifier’s quality evaluation enables to get better results of classification of microseismic hazards than by methods currently used in mining practice. Results obtained by the rules-based classifier were also compared with results got by a decision tree induction algorithm and by a neuro-fuzzy system.  相似文献   

17.
RSKNN 算法是一种基于变精度粗糙集理论的 k-近邻改进算法,该算法能够保证在一定分类精度的前提下,有效地降低分类的计算量,提高分类效率。但由于 RSKNN 算法只是简单地将每个类中的样本划分成一个核心和边界区域,并没有根据数据集本身的特点进行划分,因而存在极大的局限性。针对存在的问题,提出一种多代表点学习算法,运用结构风险最小化理论对影响分类模型期望风险的因素进行分析,并使用无监督的局部聚类算法学习优化代表点集合。在UCI公共数据集上的实验表明,该算法比RSKNN算法具有更高的分类精度。  相似文献   

18.
本文介绍了基于KNN算法的文本分类流程及相关技术,针对KNN文本分类算法过分依赖K值和文本集分布情况的不足之处,提出了一种改进的KNN文本分类算法一类内均值KNN算法。通过实验表明,相对于传统的KNN算法,该算法提高了文本分类系统的稳定性和分类性能,具有一定的应用价值。  相似文献   

19.
RSKNN算法是K近邻算法的一种改进算法,该算法基于变精度粗糙集理论,能在保证一定分类精度的前提下,有效地降低分类样本的计算量,并且提高计算效率和分类精度.由于RSKNN算法对属性的依赖度较高,在分类时容易受到伪近邻的影响,导致RSKNN算法的分类精度受到一定程度的影响.针对存在问题,本文提出一种新颖的基于RSKNN算法的改进算法SMwRSKNN,该算法在RSKNN算法的基础上引入类别子空间的思想,以降低冗余属性和伪近邻对分类的影响.在UCI公共数据集上的实验结果表明,SMwRSKNN算法比RSKNN算法具有更高的分类精度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号