首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
黄再祥  周忠眉  何田中 《计算机科学》2014,41(2):111-113,122
许多研究表明关联分类具有较高的分类准确率,然而,大多数关联分类基于"支持度-置信度"框架,在不平衡数据集中,置信度和支持度都偏向产生多数类的规则,因此,少数类的实例容易被错误分类。针对上述问题,提出了一种基于相关规则的不平衡数据的关联分类算法。该算法挖掘频繁且互关联的项集,在以该项集为前件的分类规则中选取提升度最大的规则。规则按结合了提升度、置信度和补类支持度(CCS)的规则强度进行排序。实验表明,该算法取得了较高的平均分类准确率且在分类少数类的实例时具有更高的准确率。  相似文献   

2.
《计算机工程与科学》2017,(10):1966-1970
基于支持度-置信度的关联分类是一项重要的分类算法,这种关联分类算法先构建频繁项集,然后通过置信度的阈值来选取规则,容易产生质量不高的规则。针对这个问题,提出了一种改进关联分类算法:首先,选取大量的属性值对建立起条件小训练集;其次,每条规则主体通过选取条件小训练集中最好属性值对连接生成;最后,采用实例覆盖技术覆盖小训练集的每个实例,构建具有较高质量的分类器。在25个UCI数据集上的实验结果表明,所提出的改进关联分类算法的准确率得到了显著提高。  相似文献   

3.
基于规则分类算法提取的规则集通常存在3个问题:首先,提取的分类规则集中短规则过少,致使高质量的规则不多;其次,规则集中规则数量少,训练数据中几乎所有实例仅被规则覆盖一次;第三,虽然提取大量的规则,但是训练数据中存在一些小类样本的实例不能被任何一条规则覆盖。本文提出一种改进的基于规则的实例多覆盖分类算法(Rule-based classification with instances covered by multiple rules, RCIM),其特点是:(1)为了提高规则的质量,在选择生成规则的第1项时不仅考虑属性值的好坏,而且还考虑了属性值补的好坏;(2)一次产生尽量多,高质量的规则,而且当训练数据的实例至少被两条规则覆盖后才将其删除;(3)当遇上难以判断的测试数据时,对测试数据的各个属性值进行二次学习提取规则。算法RCIM不仅可以有效地提取大量的规则,而且较大程度地提高了规则的质量。通 过在大量数据上实验结果表明,RCIM比许多其他算法取得了更高的分类准确率。  相似文献   

4.
基于排序的关联分类算法   总被引:1,自引:0,他引:1  
提出了一种基于排序的关联分类算法.利用基于规则的分类方法中择优方法偏爱高精度规则的思想和考虑尽可能多的规则,改进了CBA(Classification Based on Associations)只根据少数几条覆盖训练集的规则构造分类器的片面性.首先采用关联规则挖掘算法产生后件为类标号的关联规则,然后根据长度、置信度、支持度和提升度等对规则进行排序,并在排序时删除对分类结果没有影响的规则.排序后的规则加上一个默认分类便构成最终的分类器.选用20个UCI公共数据集的实验结果表明,提出的算法比CBA具有更高的平均分类精度.  相似文献   

5.
论文首先对一种基于关联规则分类的算法做出了分析。然后对算法中的类关联规则的提取方法进行了改进,得到了一种新的基于关联规则分类的算法。并结合棉花病虫害数据运行的结果对两种算法的运行效率和实用性进行了比较。  相似文献   

6.
基于关联规则的决策树算法   总被引:1,自引:0,他引:1       下载免费PDF全文
汪海锐  李伟 《计算机工程》2011,37(9):104-106,109
通过将关联规则与决策树算法相结合,形成一种基于关联规则的决策树算法。该算法对不同时期同一事务的异种数据结构进行处理,得到一种可扩展的多分支分类决策树,使得改进后的决策树算法具有良好的可扩展性。该算法解决了传统分类算法在数据集维度发生变化时分类过程无法持续进行的问题。  相似文献   

7.
蔡伟贤  滕少华 《计算机工程与设计》2011,32(11):3594-3598,3715
为了从检测数据中发现潜在的、有效的入侵检测规则,提高入侵检测系统的检测率,提出一个基于分类关联规则的入侵检测系统模型。系统对数据集进行预处理,再利用改进的分类关联规则挖掘算法I-Apriori-TFP(total-from-partial)来产生所有的分类关联规则,并基于已产生的分类关联规则建立一个分类器,分类器经测试数据测试后,生成检测代理,最后利用检测代理对网络数据进行检测。实验结果表明,该方法能够有效地检测出网络数据中的入侵行为。  相似文献   

8.
一种基于冲突检测的无关联规则集匹配算法   总被引:1,自引:0,他引:1       下载免费PDF全文
防火墙已经成为网络安全体系中一个关键的角色,对防火墙的管理越来越受到重视。本文针对在防火墙管理中容易出现的过滤规则冲突问题和规则匹配效率问题,提出了一种基于冲突检测的无关联规则集匹配算法。本文通过对规则进行分析,确定了规则库中的规则应该符合的五个关系;通过对冲突规则的分类,得到了按照各种冲突的特性进行冲突检测产生的状态图,有助于对防火墙的现有规则库进行重写优化。本文在分析传统的线性顺序规则匹配算法和树形规则匹配算法的基础上,提出一种基于冲突检测的无关联规则集匹配算法,其平均比较次数为O(lg(n)),性能上大大优于现有的算法。  相似文献   

9.
关联规则算法研究及其在教学系统中的应用   总被引:5,自引:0,他引:5  
本文通过对关联规则挖掘算法Apriori算法的分析与研究,指出了其在实用中存在的主要问题。提出了与以 往改进算法不同的策略,即在预处理阶段引入聚类分析,以此对关联规则算法进行改进,实现两种算法相结合的 挖掘,并给出了基于聚类的关联规则改进算法描述。最后将算法应用到学生学习指导中,得到了合理的结果,实 验表明了该算法的有效性。  相似文献   

10.
基于关联规则的贝叶斯网络分类器   总被引:1,自引:0,他引:1  
关联规则分类器(CBA)利用关联规则来构造分类算法,但其没有考虑分类问题中的不确定性.提出一种基于关联规则的贝叶斯网络分类算法.该算法利用关联规则挖掘算法提取初始的候选网络边集,通过贪心算法学习网络结构,得到比经典的贝叶斯网络分类器TAN更好的拓扑结构.通过在15个UCI数据集上的实验结果表明,该算法取得了比TAN,CBA更好的分类性能.  相似文献   

11.
In pattern recognition, instance-based learning (also known as nearest neighbor rule) has become increasingly popular and can yield excellent performance. In instance-based learning, however, the storage of training set rises along with the number of training instances. Moreover, in such a case, a new, unseen instance takes a long time to classify because all training instances have to be considered when determining the ‘nearness’ or ‘similarity’ among instances. This study presents a novel reduced classification method for instance-based learning based on the gray relational structure. Here, only some training instances in the original training set are adopted for the pattern classification tasks. The relationships among instances are first determined according to the gray relational structure. In the relational structure, the inward edges of each training instance, indicating how many times each instance is considered as the nearest neighbor or neighbors in determining the class labels of other instances can be obtained. This method excludes training instances with no or few inward edges for the pattern classification tasks. By using the proposed instance pruning approach, new instances can be classified with a few training instances. Nine data sets are adopted to demonstrate the performance of the proposed learning approach. Experimental results indicate that the classification accuracy can be maintained when most of the training instances are pruned before learning. Additionally, the number of remained training instances in the proposal presented here is comparable to that of other existing instance pruning techniques.  相似文献   

12.
This paper is a discussion of two continuous learning approaches for improving classification accuracy for an intuitive reasoner algorithm. The reasoner predicted the value of a given target variable by multiple iterations of forward-chained, rule-based inference. Each rule in the reasoner’s rule set had associated with it a weight, referred to here as “Strength of Belief” (SB). The value of SB of a rule indicated the certainty level of that rule. In each iteration of reasoning, any instances of similar values for a given variable were replaced by a single consolidated datum and the SB associated with the consolidated datum was increased. At the end of the reasoning process, the class (value) of the target variable which had the highest SB was reported as the conclusion. The rule set for the reasoner was generated based on a training data set that contained 80% of the data in a weather database comprising 50 years worth of hourly measurements for 54 weather variables. Each rule was induced based on only a small subset of the weather data. The intuitive reasoner was tested by using the induced rules to predict a number of pre-selected target variables using 275 test cases created from the test data. The first continuous learning approach was to identify relevant input variables for the reasoner, and the second was to rebalance the rule set used by the reasoner by adjusting the SB associated with each of the rules. Because of the way the rules were induced, the resulting rules did not contain any information about the relevance of the 53 possible input variables to the task of predicting a given target variable for previously unseen cases. A method was developed to identify which input variables were most relevant to the task based on the induced rule set. This method resulted in higher prediction accuracy of the intuitive reasoner than using a set of randomly chosen input variables for four of six target variables. The second continuous learning approach was intended to address the class imbalance problem in the rule set. The intuitive reasoner appeared to over-fit classes (values) which had frequent representation in the rule set. To address this problem, a heuristic was developed that generated adjustment factors for the SB values of the rules. The use of this heuristic improved the classification accuracy of the intuitive reasoner for four of the six target variables.  相似文献   

13.
为了更好地界定本体中的概念,提出一种基于遗传算法(Genetic Algorithm,GA)的本体概念分类规则的学习方法.从已有的本体库中获取实例作为训练样本,通过该算法寻找一组与数据样本集一致的规则.以一组规则集作为遗传算法的个体,即优化的目标,同时考虑到规则集的覆盖性、一致性、简洁性和多样性4个方面建立适应值函数,优化得到一组能够分类概念的规则集合.进而这组规则集可用于指导和丰富本体知识,例如当本体中引入新的实例时,可以通过此概念分类规则集确定实例所属的概念.对已有本体学习后的实验结果表明该算法收敛性很好,而且能获得较好的规则集.  相似文献   

14.
李琳  邵峰晶  杨厚俊  孙仁诚 《计算机科学》2011,38(8):176-178,211
针对传统多层关联分类挖掘产生大量冗余规则而影响分类效率的问题,提出了一种基于类FP-tree的多层关联分类器MACCF(Multi-level Associative Classifier based on Class FP-tree)。该分类器依据事务的类标号划分训练集,采用闭频繁模式(CLOSET+)产生完全候选项目集,通过设计适当的类内规则剪枝策略和类间规则剪枝策略,减少了大量冗余的分类规则,提高了分类的准确率;采用交又关联规则方法,解决了交叉层数据的分类问题,实验结果 表明了算法的高效性。  相似文献   

15.
传统关联分类方法处理数量型数据时,“先离散,再学习”的步骤使新的测试样例可能无法找到合适的离散区间,形成离散盲目性问题。基于lazy的数量型关联分类作为一种新的关联分类法,它首先利用K-近邻分类思想为测试样例求得K-近邻作为新的训练数据集,然后对包含测试样例和K个近邻的数据集离散化,并在K-近邻组成的离散数据集上挖掘关联规则并构造分类器进行分类。最后,通过与传统CBA、CMAR、CPAR算法在7个常用UCI数量型数据集上进行的对比实验结果表明,基于lazy的数量型关联分类方法的平均分类准确率提高了0.66%~1.65%,证明了该方法的可行性。  相似文献   

16.
关联分类及较多的改进算法很难同时既具有较高的整体准确率又有较好的小类分类性能。针对此问题,提出了一种基于类支持度阈值独立挖掘的关联分类改进算法—ACCS。ACCS算法的主要特点是:(1)根据训练集中各类数量大小给出每个类类支持度阈值的设定方法,并基于各类的类支持度阈值独立挖掘该类的关联分类规则,尽量使小类生成更多高置信度的规则;(2)采用类支持度对置信度相同的规则排序,提高小类规则的优先级;(3)用综合考虑置信度和提升度的新的规则度量预测未知实例。在多个数据集上的实验结果表明,相比多种关联分类改进算法,ACCS算法有更高的整体分类准确率,且在不平衡数据上也能取得较好的小类分类性能。  相似文献   

17.
针对现有关联分类技术的不足,提出了一种适用于关联分类的增量更新算法IUAC。该算法是基于频繁模式树挖掘和更新关联规则的,并使用一种树形结构来存储最终用于分类的关联规则。同时,增加了对分类规则的约束条件,进一步控制了用于分类的关联规则的数量。最后,对算法整体进行了分析和讨论。  相似文献   

18.
赵海峰  余强  曹俞旦 《计算机科学》2014,41(12):160-163
多标签学习用于处理一个样本同时拥有多个标签的问题。已有的多标签懒惰学习算法IMLLA未充分考虑样本分布的特点,即在构建样本的近邻点集时,近邻点个数取固定值,这可能会将相似度高的点排除在近邻集之外,或者将相似度低的点包括在近邻集内,影响分类方法的性能。针对IMLLA的缺陷,将粒计算的思想加入近邻集的构建,提出一种基于粒计算的多标签懒惰学习算法(GMLLA)。该方法通过粒度控制,确定样本近邻点集,使得近邻集内的样本具有高相似度。实验结果表明,本算法的性能优于IMLLA。  相似文献   

19.
偏标记学习是一种重要的弱监督学习框架。在偏标记学习中,每个实例与一组候选标记相关联,它的真实标记隐藏在候选标记集合中,且在学习过程中不可获知。为了消除候选标记对学习过程的影响,提出了一种融合实例语义差别最大化和流型学习的偏标记学习方法(partial label learning by semantic difference and manifold learning, PL-SDML)。该方法是一个两阶段的方法:在训练阶段,基于实例的语义差别最大化准则和流型学习方法为训练实例生成标记置信度;在预测阶段,使用基于最近邻投票的方法为未知实例预测标记类别。在四组人工改造的UCI数据集中,在平均70%的情况下优于其他对比算法。在四组真实偏标记数据集中,相比其他对比算法,取得了0.3%~13.8%的性能提升。  相似文献   

20.
罗军  况夯 《计算机应用》2008,28(9):2386-2388
提出一种新颖的基于Boosting模糊分类的文本分类方法。首先采用潜在语义索引(LSI)对文本特征进行选择;然后提出Boosting算法集成模糊分类器学习,在每轮迭代训练过程中,算法通过调整训练样本的分布,利用遗传算法产生分类规则。减少分类规则能够正确分类样本的权值,使得新产生的分类规则重点考虑难于分类的样本。实验结果表明,该文本分类算法具有良好分类的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号