首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 359 毫秒
1.
基于自适应加权的文本关联分类   总被引:1,自引:0,他引:1  
在文本关联分类研究中,训练样本特征词的分布情况对分类结果影响很大.即使是同一种关联分类算法,在不同的样本集上使用,分类效果也可能明显不同.为此,本文利用加权方法改善文本关联分类器的稳定性,设计实现了基于规则加权的关联分类算法(WARC)和基于样本加权的关联分类算法(SWARC).WARC算法通过规则自适应加权调整强弱不均的分类规则;SWARC算法则自适应地调整训练样本的权重,从根本上改善不同类别样本特征词分布不均的情况.实验结果表明,无论是WARC还是SWARC算法,经过权重调整后的文本分类质量明显提高,特别是SWARC算法分类质量的提高极为显著.  相似文献   

2.
遥感图像分类是遥感领域的研究热点之一.提出了一种基于自适应区间划分的模糊关联遥感图像分类方法(fuzzy associative remote sensing classification,FARSC).算法根据遥感图像分类的特点,利用模糊C均值聚类算法自适应地建立连续型属性模糊区间,使用新的剪枝策略对项集进行筛选从而避免生成无用规则,采用一种新的规则重要性度量方法对多模糊分类规则进行融合,从而有效地提高分类效率和精确度.在UCI数据和遥感图像上所作实验结果表明,算法具有较高的分类精度以及对样本数量变化的不敏感性,对于解决遥感图像分类问题,FARSC算法具有较高的实用性,是一种有效的遥感图像分类方法.  相似文献   

3.
《微型机与应用》2018,(4):41-44
针对网络软件缺陷预测中缺陷之间的显性关联关系和隐性关联关系,为提高网络软件缺陷预测的精确度和效率,基于现有的软件缺陷数据集,提出一种基于关联规则的网络软件缺陷预测方法。首先采用随机方法从美国国家航空航天局NASA的软件缺陷数据库中提取用于分类和测试的数据集,利用关联规则方法中Apriori算法对数据集进行关联规则生成和关联分类器的构建,并与BP神经网络方法的预测结果进行对比。结果表明,基于关联规则方法能够在小样本数据集中提高网络软件缺陷预测的精确度和有效性。  相似文献   

4.
针对基因表达谱数据的特点提出了基于闭合模式的FEALL分类算法.首先对数据进行预处理,剔除表达谱中的无关基因,从而降低FEALL算法的时间复杂度,减少冗余关联规则的产生;然后根据FEALL算法对行集建立行FP-tree,并对每行建立路径枚举树,挖掘出兴趣规则组的上边界,基于上边界建立分类器对样本进行分类预测,无法识别的样本采用权重判断算法进行判断.实验证明FEALL算法具有较高的效率和预测准确率.  相似文献   

5.
基于规则置信度调整的关联文本分类   总被引:1,自引:0,他引:1  
基于关联规则的文本分类方法ARC-BC是目前已知的分类效果最好的关联规则分类算法.本文提出了利用ARC-BC分类器的封闭测试的结果对分类器进行调整规则置信度的算法RCA(Rules Confidence Adjustment),参与正确分类行为次数多于参与错误分类行为次数(即"威信"较高)的规则应该拥有更高的置信度,反之,就赋予更低的置信度.实验结果表明,经过RCA算法调整的关联文本分类器的分类效果得到显著提高.  相似文献   

6.
蔡伟贤  滕少华 《计算机工程与设计》2011,32(11):3594-3598,3715
为了从检测数据中发现潜在的、有效的入侵检测规则,提高入侵检测系统的检测率,提出一个基于分类关联规则的入侵检测系统模型。系统对数据集进行预处理,再利用改进的分类关联规则挖掘算法I-Apriori-TFP(total-from-partial)来产生所有的分类关联规则,并基于已产生的分类关联规则建立一个分类器,分类器经测试数据测试后,生成检测代理,最后利用检测代理对网络数据进行检测。实验结果表明,该方法能够有效地检测出网络数据中的入侵行为。  相似文献   

7.
关联分类通常产生大量的分类规则,导致在分类新实例时经常产生规则冲突问题。针对这种规则冲突问题,提出了一种基于改进关联分类的两次学习框架。利用频繁且互关联的项集产生分类规则改进关联分类算法,有效减少了规则数。应用改进的关联分类算法产生的一级规则一次性分离出训练集中规则冲突的所有实例。然后,在冲突实例上应用改进的关联分类算法进行第二次学习得到二级规则。分类新实例时,首先利用第一级规则进行分类。如果出现规则冲突,则利用第二级规则分类该实例。实验结果表明,基于改进关联分类的两次学习方法降低了规则冲突比率,并且显著提高了分类准确率。  相似文献   

8.
针对消费者对商品的偏好存在时序变化特征,而传统关联规则方法未考虑时间因素的影响,且对海量数据集进行关联挖掘时存在效率低下的问题,提出了基于艾宾浩斯遗忘曲线的模糊关联规则算法。该方法通过FCM聚类算法对商品进行聚类,并用艾宾浩斯遗忘曲线来修正聚类的距离度量方法,从而得到商品类及各类的代表点商品;然后将各代表点商品作为属性,消费记录小票作为样本,利用模糊关联规则算法得到代表点商品间的规则;最后将某大型超市一个月的销售记录作为关联规则的事务数据来挖掘潜在规律,结果显示所提算法先对商品模糊关联分析,与传统直接对商品进行关联分析相比,该算法可以显著提高关联挖掘的效率和规则的正确率。  相似文献   

9.
基于分类规则树的频繁模式文本分类   总被引:14,自引:0,他引:14  
陈晓云  陈袆  王雷  李荣陆  胡运发 《软件学报》2006,17(5):1017-1025
基于频繁模式的关联分类是近年来出现的一种分类方法,该方法利用各类别频繁出现的模式构造分类规则,并对新文本进行分类.但现有关联分类方法应用于文本分类时存在两方面不足:一方面,用以构造分类规则的频繁模式仅考虑特征词在文本中出现与否,从而忽视了出现频度;另一方面,当产生的规则数量较多时,为提高分类效率需要进行规则修剪,修剪后的分类准确性明显降低.为此,提出了基于分类规则树的带词频的频繁模式文本分类方法.研究结果表明,词频的引入可以提高关联分类的准确率;而采用分类规则树可使分类时间明显加快又确保不降低分类质量.这两方面的措施弥补了现有关联分类应用于文本分类的不足.与3种典型文本分类方法比较后发现,在低维特征空间中,关联分类的性能优于Bayes,kNN(k nearest neighbor)和SVM(support vectormachines),因此是一种很有应用前景的文本分类方法.  相似文献   

10.
关联规则挖掘是数据挖掘领域中的重要研究内容之一。然而,传统的基于支持度-可信度框架的挖掘方法可能会产生大量不相关、甚至是误导的关联规则。针对现有关联规则挖掘的评价标准存在的问题,提出在评价标准中增加兴趣度,并给出了兴趣度的定义和基于兴趣度的关联规则挖掘算法。利用兴趣度将关联规则分为正关联规则和负关联规则,从而可以用算法挖掘带有负项的关联规则。实验结果分析表明,在传统挖掘方法的基础上引入兴趣度,可以有效地减少正关联规则的规模,产生有意义的负关联规则。  相似文献   

11.
研究分析了现有关联规则分类算法,总结了一般关联规则分类存在的不足,提出了一个基于关联规则挖掘技术构造分类器的新方法。该方法解决了传统算法产生规则太多,分类模型难以理解的问题。  相似文献   

12.
以短文本为主体的微博等社交媒体,因具备文本短、特征稀疏等特性,使得传统文本分类方法不能够高精度地对短文本进行分类。针对这一问题,文章提出了基于词项关联的短文本分类方法。首先对训练集进行强关联规则挖掘,将强关联规则加入到短文本的特征中,提高短文本特征密度,进而提高短文本分类精度。对比实验表明,该方法一定程度上减缓了短文本特征稀疏特点对分类结果的影响,提高了分类准确率、召回率和F1值。  相似文献   

13.
一个最优分类关联规则算法   总被引:1,自引:0,他引:1  
分类和关联规则发现是数据挖掘中的两个重要领域。使用关联规则算法挖掘分类规则被叫做分类关联规则算法,是一个有较好前景的方法。本文提出了一个最优分类关联规则算法——OCARA。该算法使用最优关联规则挖掘算法挖掘分类规则,并对最优规则集排序,从而获得一个分类精度较高的分类器。将OCARA与传统分类算法C4.5和一般分类关联规则算法CBA、RMR在8个UCI数据集上进行实验比较,结果显示OCARA具有更好的性能,证明OCARA是一个有效的分类关联规则挖掘算法。  相似文献   

14.
一种改进的关联分类算法   总被引:2,自引:0,他引:2  
关联分类算法是数据挖掘技术中一种主要分类方法,但传统关联分类算法仅根据置信度构造分类器,影响分类精度。提出一种改进算法,在选择高置信度构造分类器的基础上,优先考虑短规则分类。实验结果表明,该改进算法在分类精度和分类器大小上均优于传统分类算法。  相似文献   

15.
规则加权的文本关联分类   总被引:2,自引:1,他引:2  
近年来,基于关联规则的文本分类方法受到普遍关注。虽然在一般情况下这种方法可获得较好的分类效果。但当样本特征词分布明显不均时,分类规则在各类别的分布也出现不均,从而导致分类准确率下降。本文设计和实现的基于规则权重调整的关联规则文本分类算法可有效地解决这一问题。该算法根据误分类训练样本的数量定义规则强度。对强规则通过乘以小于1 的调整因子降低其权重,而弱规则乘以大于1的调整因子提高其权重。实验结果表明经过规则权重的调整,分类质量显著提高。  相似文献   

16.
高飞  周学广  孙艳 《计算机工程》2012,38(10):63-66
针对话题分类文本训练集少、主题相似度大的特点,提出一种基于关联规则和粗糙集的话题特征提取方法。在向量空间模型的基础上,采用挖掘关联规则的方式生成规则集与文本主体,通过调节事务主体的最小支持度与最小置信度查找不同颗粒层次的话题,利用粗糙集理论对词语特征与关联特征进行属性约简。实验结果表明,该方法能提取文本集中描述的评论主题,具有较高的话题分类准确率。  相似文献   

17.
使用否定选择算法改进文本过滤   总被引:2,自引:0,他引:2       下载免费PDF全文
本文针对基于关联规则的文本过滤器设计做了如下探索:(1)针对中文网络语言的特点,引入n-Gram方法提取文本的特征;(2)提出边界样本的概念;(3)在设计基于关联规则的文本过滤器时,引进了否定选择算法,采用否定选择算法对过滤器的检测器集合进行自体耐受,最终建立高准确率的文本过滤器。实验表明,经过自体耐受的过滤器 可以有效地提高过滤准确率。  相似文献   

18.
提出了一种基于规则和学习相结合的元数据分类存储的方法,该方法通过统计分析,提取对元数据分类影响较大的通用特征规则,对无法用规则分类的元数据,采用文本学习方法,将元数据记录看成由多个属性字段组成的文本,通过构造分类器实现分类。实验结果表明,采用元数据分类存储方法具有良好的检索性能。  相似文献   

19.
Most of the international accreditation bodies in engineering education (e.g., ABET) and outcome-based educational systems have based their assessments on learning outcomes and program educational objectives. However, mapping program educational objectives (PEOs) to student outcomes (SOs) is a challenging and time-consuming task, especially for a new program which is applying for ABET-EAC (American Board for Engineering and Technology the American Board for Engineering and Technology—Engineering Accreditation Commission) accreditation. In addition, ABET needs to automatically ensure that the mapping (classification) is reasonable and correct. The classification also plays a vital role in the assessment of students’ learning. Since the PEOs are expressed as short text, they do not contain enough semantic meaning and information, and consequently they suffer from high sparseness, multidimensionality and the curse of dimensionality. In this work, a novel associative short text classification technique is proposed to map PEOs to SOs. The datasets are extracted from 152 self-study reports (SSRs) that were produced in operational settings in an engineering program accredited by ABET-EAC. The datasets are processed and transformed into a representational form appropriate for association rule mining. The extracted rules are utilized as delegate classifiers to map PEOs to SOs. The proposed associative classification of the mapping of PEOs to SOs has shown promising results, which can simplify the classification of short text and avoid many problems caused by enriching short text based on external resources that are not related or relevant to the dataset.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号