首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
根据RoughSet属性重要度理论,构建了基于互信息的属性子集重要度,提出属性相关性的加权朴素贝叶斯分类算法,该算法同时放宽了朴素贝叶斯算法属性独立性、属性重要性相同的假设。通过在UCI部分数据集上进行仿真实验,与基于属性相关性分析的贝叶斯(CB)和加权朴素贝叶斯(WNB)两种算法做比较,证明了该算法的有效性。  相似文献   

2.
分类算法一直以来都是数据挖掘领域的研究重点,朴素贝叶斯分类算法是众多优秀分类算法之一,但由于其条件属性必需独立,使得该算法也存在着一定的局限性。为了从另外一种角度来改进该算法,提高分类性能,提出了一种基于K-近邻法的局部加权朴素贝叶斯分类算法。使用K-近邻法对属性加权,找到最合适的加权值,运用加权后的朴素贝叶斯分类算法去分类,实验表明该算法提高了分类的可靠性与准确率。  相似文献   

3.
基于属性加权的朴素贝叶斯分类算法   总被引:3,自引:0,他引:3       下载免费PDF全文
朴素贝叶斯分类是一种简单而高效的方法,但是它的属性独立性假设,影响了它的分类性能。通过放松朴素贝叶斯假设可以增强其分类效果,但通常会导致计算代价大幅提高。提出了属性加权朴素贝叶斯算法,该算法通过属性加权来提高朴素贝叶斯分类器性能,加权参数直接从训练数据中学习得到。权值可以看作是计算某个类的后验概率时,某属性取值对该类别的影响程度。实验结果表明,该算法可行而且有效。  相似文献   

4.
朴素贝叶斯算法是一种简单而高效的分类算法,但属性的条件独立性假设并不符合客观实际,特别是高维度数据的属性之间往往存在相关关系,如何能在实现对数据降维的同时又提高朴素贝叶斯的分类性能是一个重要的研究问题.对基于条件信息熵的选择朴素贝叶斯、基于主成分分析的朴素贝叶斯和基于独立成分分析的朴素贝叶斯算法进行研究,通过在UCI数据集上的仿真实验,详细比较了几种维规约算法对朴素贝叶斯分类性能的影响.  相似文献   

5.
混合树增广朴素贝叶斯分类模型   总被引:1,自引:0,他引:1  
树增广朴素贝叶斯分类算法(TANC)虽然降低了朴素贝叶斯分类算法(NBC)的条件独立性约束,但是该模型同时又要求每个条件属性结点(除树的根结点外)都有两个父结点,这种限制同样降低了分类的正确率.因此,提出了一种基于粗糙集理论的混合树增广朴素贝叶斯分类模型(MTANC).通过在UCI数据集上的仿真实验,验证了该方法的有效性.  相似文献   

6.
针对朴素贝叶斯(NB)算法在现实情况中所存在的缺陷,提出一种改进后的朴素贝叶斯算法——树加权朴素贝叶斯(TW-NB)算法。该算法通过引入决策树归纳法(DTI)在属性之间条件独立的集合中选择出相对更为重要的子属性集,并利用权重参数弱化了NB算法的条件独立假设性,从而降低了分类数据的维度,提高了算法的分类准确率。结合实验结果证明,在使用有限的计算资源下,基于TW-NB算法的入侵检测技术对于不同的网络入侵类型皆能表现出较高的检测率(DR)和较低的误检率(FR)。  相似文献   

7.
朴素贝叶斯分类器是一种应用广泛且简单有效的分类算法,但其条件独立性的"朴素贝叶斯假设"与现实存在差异,这种假设限制朴素贝叶斯分类器分类的准确率。为削弱这种假设,利用改进的蝙蝠算法优化朴素贝叶斯分类器。改进的蝙蝠算法引入禁忌搜索机制和随机扰动算子,避免其陷入局部最优解,加快收敛速度。改进的蝙蝠算法自动搜索每个属性的权值,通过给每个属性赋予不同的权值,在计算代价不大幅提高的情况下削弱了类独立性假设且增强了朴素贝叶斯分类器的准确率。实验结果表明,该算法与传统的朴素贝叶斯和文献[6]的新加权贝叶斯分类算法相比,其分类效果更加精准。  相似文献   

8.
基于Rough Set的加权朴素贝叶斯分类算法   总被引:8,自引:1,他引:8  
朴素贝叶斯算法是一种简单而高效的分类算法,但其条件独立性假设并不符合客观实际,这在某种程度上影响了它的分类性能。加权朴素贝叶斯是对它的一种扩展。基于Rough Set的属性重要性理论,提出了基于Rough Set的加权朴素贝叶斯分类方法,并分别从代数观、信息观及综合代数观和信息观的角度给出了属性权值的求解方法。通过在UCI数据集上的仿真实验,验证了该方法的有效性。  相似文献   

9.
朴素贝叶斯分类是一种简单而高效的方法,但是它的属性独立性假设,影响了它的分类性能。针对这种问题,本文提出一种基于属性加权的朴素贝叶斯分类算法。通过分析研究属性之间的相关性,求出条件属性与决策属性的相关系数,同时结合信息论中所涉及的互信息概念,获得新的权重,对不同的条件属性给予不同的权值,从而在保持简单性的基础上有效地提高了朴素贝叶斯算法的分类性能。实验结果表明,该方法可行而且有效。  相似文献   

10.
文本分类是信息检索和文本挖掘的重要基础,朴素贝叶斯是一种简单而高效的分类算法,可以应用于文本分类.但是其属性独立性和属性重要性相等的假设并不符合客观实际,这也影响了它的分类效果.如何克服这种假设,进一步提高其分类效果是朴素贝叶斯文本分类算法的一个难题.根据文本分类的特点,基于文本互信息的相关理论,提出了基于互信息的特征项加权朴素贝叶斯文本分类方法,该方法使用互信息对不同类别中的特征项进行分别赋权,部分消除了假设对分类效果的影响.通过在UCIKDD数据集上的仿真实验,验证了该方法的有效性.  相似文献   

11.
鉴于特征属性选择在网络流量分类中占据重要地位,为了确定最优特征子集,利用CFS作为适应度函数的改进遗传算法(GA-CFS),从网络流量的249个属性空间中提取主要属性并最终选定18个特征组合作为最优特征子集。通过AdaBoost算法把一系列的弱分类器提升为强分类器,对网络流量进行了深入的分类研究。实验结果表明,基于GA-CFS和AdaBoost的流量组合分类方法较弱分类器具有较高的分类准确率。  相似文献   

12.
模糊决策粗糙集代价敏感属性约简研究   总被引:1,自引:1,他引:0  
刘偲  秦亮曦 《计算机科学》2016,43(Z11):67-72
针对决策中普遍存在的代价问题,在模糊理论和决策粗糙集的基础上,对其代价敏感属性约简方法进行了研究。在模糊决策粗糙集属性约简中引入了包含误分类代价和测试代价的总代价。因此约简的目标不再只是考虑正域的大小,而是寻找使得总代价最小的最优属性子集。提出了一种模糊决策粗糙集代价敏感属性约简(COSAR)算法,该算法采用启发式方法搜索最优属性子集。给出了算法的步骤,并将该算法与已有的模糊粗决策粗糙集属性快速约简(QuickReduct)算法进行了性能对比。实验结果表明,COSAR算法比QuickReduct算法具有更强的属性约简能力、更低的分类总代价、更短的运行时间,且随着测试样本的增加,分类总代价差值也越来越大。  相似文献   

13.
针对软件可靠性预测中软件度量维数灾难问题,提出一种基于自适应遗传算法和KNN算法相结合的软件度量属性选择方法,筛选出与软件可靠性关系最为密切的关键属性集。该方法在属性子集搜索上采用遗传算法进行随机搜索,在属性子集评价上采用KNN分类准确率和属性子集规模作为学习算法及评价指标。实验结果表明,该算法可有效地找出具有较好可分离性的属性子集,从而实现降维并提高软件可靠性预测精度。  相似文献   

14.
针对分类规则的预处理问题,提出离群属性检测分类算法。在报文分类规则属性域上计算离群属性子集,利用规则属性加权矢量计算加权距离,分析规则加权邻域的子空间离群影响因子,通过与离群因子阈值比较生成频繁匹配子集对规则进行预处理。实验结果表明,该算法能缩小后续报文的匹配范围,提高报文转发的匹配精度与速度。  相似文献   

15.
为提高分布式多媒体服务组合系统中路径的健壮性和可靠性,提出一种基于Markov链和加权朴素贝叶斯分类器(WNBC)的异常预测算法。该算法利用Markov模型预测系统节点的资源状态信息,使用WNBC对预测的节点状态进行分类,以判断节点是否可能发生异常。实验结果表明,该算法能根据节点的状态信息预测系统节点的不同异常状态,性能较同类算法有较大的改善。  相似文献   

16.
提出一种基于粗糙集与量子遗传算法理论的属性约简模型.首先,基于粗糙集理论,以条件属性集对决策属性近似分类质量为准则,构造出一种衡量最佳属性子集的适应度函数.以此为基础,结合量子计算原理中量子旋转门调整策略以及量子交叉方法对种群进行更新操作,构造了该模型的属性约简方法.仿真实验结果表明了本文方法的有效性.  相似文献   

17.
朱颢东  钟勇 《计算机科学》2009,36(11):196-199
在文本分类中,特征空间的维数通常高达几万,甚至远远超出训练样本的个数,这是一种十分普遍现象.为了提高文本挖掘算法的运行速度,降低占用的内存空间,过滤掉不相关或相关程度低的特征,必须使用特征选择算法.首先给出了一个基于最小词频的文档频方法,然后把粗糙集引入进来并提出了一个基于Beam搜索的属性约简算法,最后把该属性约简算法同基于最小词频的文档频方法结合起来,提出了一个综合的特征选择算法.该算法首先利用基于最小词频的文档频方法进行特征选择,然后利用所提属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明该算法是有效的.  相似文献   

18.
针对决策树C4.5算法在处理连续值属性过程中时间复杂度较高的问题,提出一种新的决策树构建方法:采用概率论中属性间的相关系数(Pearson),对数据集中的属性进行约简;结合属性的信息增益率,保留决策属性的最优子集,保证属性子集中没有冗余属性;采用边界点的判定,改进了连续值属性离散化过程中阈值分割方法,对信息增益率的计算进行修正。采用UCI数据库中的数据集,在Pycharm平台上进行一系列对比实验,结果表明:采用改进后C4.5决策树算法,决策树生成效率提高了约50%,准确率提升约2%,比较有效地解决了原C4.5算法属性选择偏连续值属性的问题。  相似文献   

19.
A compact and accurate model for classification   总被引:6,自引:0,他引:6  
We describe and evaluate an information-theoretic algorithm for data-driven induction of classification models based on a minimal subset of available features. The relationship between input (predictive) features and the target (classification) attribute is modeled by a tree-like structure termed an information network (IN). Unlike other decision-tree models, the information network uses the same input attribute across the nodes of a given layer (level). The input attributes are selected incrementally by the algorithm to maximize a global decrease in the conditional entropy of the target attribute. We are using the prepruning approach: when no attribute causes a statistically significant decrease in the entropy, the network construction is stopped. The algorithm is shown empirically to produce much more compact models than other methods of decision-tree learning while preserving nearly the same level of classification accuracy.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号