首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
2.
基于属性加权的朴素贝叶斯分类算法   总被引:3,自引:0,他引:3       下载免费PDF全文
朴素贝叶斯分类是一种简单而高效的方法,但是它的属性独立性假设,影响了它的分类性能。通过放松朴素贝叶斯假设可以增强其分类效果,但通常会导致计算代价大幅提高。提出了属性加权朴素贝叶斯算法,该算法通过属性加权来提高朴素贝叶斯分类器性能,加权参数直接从训练数据中学习得到。权值可以看作是计算某个类的后验概率时,某属性取值对该类别的影响程度。实验结果表明,该算法可行而且有效。  相似文献   

3.
基于有向树算法构造的TAN分类器   总被引:1,自引:0,他引:1  
树扩展型朴素贝叶斯(TAN)分类器放松了朴素贝叶斯的属性独立性假设,是对朴素贝叶斯分类器的有效改进.但传统TAN的构造算法中树的根结点是随意选择的,这使得其无法精确表达属性间的依赖关系.通过将依赖关系设定方向,并将有向树算法引入TAN分类器的构造,提出了一种新的TAN模型构造方法--DTAN.实验结果表明,DTAN分类方法在实例个数比较多的数据集上具有显著优秀的分类性能.  相似文献   

4.
决策树、朴素贝叶斯和朴素贝叶斯树的比较   总被引:1,自引:1,他引:0  
利用数据挖掘工具Weka,在常态数据集adult上进行实验,从时间、正确率、误差率三个指标对比分析J48(C4.5决策树),朴素贝叶斯分类器,朴素贝叶斯树(NBTree)三种分类算法.结论为:在内存充足,时间要求不高的情况下,使用朴素贝叶斯树(NBTree)能获得更高的正确率和错误率;J48则是一种折中的方案;朴素贝叶斯分类器完成时间最短,但正确率和错误率为三种算法中最差.  相似文献   

5.
通过分析朴素贝叶斯分类器与树扩张型朴素贝叶斯(TAN)分类器,提出了一种新的属性依赖度量方法,并依此对TAN分类器的构造方法进行了改进.将该分类方法(XINTAN)与朴素贝叶斯分类器和TAN分类器进行了实验比较.实验结果表明,此分类方法集中了朴素贝叶斯分类器与树扩张型朴素贝叶斯(TAN)分类器的优点,性能要优于TAN分类器.  相似文献   

6.
比较了朴素贝叶斯分类器的一些改进算法,提出了新的TTree分类器,采用决策树分割实例集,在叶节点建立TAN分类器.实验分析表明,TTree算法与NBTree、TAN、Na(i)ve-bayes相比,有较高的分类准确率.该分类器应用到电信CRM客户建模中,得到了较好的分类结果.  相似文献   

7.
朴素贝叶斯分类器(Na(i)ve Bayes,NB)因其简单、高效的特性,被广泛应用于诸多领域,然而其属性独立的假设在现实世界往往并不成立.因此许多学者针对这个问题进行了大量的研究,其中较有代表性的算法有懒惰贝叶斯规则分类器(Lazy learning of Bayesian Rules,LBR),增强树贝叶斯分类器(Tree Augmented Naive Bayes,TAN)和平均单依赖分类器(Averaged One-Dependence Estimator,AODE).而AODE分类器以较快的训练速度和较好的分类精度尤为引人注日.该算法原理是:把所有单依赖分类器(Super Parent One-Dependence Estimator,SPODE)的预测概率加起来求平均,并以平均预测概率进行分类.这种简单求平均的集成方法没有考虑到每个SPODE贡献的大小,因此分类精度达不到最优.为了弥补这种不足,我们提出一种加权SPODE集成框架,为每个SPODE赋予合适的权值,权值通过优化算法计算得到.因为是在次优解的附近寻优,所以计算时问很短.实验表明新算法比NB、AODE、WAODE、LBR和TAN等算法具有更好的性能.  相似文献   

8.
通过对朴素贝叶斯(NBC)分类器与传统的基于树扩展的贝叶斯(TAN)分类器的分析,对TAN分类器进行改进,提出CTAN分类器。朴素贝叶斯分类器对非类属性独立性进行完全独立假设,传统TAN则弱化所有属性的独立性.提出的CTAN则是通过操作TAN保留对数对部分相关属性有选择的进行弱化。CTAN改进的方向主要是对属性关系树的部分利用,通过实验证明,CTAN要优于传统TAN分类器。  相似文献   

9.
朴素贝叶斯分类器是一种应用广泛且简单有效的分类算法,但其条件独立性的"朴素贝叶斯假设"与现实存在差异,这种假设限制朴素贝叶斯分类器分类的准确率。为削弱这种假设,利用改进的蝙蝠算法优化朴素贝叶斯分类器。改进的蝙蝠算法引入禁忌搜索机制和随机扰动算子,避免其陷入局部最优解,加快收敛速度。改进的蝙蝠算法自动搜索每个属性的权值,通过给每个属性赋予不同的权值,在计算代价不大幅提高的情况下削弱了类独立性假设且增强了朴素贝叶斯分类器的准确率。实验结果表明,该算法与传统的朴素贝叶斯和文献[6]的新加权贝叶斯分类算法相比,其分类效果更加精准。  相似文献   

10.
分类是数据挖掘中很重要的一个组成部分,利用贝叶斯理论的分类算法分类准确,可解释性强。本文对基于贝叶斯理论的分类算法进行分析总结,首先阐明了贝叶斯理论,介绍了基于贝叶斯理论的朴素贝叶斯分类器、TAN模型分类算法、AODE分类算法和AnDE分类算法及其原理,以及各个算法的特征。  相似文献   

11.
朴素贝叶斯分类器是一种简单而高效的分类器,但是其属性独立性假设限制了对实际数据的应用。提出一种新的算法,该算法为避免数据预处理时,训练集的噪声及数据规模使属性约简的效果不太理想,并进而影响分类效果,在训练集上通过随机属性选取生成若干属性子集,并以这些子集构建相应的贝叶斯分类器,进而采用遗传算法进行优选。实验表明,与传统的朴素贝叶斯方法相比,该方法具有更好的分类精度。  相似文献   

12.
Bayesian Network Classifiers   总被引:154,自引:0,他引:154  
Friedman  Nir  Geiger  Dan  Goldszmidt  Moises 《Machine Learning》1997,29(2-3):131-163
Recent work in supervised learning has shown that a surprisingly simple Bayesian classifier with strong assumptions of independence among features, called naive Bayes, is competitive with state-of-the-art classifiers such as C4.5. This fact raises the question of whether a classifier with less restrictive assumptions can perform even better. In this paper we evaluate approaches for inducing classifiers from data, based on the theory of learning Bayesian networks. These networks are factored representations of probability distributions that generalize the naive Bayesian classifier and explicitly represent statements about independence. Among these approaches we single out a method we call Tree Augmented Naive Bayes (TAN), which outperforms naive Bayes, yet at the same time maintains the computational simplicity (no search involved) and robustness that characterize naive Bayes. We experimentally tested these approaches, using problems from the University of California at Irvine repository, and compared them to C4.5, naive Bayes, and wrapper methods for feature selection.  相似文献   

13.
惠孛  吴跃 《计算机应用》2009,29(3):903-904
由于朴素贝叶斯分类模型的简单高效,在垃圾邮件分类时可以达到较好的效果;但朴素贝叶斯的条件独立假设割裂了属性之间的关系,影响了分类的准确性。放松朴素贝叶斯分类模型关于属性之间条件独立假设,介绍一种新的基于不完全朴素贝叶斯分类模型的垃圾邮件分类模型,N平均1 依赖邮件过滤模型。使用N个1 依赖分类模型的平均概率作为分类的预测概率。实验证明,该模型在简单、高效的同时降低了对垃圾邮件分类的错误率。  相似文献   

14.
Due to being fast, easy to implement and relatively effective, some state-of-the-art naive Bayes text classifiers with the strong assumption of conditional independence among attributes, such as multinomial naive Bayes, complement naive Bayes and the one-versus-all-but-one model, have received a great deal of attention from researchers in the domain of text classification. In this article, we revisit these naive Bayes text classifiers and empirically compare their classification performance on a large number of widely used text classification benchmark datasets. Then, we propose a locally weighted learning approach to these naive Bayes text classifiers. We call our new approach locally weighted naive Bayes text classifiers (LWNBTC). LWNBTC weakens the attribute conditional independence assumption made by these naive Bayes text classifiers by applying the locally weighted learning approach. The experimental results show that our locally weighted versions significantly outperform these state-of-the-art naive Bayes text classifiers in terms of classification accuracy.  相似文献   

15.
多种策略改进朴素贝叶斯分类器   总被引:7,自引:1,他引:7  
张璠 《微机发展》2005,15(4):35-36,39
朴素贝叶斯分类器是一种简单而高效的分类器,但是它的属性独立性假设使其无法表示现实世界属性之间的依赖关系,影响了它的分类性能。通过广泛深入的研究,对改进朴素贝叶斯分类器的多种策略进行了系统的分析和归类整理,为进一步的研究打下坚实的基础。  相似文献   

16.
朴素贝叶斯分类算法简单且高效, 但其基于属性间强独立性的假设限制了其应用范围. 针对这一问题, 提出一种基于属性选择的改进加权朴素贝叶斯分类算法(ASWNBC). 该算法将基于相关的属性选择算法(CFS)和加权朴素贝叶斯分类算法(WNBC)相结合, 首先使用CFS算法获得属性子集使简化后的属性集尽量满足条件独立性, 同时根据不同属性取值对分类结果影响的不同设计新权重作为算法的加权系数, 最后使用ASWNBC算法进行分类. 实验结果表明, 该算法在降低分类消耗时间的同时提高了分类准确率, 有效地提高了朴素贝叶斯分类算法的性能.  相似文献   

17.
针对Naive Bayes方法中条件独立性假设常常与实际相违背的情况,提出了CLIF_NB文本分类学习方法,利用互信息理论,计算特征属性之间的最大相关性概率,用变量集组合替代线性不可分属性,改善条件独立性假设的限制,并通过学习一系列分类器,缩小训练集中的分类错误,综合得出分类准确率较高的CLIF_NB分类器.  相似文献   

18.
文本分类是信息检索和文本挖掘的重要基础,朴素贝叶斯是一种简单而高效的分类算法,可以应用于文本分类.但是其属性独立性和属性重要性相等的假设并不符合客观实际,这也影响了它的分类效果.如何克服这种假设,进一步提高其分类效果是朴素贝叶斯文本分类算法的一个难题.根据文本分类的特点,基于文本互信息的相关理论,提出了基于互信息的特征项加权朴素贝叶斯文本分类方法,该方法使用互信息对不同类别中的特征项进行分别赋权,部分消除了假设对分类效果的影响.通过在UCIKDD数据集上的仿真实验,验证了该方法的有效性.  相似文献   

19.
朴素贝叶斯(NB)算法应用于文本分类时具有简单性和高效性,但算法中属性独立性与重要性一致的假设,使其在精确度方面存在瓶颈.针对该问题,提出一种基于泊松分布的特征加权NB文本分类算法.结合泊松分布模型和NB算法,将泊松随机变量引入特征词权重,在此基础上定义信息增益率对文本特征词加权,削弱传统算法属性独立性假设造成的影响.在20-newsgroups数据集上的实验结果表明,与传统NB算法及其改进算法RwC-MNB和CFSNB相比,该算法可使文本分类的准确率、召回率和F1值得到提升,并且执行效率高于K-最近邻算法和支持向量机算法.  相似文献   

20.
Web page classification has become a challenging task due to the exponential growth of the World Wide Web. Uniform Resource Locator (URL)‐based web page classification systems play an important role, but high accuracy may not be achievable as URL contains minimal information. Nevertheless, URL‐based classifiers along with rejection framework can be used as a first‐level filter in a multistage classifier, and a costlier feature extraction from contents may be done in later stages. However, noisy and irrelevant features present in URL demand feature selection methods for URL classification. Therefore, we propose a supervised feature selection method by which relevant URL features are identified using statistical methods. We propose a new feature weighting method for a Naive Bayes classifier by embedding the term goodness obtained from the feature selection method. We also propose a rejection framework to the Naive Bayes classifier by using posterior probability for determining the confidence score. The proposed method is evaluated on the Open Directory Project and WebKB data sets. Experimental results show that our method can be an effective first‐level filter. McNemar tests confirm that our approach significantly improves the performance.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号