首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
朴素贝叶斯算法是一种简单、高效且有着广泛应用的分类方法,但在现实中,条件独立性假设影响了其分类性能。为克服该问题,给出一种改进算法——样本-属性加权的朴素贝叶斯算法。首先,对属性计算相关系数得到属性权值;其次,利用属性权结合信息熵获得样本熵权,并据此加权样本以提高泛化能力;然后,给出了样本-属性加权的朴素贝叶斯算法;最后,在UCI数据集上的实验结果验证了改进算法比原算法具有更好的分类性能。  相似文献   

2.
基于改进属性加权的朴素贝叶斯分类模型   总被引:1,自引:0,他引:1       下载免费PDF全文
构造了一种新的属性间相关性度量方法,提出了改进属性加权的朴素贝叶斯分类模型。经实验证明,提出的朴素贝叶斯分类模型明显优于张舜仲等人提出的分类模型。  相似文献   

3.
朴素贝叶斯分类是一种简单而高效的方法,但是它的属性独立性假设,影响了它的分类性能。针对这种问题,本文提出一种基于属性加权的朴素贝叶斯分类算法。通过分析研究属性之间的相关性,求出条件属性与决策属性的相关系数,同时结合信息论中所涉及的互信息概念,获得新的权重,对不同的条件属性给予不同的权值,从而在保持简单性的基础上有效地提高了朴素贝叶斯算法的分类性能。实验结果表明,该方法可行而且有效。  相似文献   

4.
基于Rough Set的加权朴素贝叶斯分类算法   总被引:8,自引:1,他引:8  
朴素贝叶斯算法是一种简单而高效的分类算法,但其条件独立性假设并不符合客观实际,这在某种程度上影响了它的分类性能。加权朴素贝叶斯是对它的一种扩展。基于Rough Set的属性重要性理论,提出了基于Rough Set的加权朴素贝叶斯分类方法,并分别从代数观、信息观及综合代数观和信息观的角度给出了属性权值的求解方法。通过在UCI数据集上的仿真实验,验证了该方法的有效性。  相似文献   

5.
针对传统朴素贝叶斯分类模型在入侵取证中存在的特征项冗余问题,以及没有考虑入侵行为所涉及的数据属性间的差别问题,提出一种基于改进的属性加权朴素贝叶斯分类方法。用一种改进的基于特征冗余度的信息增益算法对特征项集进行优化,并在此优化结果的基础上,提取出其中的特征冗余度判别函数作为权值引入贝叶斯分类算法中,对不同的条件属性赋予不同的权值。经实验验证,该算法能有效地选择特征向量,降低分类干扰,提高检测精度。  相似文献   

6.
属性加权的朴素贝叶斯集成分类器   总被引:2,自引:1,他引:1  
为提高朴素贝叶斯分类器的分类精度和泛化能力,提出了基于属性相关性的加权贝叶斯集成方法(WEBNC)。根据每个条件属性与决策属性的相关度对其赋以相应的权值,然后用AdaBoost训练属性加权后的BNC。该分类方法在16个UCI标准数据集上进行了测试,并与BNC、贝叶斯网和由AdaBoost训练出的BNC进行比较,实验结果表明,该分类器具有更高的分类精度与泛化能力。  相似文献   

7.
朴素贝叶斯分类算法简单且高效, 但其基于属性间强独立性的假设限制了其应用范围. 针对这一问题, 提出一种基于属性选择的改进加权朴素贝叶斯分类算法(ASWNBC). 该算法将基于相关的属性选择算法(CFS)和加权朴素贝叶斯分类算法(WNBC)相结合, 首先使用CFS算法获得属性子集使简化后的属性集尽量满足条件独立性, 同时根据不同属性取值对分类结果影响的不同设计新权重作为算法的加权系数, 最后使用ASWNBC算法进行分类. 实验结果表明, 该算法在降低分类消耗时间的同时提高了分类准确率, 有效地提高了朴素贝叶斯分类算法的性能.  相似文献   

8.
基于朴素贝叶斯与ID3算法的决策树分类   总被引:2,自引:0,他引:2       下载免费PDF全文
v在朴素贝叶斯算法和ID3算法的基础上,提出一种改进的决策树分类算法。引入客观属性重要度参数,给出弱化的朴素贝叶斯条件独立性假设,并采用加权独立信息熵作为分类属性的选取标准。理论分析和实验结果表明,改进算法能在一定程度上克服ID3算法的多值偏向问题,并且具有较高的执行效率和分类准确度。  相似文献   

9.
为实现对电气事故快速、准确和动态的分类,提出一种有机结合实例和属性加权的朴素贝叶斯电气事故分类方法(AIWNB)。朴素贝叶斯分类方法中的先验概率和条件概率采用两种实例加权方式加以改进,积极实例权值取决于各属性值频度的统计值,而消极实例权值通过逐条计算训练实例与测试实例间的相关性加以确定。属性权值则基于互信息定义为属性-属性相关性和属性-类相关性之间的残差。所提出的AIWNB方法将属性加权和实例加权有机结合在朴素贝叶斯统一框架内,利用高低压用户的电气实测数据进行验证,实验结果表明,与朴素贝叶斯相比,加权后的朴素贝叶斯方法更具竞争性,准确率和F1分数可提升3.09%和9.39%,证明所提的AIWNB算法在电气事故分类的实用性及有效性,并可推广至其他分类情形。  相似文献   

10.
离散属性的朴素贝叶斯分类算法的优化   总被引:1,自引:0,他引:1  
朴素贝叶斯算法是一种经典的分类算法,广泛应用于很多领域.朴素贝叶斯分类算法引入了属性条件独立性假设,但这个假设在现实应用中往往不能满足,从而就会影响算法的分类性能.针对这一问题,本文对该算法进行了改进,对离散属性进行数值标记,之后用正交矩阵对连续属性和数值标记后的离散属性做正交变换,增强属性之间的相互独立性,去除了属性...  相似文献   

11.
彭天强  李弼程 《计算机工程》2009,35(20):178-180
提出一种基于朴素贝叶斯模型的新闻视频故事分割方法。通过对新闻视频进行镜头检测,获得候选故事边界点,从候选边界点周围镜头提取多模态中级特征,形成属性集合作为输入,应用朴素贝叶斯模型对候选边界点进行分类后对结果进行后处理,得到新闻故事。实验结果表明,该方法获得了较高的查准率和查全率,对不同类型的新闻节目有良好的适应性。  相似文献   

12.
Organizations often manage identity information for their customers, vendors, and employees. Identity management is critical to various organizational practices ranging from customer relationship management to crime investigation. The task of searching for a specific identity is difficult because disparate identity information may exist due to the issues related to unintentional errors and intentional deception. In this paper we propose a hierarchical Naïve Bayes model that improves existing identity matching techniques in terms of searching effectiveness. Experiments show that our proposed model performs significantly better than the exact-match based matching technique. With 50% training instances labeled, the proposed semi-supervised learning achieves a performance comparable to the fully supervised record comparison algorithm. The semi-supervised learning greatly reduces the efforts of manually labeling training instances without significant performance degradation.  相似文献   

13.
改进的朴素贝叶斯垃圾邮件过滤算法   总被引:1,自引:1,他引:0       下载免费PDF全文
介绍了朴素贝叶斯垃圾邮件过滤算法,对于朴素贝叶斯算法中条件概率的计算,选用了多变量贝努里事件模型的计算方法,在多变量贝努里事件模型的基础上进行了改进,并在Ling-Spam语料库上进行实验,实验结果表明改进后的算法有效地提高了过滤器的召回率和精确率,并且降低了过滤器的错误率。  相似文献   

14.
面对大量样本特征时很多分类器无法取得较好的分类效果,样本数有限导致贝叶斯算法无法获得精确的联合概率分布估计,在样本局部构建高质量分类器需要有效的样本相似性度量指标. 针对以上问题,提出了一种基于余弦相似度进行实例加权改进的朴素贝叶斯分类算法. 算法考虑特征对分类的决策权重不同,使用余弦相似度度量样本的相似性,选出最优训练样本子集,用相似度值作为训练样本的权值来训练修正后的贝叶斯模型进行分类. 基于UCI数据集的对比实验结果表明,提出的改进算法易于实现且具有更高的平均分类准确率.  相似文献   

15.
As the importance of email increases, the amount of malicious email is also increasing, so the need for malicious email filtering is growing. Since it is more economical to combine commodity hardware consisting of a medium server or PC with a virtual environment to use as a single server resource and filter malicious email using machine learning techniques, we used a Hadoop MapReduce framework and Naïve Bayes among machine learning methods for malicious email filtering. Naïve Bayes was selected because it is one of the top machine learning methods(Support Vector Machine (SVM), Naïve Bayes, K-Nearest Neighbor(KNN), and Decision Tree) in terms of execution time and accuracy. Malicious email was filtered with MapReduce programming using the Naïve Bayes technique, which is a supervised machine learning method, in a Hadoop framework with optimized performance and also with the Python program technique with the Naïve Bayes technique applied in a bare metal server environment with the Hadoop environment not applied. According to the results of a comparison of the accuracy and predictive error rates of the two methods, the Hadoop MapReduce Naïve Bayes method improved the accuracy of spam and ham email identification 1.11 times and the prediction error rate 14.13 times compared to the non-Hadoop Python Naïve Bayes method.  相似文献   

16.
The generalized Dirichlet distribution has been shown to be a more appropriate prior for naïve Bayesian classifiers, because it can release both the negative-correlation and the equal-confidence requirements of the Dirichlet distribution. The previous research did not take the impact of individual attributes on classification accuracy into account, and therefore assumed that all attributes follow the same generalized Dirichlet prior. In this study, the selective naïve Bayes mechanism is employed to choose and rank attributes, and two methods are then proposed to search for the best prior of each single attribute according to the attribute ranks. The experimental results on 18 data sets show that the best approach is to use selective naïve Bayes for filtering and ranking attributes when all of them have Dirichlet priors with Laplace's estimate. After the ranks of the chosen attributes are determined, individual setting is performed to search for the best noninformative generalized Dirichlet prior for each attribute. The selective naïve Bayes is also compared with two representative filters for the feature selection, and the experimental results show that it has the best performance.  相似文献   

17.
刘颖  胡明涵 《计算机应用》2008,28(5):1359-1361
设计并实现了带有主题词结构的政府公文分类系统,在公文分类预处理过程中充分利用主题词所携带的类别信息,运用随机关键词产生技术和Bootstrapping学习方法对公文文本特征空间进行转换并降维,实现了一个不同于传统的文本分类预处理过程,使公文分类系统的性能得到了提高。基于随机关键词产生技术和Bootstrapping 学习方法的公文分类系统分类效果优于普通分类器。  相似文献   

18.
出生缺陷监测数据中的朴素干预规则挖掘   总被引:3,自引:1,他引:2  
出生缺陷干预规则挖掘是目前医学界和数据挖掘界共同关注的课题。以出生缺陷数据为背景,研究了朴素干预规则建模,并试图发现某些出生缺陷的可能致因。提出了朴素干预规则模型以及朴素干预规则挖掘算法。实验表明,提出的算法能有效挖掘出围产儿缺陷的致因,并为出生缺陷干预工程的政策制定提供致病因素的最佳状态调整方向。  相似文献   

19.
蛋白质相互作用中界面残基的识别在药物设计与生物体的新陈代谢等方面有着广泛应用。基于朴素贝叶斯分类器对属性条件独立性的要求,构建了由蛋白质序列谱和溶剂可及表面积组成的蛋白质相互作用特征模型。在一个具有代表性的蛋白质异源复合物组成的数据集中取得了68.1%的准确率、0.201 的相关系数、40.2%的特异度和 49.9%的灵敏度,取得了比其他方法更优的结果,且远优于随机的实验结果。通过一个三维可视化的结果更好地验证了方法的有效性。  相似文献   

20.
提出了一种没有训练集情况下实现对未标注类别文本文档进行分类的问题。类关联词是与类主体相关、能反映类主体的单词或短语。利用类关联词提供的先验信息,形成文档分类的先验概率,然后组合利用朴素贝叶斯分类器和EM迭代算法,在半监督学习过程中加入分类约束条件,用类关联词来监督构造一个分类器,实现了对完全未标注类别文档的分类。实验结果证明,此方法能够以较高的准确率实现没有训练集情况下的文本分类问题,在类关联词约束下的分类准确率要高于没有约束情况下的分类准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号