首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
针对传统朴素贝叶斯分类模型在入侵取证中存在的特征项冗余问题,以及没有考虑入侵行为所涉及的数据属性间的差别问题,提出一种基于改进的属性加权朴素贝叶斯分类方法。用一种改进的基于特征冗余度的信息增益算法对特征项集进行优化,并在此优化结果的基础上,提取出其中的特征冗余度判别函数作为权值引入贝叶斯分类算法中,对不同的条件属性赋予不同的权值。经实验验证,该算法能有效地选择特征向量,降低分类干扰,提高检测精度。  相似文献   

2.
针对传统时间序列分类方法需要较为繁琐的特征抽取工作以及在只有少量标记数据时分类效果不佳的问题,通过分析BP神经网络和朴素贝叶斯分类器的特点,提出一种基于BP和朴素贝叶斯的时间序列分类模型。利用了BP神经网络非线性映射能力和朴素贝叶斯分类器在少量标记数据下的分类能力,将BP神经网络抽取到的特征输入到朴素贝叶斯分类器中,可以较为有效的解决传统时间序列分类算法的问题。实验结果表明,该模型在标记数据较少的情况下的时间序列分类中具有较高的分类准确度。  相似文献   

3.
针对传统朴素贝叶斯算法对高维复杂的入侵行为检测效率低下的状况,提出一种基于粒子群的加权朴素贝叶斯入侵检测模型。模型首先用粗糙集理论对样本属性特征集进行约简,再利用改进的粒子群算法优化加权朴素贝叶斯算法的属性权值,获得属性权值的最优解,用获得的最优解构造贝叶斯分类器完成检测。其中,改进的粒子群是采用权衡因子方法更新其速度和位置公式,避免产生局部最优。两种算法的结合,既能解决传统朴素贝叶斯算法的特征项冗余问题,同时也可以优化特征项间的强独立性问题。通过实验证实了该模型的实效性,提高了检测率。  相似文献   

4.
基于粗集的朴素贝叶斯分类算法及其应用   总被引:1,自引:0,他引:1       下载免费PDF全文
朴素贝叶斯方法是数据库分类知识挖掘领域一项基本技术,具有广泛的应用。论文针对朴素贝叶斯方法的限制,提出了基于粗集理论的贝叶斯的分类知识挖掘方法。该方法首先基于粗集理论的属性约简能力,根据数据库中条件属性和决策属性之间的依赖关系,进行属性的约简处理,然后基于朴素贝叶斯方法进行分类知识挖掘。实验结果表明,基于粗集理论的贝叶斯分类方法改善了贝叶斯分类方法中属性之间独立的限制,简化了挖掘模型,使挖掘性能具有明显的优化。  相似文献   

5.
文本分类是自然语言处理领域的一项基础工作.文本数据的高维性和稀疏性,给文本分类带来了许多问题和挑战.朴素贝叶斯模型因其简单、高效、易理解的特点被广泛应用于文本分类任务,但其属性条件独立假设在现实的文本数据中很难满足,从而影响了它的分类性能.为了削弱朴素贝叶斯的属性条件独立假设,学者们提出了许多改进方法,主要包括结构扩展、实例选择、实例加权、特征选择、特征加权等.然而,所有这些方法都是基于独立的单词特征来构建朴素贝叶斯分类模型,在一定程度上限制了它们的分类性能.为此,尝试用特征学习的方法来改进朴素贝叶斯文本分类模型,提出了一种双层贝叶斯模型:随机森林朴素贝叶斯(random forest naive Bayes,RFNB).RFNB分为2层,第1层利用随机森林从原始的单词特征中学习单词组合的高层特征.然后将学习到的新特征输入第2层,经过一位有效编码后用于构建伯努利朴素贝叶斯模型.在大量广泛使用的文本数据集上的实验结果表明,提出的RFNB模型明显优于现有的最先进的朴素贝叶斯文本分类模型和其他经典的文本分类模型.  相似文献   

6.
《软件工程师》2016,(10):9-14
使用朴素贝叶斯分类算法,结合Spark内存计算框架,对用户观看视频及次数信息进行分析,建立用户性别和年龄区间的分类模型;然后利用特征项的权重优化模型,考虑到每个特征项在各个类别中的权重对分类结果的影响,提出了一种基于特征项与类别间相关性的TFC-IDFC权重计算方法,并与传统的TF-IDF权重计算方法进行比较,通过正确率和F1值两个指标,证明考虑到特征项与类别的相关性所提出的TFC-IDFC权重使得分类模型的分类能力更好。  相似文献   

7.
传统朴素贝叶分类算法没有根据特征项的不同对其重要程度进行划分,使得分类结果不准确。针对这一问题,引入Jensen-Shannon(JS)散度,用JS散度来表示特征项所能提供的信息量,并针对JS散度存在的不足,从类别内与类别间的词频、文本频以及用变异系数修正过的逆类别频率这三个方面考虑,对JS散度进行调整修正,最后计算出每一特征项的权值,将权值带入到朴素贝叶斯的公式中。通过与其他算法的对比实验证明,基于JS散度并从词、文本、类别三方面改进后的朴素贝叶斯算法的分类效果最好。因此基于JS散度特征加权的朴素贝叶斯分类算法与其他分类算法相比,其分类性能有很大提高。  相似文献   

8.
朴素贝叶斯分类方法由于其简单快速的特点,被广泛应用于文本分类领域。但是当训练集中各个类别的样本数据分布不均匀时,朴素贝叶斯方法分类精度不太理想。针对此问题,提出一种基于加权补集的朴素贝叶斯文本分类算法,该算法利用某个类别的补集的特征来表示当前类别的特征,且对特征权重进行归一化处理。通过实验对比了该方法与传统的朴素贝叶斯方法对文本分类效果的影响,结果表明,基于加权补集的朴素贝叶斯算法具有较好的文本分类效果。  相似文献   

9.
针对传统贝叶斯分类算法在处理海量数据时存在的运行时间长和分类准确率低等问题,在对传统的贝叶斯分类算法和云计算进行了深入研究后,提出了面向云计算环境的基于MapReduce模型的朴素贝叶斯分类算法。该算法实现了朴素贝叶斯分类算法的并行化,实现了大规模数据在云计算环境下的集群中进行贝叶斯分类处理。实验结果证明,该算法具有较高的分类准确率,在运行时间和加速比方面也有很好的效果。  相似文献   

10.
针对朴素贝叶斯分类器在分类过程中,不同类别的同一特征量之间存在相似性,易导致误分类的现象,提出基于引力模型的朴素贝叶斯分类算法。提出以引力公式中的距离变量的平方作为“相似距离”,应用引力模型来刻画特征与其所属类别之间的相似度,从而克服朴素贝叶斯分类算法容易受到条件独立假设的影响,将所有特征同质化的缺点,并能有效地避免噪声干扰,达到修正先验概率、提高分类精度的目的。对遥感图像的分类实验表明,基于引力模型的朴素贝叶斯分类算法易于实现,可操作性强,且具有更高的平均分类准确率。  相似文献   

11.
目前对以朴素贝叶斯算法为代表的文本分类算法,普遍存在特征权重一致,考虑指标单一等问题。为了解决这个问题,提出了一种基于TF-IDF的朴素贝叶斯改进算法TF-IDF-DL朴素贝叶斯算法。该算法以TF-IDF为基础,引入去中心化词频因子和特征词位置因子以加强特征权重的准确性。为了验证该算法的效果,采用了搜狗实验室的搜狗新闻数据集进行实验,实验结果表明,在朴素贝叶斯分类算法中引入TF-IDF-DL算法,能够使该算法在进行文本分类中的准确率、召回率和F 1值都有较好的表现,相比国内同类研究TF-IDF-dist贝叶斯方案,分类准确率提高8.6%,召回率提高11.7%,F 1值提高7.4%。因此该算法能较好地提高分类性能,并且对不易区分的类别也能在一定程度上达到良好的分类效果。  相似文献   

12.
郑宁川  徐光伟 《计算机应用》2010,30(12):3407-3409
在自治网络中对其所拥有的服务资源,依靠改进朴素贝叶斯分类算法,并且结合中国图书馆分类法进行分类,从而有效地提高基于不同用户兴趣的分类准确率。实验结果表明,与传统的朴素贝叶斯算法相比,该方法具有更好的性能。  相似文献   

13.
滚动轴承的故障诊断对于提高工业生产效率,保障工业生产的稳定安全地运行具有重要意义。为了提高滚动轴承故障识别的正确率,提出一种使用KNN-朴素贝叶斯决策组合算法对滚动轴承故障诊断。组合算法利用朴素贝叶斯算法对使用不同K值的KNN算法初步分类结果进行再分类以达到提高滚动轴承故障识别的目的。首先,使用小波包能量法对滚动轴承振动信号进行能量特征提取,然后使用多个参数K值不同的KNN算法对能量特征数据预分类,得到多个KNN算法分类结果集,将分类结果集进行处理得到预分类结果集,将预分类结果集作为朴素贝叶斯算法的输入,使用朴素贝叶斯算法对数据再分类。实验结果表明,组合算法相较于传统KNN算法及贝叶斯算法在滚动轴承的故障诊断率得到了有效提高,实现了对滚动轴承故障的有效诊断。  相似文献   

14.
由于朴素贝叶斯算法的特征独立性假设以及传统TFIDF加权算法仅仅考虑了特征在整个训练集的分布情况,忽略了特征与类别和文档之间关系,造成传统方法赋予特征的权重并不能代表其准确性.针对以上问题,提出了二维信息增益加权的朴素贝叶斯分类算法,进一步考虑到了特征的二维信息增益即特征类别信息增益和特征文档信息增益对分类效果的影响,并设计实验与传统的加权朴素贝叶斯算法相比,该算法在查准率、召回率、F1值指标性能上能提升6%左右.  相似文献   

15.
This article investigates boosting naive Bayesian classification. It first shows that boosting does not improve the accuracy of the naive Bayesian classifier as much as we expected in a set of natural domains. By analyzing the reason for boosting's weakness, we propose to introduce tree structures into naive Bayesian classification to improve the performance of boosting when working with naive Bayesian classification. The experimental results show that although introducing tree structures into naive Bayesian classification increases the average error of the naive Bayesian classification for individual models, boosting naive Bayesian classifiers with tree structures can achieve significantly lower average error than both the naive Bayesian classifier and boosting the naive Bayesian classifier, providing a method of successfully applying the boosting technique to naive Bayesian classification. A bias and variance analysis confirms our expectation that the naive Bayesian classifier is a stable classifier with low variance and high bias. We show that the boosted naive Bayesian classifier has a strong bias on a linear form, exactly the same as its base learner. Introducing tree structures reduces the bias and increases the variance, and this allows boosting to gain advantage.  相似文献   

16.
研究了改进的基于SVM-EM算法融合的朴素贝叶斯文本分类算法以及在垃圾邮件过滤中的应用。针对朴素贝叶斯算法无法处理基于特征组合产生的变化结果,以及过分依赖于样本空间的分布和内在不稳定性的缺陷,造成了算法时间复杂度的增加。为了解决上述问题,提出了一种改进的基于SVM-EM算法的朴素贝叶斯算法,提出的方法充分结合了朴素贝叶斯算法简单高效、EM算法对缺失属性的填补、支持向量机三种算法的优点,首先利用非线性变换和结构风险最小化原则将流量分类转换为二次寻优问题,然后要求EM算法对朴素贝叶斯算法要求条件独立性假设进行填补,最后利用朴素贝叶斯算法过滤邮件,提高分类准确性和稳定性。仿真实验结果表明,与传统的邮件过滤算法相比,该方法能够快速得到最优分类特征子集,大大提高了垃圾邮件过滤的准确率和稳定性。  相似文献   

17.
陶建斌  舒宁  沈照庆 《遥感信息》2010,(2):18-24,29
提出了一种新的嵌入高斯混合模型(GMM,Gaussian Mixture Model)遥感影像朴素贝叶斯网络模型GMM-NBC(GMMbased Na ve Bayesian Classifier)。针对连续型朴素贝叶斯网络分类器中假设地物服从单一高斯分布的缺点,该方法将地物在特征空间的分布用高斯混合模型来模拟,用改进EM算法自动获取高斯混合模型的参数;高斯混合模型整体作为一个子节点嵌入朴素贝叶斯网络中,将其输出作为节点(特征)的中间类后验概率,在朴素贝叶斯网络的框架下进行融合获得最终的类后验概率。对多光谱和高光谱数据的分类实验结果表明,该方法较传统贝叶斯分类器分类效果要好,且有较强的鲁棒性。  相似文献   

18.
Bayes文本分类器的改进方法研究   总被引:4,自引:2,他引:4  
鲁明羽 《计算机工程》2006,32(17):63-65
在文本分类领域,Bayes分类器是一种常用且效果较好的、基于概率的分类器,具有较严密的理论基础。该文对朴素Bayes文本分类器进行了分析,提出了利用权值调整机制改善其分类性能的方法,以及在缺乏大量训练文本的情况下,利用EM算法进行非监督Bayes分类的方法,并讨论了如何运用启发式方法确定Bayes网络结构,在更贴近真实环境的情况下进行文本分类。  相似文献   

19.
We present a maximum margin parameter learning algorithm for Bayesian network classifiers using a conjugate gradient (CG) method for optimization. In contrast to previous approaches, we maintain the normalization constraints on the parameters of the Bayesian network during optimization, i.e., the probabilistic interpretation of the model is not lost. This enables us to handle missing features in discriminatively optimized Bayesian networks. In experiments, we compare the classification performance of maximum margin parameter learning to conditional likelihood and maximum likelihood learning approaches. Discriminative parameter learning significantly outperforms generative maximum likelihood estimation for naive Bayes and tree augmented naive Bayes structures on all considered data sets. Furthermore, maximizing the margin dominates the conditional likelihood approach in terms of classification performance in most cases. We provide results for a recently proposed maximum margin optimization approach based on convex relaxation. While the classification results are highly similar, our CG-based optimization is computationally up to orders of magnitude faster. Margin-optimized Bayesian network classifiers achieve classification performance comparable to support vector machines (SVMs) using fewer parameters. Moreover, we show that unanticipated missing feature values during classification can be easily processed by discriminatively optimized Bayesian network classifiers, a case where discriminative classifiers usually require mechanisms to complete unknown feature values in the data first.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号