首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 165 毫秒
1.
面向不均衡类别朴素贝叶斯犯罪案件文本分类   总被引:1,自引:0,他引:1       下载免费PDF全文
针对案件文本的特点,提出了具有针对性的特殊文本预处理方法,并比较了两种有效的特征选择方法。针对案件类别分布不均衡的特点,提出了改进的多变量贝努里模型。实验结果表明,改进的多变量贝努里模型有效地提高了案件文本分类的准确率。  相似文献   

2.
一种基于向量空间模型的邮件自动过滤算法研究   总被引:1,自引:0,他引:1  
肖旻 《福建电脑》2006,(8):12-13
对于垃圾邮件的判别和处理的研究,正逐渐成为热点。本文根据垃圾邮件过滤特点,通过对基于概率统计的贝叶斯理论的文本分类方法分析和探讨,引入基于向量空间模型中多变量贝努里事件模型的一种邮件自动过滤算法,并给出该算法的实现过程,完成垃圾邮件的分类与判别,最后给出邮件分类与过滤的实现流图。  相似文献   

3.
基于改进朴素贝叶斯算法的入侵检测系统   总被引:2,自引:0,他引:2  
王辉  陈泓予  刘淑芬 《计算机科学》2014,41(4):111-115,119
随着互联网连通性的不断增强以及网络流量的日益增大,最近频繁发生的入侵事件再度凸显了入侵检测系统的重要性。针对朴素贝叶斯算法的缺陷,提出了一种改进后的朴素贝叶斯算法。该算法在原有的朴素贝叶斯模型基础上巧妙地引入属性加值算法,通过对分类参数的调控来实现简化分类数据复杂度的作用,并以计算出的最佳参数值来优化分类精确度。最后结合实验结果证明,在入侵检测框架中引入改进算法能够大幅度地降低入侵检测系统的误警率,从而提高系统的检测效率,减少网络攻击所带来的经济损失。  相似文献   

4.
针对朴素贝叶斯分类的属性独立性假设的不足,讨论了相关性及多变量相关的概念,给出词间相关度的定义。在TAN分类器的词间相关性分析基础上,提出一种文档特征词相关度估计公式及其在改进朴素贝叶斯分类模型中应用的算法,在Reuters-21578文本数据集上的实验表明,改进算法简单易行,能有效改进贝叶斯分类性能。  相似文献   

5.
李利杰 《软件导刊》2010,(8):158-160
对基于贝叶斯的垃圾邮件过滤器的原理及其关键技术进行了详细描述。针对朴素贝叶斯模型对分类信息过度简化和准确率低等缺点,通过引入拉普拉斯平滑对贝叶斯过滤器进行了设计与实现。实验结果表明,改进后的贝叶斯过滤器具有了更好的过滤效果。  相似文献   

6.
翟军昌  秦玉平  车伟伟 《计算机科学》2014,41(6):214-216,224
针对垃圾邮件过滤中的特征项选择问题,提出了一种改进的信息增益方法。首先利用特征词的先验概率定义增益比,然后利用增益比对特征词为整个分类所提供的信息量进行放大或弱化,从而对特征词的类别条件熵计算作了改进,采用极大后验假设朴素贝叶斯决策方法在英文语料库上进行实验,通过召回率、正确率、精确率和错误率对算法进行评价分析。实验结果表明,改进后的算法提高了过滤器的分类精度,降低了过滤器对合法邮件的误判给用户带来的损失。  相似文献   

7.
针对传统朴素贝叶斯算法对高维复杂的入侵行为检测效率低下的状况,提出一种基于粒子群的加权朴素贝叶斯入侵检测模型。模型首先用粗糙集理论对样本属性特征集进行约简,再利用改进的粒子群算法优化加权朴素贝叶斯算法的属性权值,获得属性权值的最优解,用获得的最优解构造贝叶斯分类器完成检测。其中,改进的粒子群是采用权衡因子方法更新其速度和位置公式,避免产生局部最优。两种算法的结合,既能解决传统朴素贝叶斯算法的特征项冗余问题,同时也可以优化特征项间的强独立性问题。通过实验证实了该模型的实效性,提高了检测率。  相似文献   

8.
针对朴素贝叶斯算法文本分词中过多的简化和条件独立性假设的缺陷,提出了一种改进的基于朴素贝叶斯算法的短信过滤算法。该算法通过改进概率算法将朴素贝叶斯算法更好地适用于垃圾短信的过滤器中,并且在求得的后验概率中加入了经过统计短信长度得到的不同长度所对应类别的一定概率值,从而降低正常短信被误判的概率。  相似文献   

9.
基于贝叶斯网络理论的交通事件预测模型   总被引:1,自引:0,他引:1  
在综合考虑影响交通安全因素的基础上,采用贝叶斯网络理论,提出了一种交通事件预测模型。在模型的基础上提出基于贝叶斯法则的学习算法,并通过计算变量间的条件概率来计算各类交通事件发生的可能性,从而达到预测的目的。最后对该模型进行仿真实验,并对实验结果进行了分析,验证了模型的有效性。  相似文献   

10.
传统串行贝叶斯算法在对大规模数据进行分类时,性能较低下.为此,在TFIDF(词频-逆向文件频率)特征加权基础上,提出ICF(逆类别因子)类别加权因子,对传统贝叶斯分类模型进行改进.利用MapReduce并行计算框架在处理海量数据方面的优势,设计并实现了一种对TFIDF改进的分布式朴素贝叶斯文本分类算法.实验结果表明,与传统分布式朴素贝叶斯算法和TFIDF加权的分布式朴素贝叶斯算法相比,改进后的分类算法在查准率、查全率、F-measure等方面都有了较大提高.  相似文献   

11.
增量学习利用增量数据中的有用信息通过修正分类参数来更新分类模型,而朴素贝叶斯算法具有利用先验信息以及增量信息的特性,因此朴素贝叶斯算法是增量学习算法设计的最佳选择。三支决策是一种符合人类认知模式的决策理论,具有主观的特性。将三支决策思想融入朴素贝叶斯增量学习中,提出一种基于三支决策的朴素贝叶斯增量学习算法。基于朴素贝叶斯算法构造了一个称为分类确信度的概念,结合代价函数,用以确定三支决策理论中的正域、负域和边界域。利用三个域中的有用信息构造基于三支决策的朴素贝叶斯增量学习算法。实验结果显示,在阈值[α]和[β]选择合适的情况下,基于该方法的分类准确性和召回率均有明显的提高。  相似文献   

12.
基于属性加权的朴素贝叶斯分类算法   总被引:3,自引:0,他引:3       下载免费PDF全文
朴素贝叶斯分类是一种简单而高效的方法,但是它的属性独立性假设,影响了它的分类性能。通过放松朴素贝叶斯假设可以增强其分类效果,但通常会导致计算代价大幅提高。提出了属性加权朴素贝叶斯算法,该算法通过属性加权来提高朴素贝叶斯分类器性能,加权参数直接从训练数据中学习得到。权值可以看作是计算某个类的后验概率时,某属性取值对该类别的影响程度。实验结果表明,该算法可行而且有效。  相似文献   

13.
As the importance of email increases, the amount of malicious email is also increasing, so the need for malicious email filtering is growing. Since it is more economical to combine commodity hardware consisting of a medium server or PC with a virtual environment to use as a single server resource and filter malicious email using machine learning techniques, we used a Hadoop MapReduce framework and Naïve Bayes among machine learning methods for malicious email filtering. Naïve Bayes was selected because it is one of the top machine learning methods(Support Vector Machine (SVM), Naïve Bayes, K-Nearest Neighbor(KNN), and Decision Tree) in terms of execution time and accuracy. Malicious email was filtered with MapReduce programming using the Naïve Bayes technique, which is a supervised machine learning method, in a Hadoop framework with optimized performance and also with the Python program technique with the Naïve Bayes technique applied in a bare metal server environment with the Hadoop environment not applied. According to the results of a comparison of the accuracy and predictive error rates of the two methods, the Hadoop MapReduce Naïve Bayes method improved the accuracy of spam and ham email identification 1.11 times and the prediction error rate 14.13 times compared to the non-Hadoop Python Naïve Bayes method.  相似文献   

14.
基于改进Naïve Bayes的垃圾邮件过滤模型研究   总被引:1,自引:0,他引:1  
分析了目前在垃圾邮件过滤中广泛应用的Naïve Bayes过滤模型(NBF),指出了期望交叉熵(ECE)特征词选取方法的不足。提出了改进的Naïve Bayes垃圾邮件过滤模型(A-NBF),用改进的期望交叉熵(AECE)选取垃圾邮件特征词,并在邮件分类过程中对特征词进行加权,从而提高对垃圾邮件过滤的精度。实验结果可以看出A-NBF比NBF在过滤精度方面有明显的提高。  相似文献   

15.
基于高光谱吸收特征参数的分类研究   总被引:3,自引:1,他引:2  
在Weka平台上,采用决策树C4.5、朴素贝叶斯、朴素贝叶斯树三种算法进行了带缺失属性值的高光谱分类研究。针对高光谱波段数众多、信息冗余量大的特点,首先对光谱曲线进行光谱特征参数提取,然后再选择合适的吸收峰波段作为输入向量来进行分类。实验表明,由NBTree建立的铀黑-沥青铀矿分类模型的分类误差最小,分类精度最高,其次是Na?觙veBayes和J4.8,但从训练时间来看,NBTree则高于NB和J4.8。最后,对三种分类算法的分类结果进行了分析。  相似文献   

16.

针对多元线性或非线性回归系统, 将耦合辨识思想与带遗忘因子有限数据窗辨识理论相结合, 提出一种耦合带遗忘因子有限数据窗递推最小二乘辨识算法. 该算法每次递推计算时既不涉及矩阵求逆运算, 又可以克服数据饱和现象, 因此, 该算法不仅计算效率高, 而且可以快速地跟踪时变参数, 获得精确的参数估计. 通过辨识基于多元模型的永磁同步电机参数的实例, 验证了所提出算法的有效性和实用性.

  相似文献   

17.
提出了一个基于35维特征向量的恶意程序检测方法。特征向量的每一维用于表示一种恶意行为事件,每一事件由相应的Win32 API调用及其参数表示。实现了一个自动化行为追踪系统(Argus)用于行为特征的提取。实验数据集从8223个恶意可执行程序和2821个正常可执行程序中获取,并依据程序发生事件数的不同设立事件阈值,建立不同的训练集,分别用于训练贝叶斯分类器。实验表明,当事件阈值为3时,分类器达到最佳检测效果。  相似文献   

18.
Cancer class prediction and discovery is beneficial to imperfect non-automated cancer diagnoses which affect patient cancer treatments. Serial Analysis of Gene Expression (SAGE) is a relatively new method for monitoring gene expression levels and is expected to contribute significantly to the progress in cancer treatment by enabling an automatic, precise and early diagnosis. A promising application of SAGE gene expression data is classification of cancers. In this paper, we build three event models (the multivariate Bernoulli model, the multinomial model and the normalized multinomial model) for SAGE gene expression profiles. The event models based methods are compared with the standard Naïve Bayes method. Both binary classification and multicategory classification are investigated. Experiments results on several SAGE datasets show that event models are better than standard Naïve Bayes in general. Normalized Information Gain (NIG), an extension of Information Gain (IG), is proposed for gene selection. The impact of gene correlation on the classification performance is investigated.  相似文献   

19.
In this paper, we consider the recursive state estimation problem for a class of discrete‐time nonlinear systems with event‐triggered data transmission, norm‐bounded uncertainties, and multiple missing measurements. The phenomenon of event‐triggered communication mechanism occurs only when the specified event‐triggering condition is violated, which leads to a reduction in the number of excessive signal transmissions in a network. A sequence of independent Bernoulli random variables is employed to model the multiple measurements missing in the transmission. The norm‐bounded uncertainties that could be considered as external disturbances which lie in a bounded set. The purpose of the addressed filtering problem is to obtain an optimal robust recursive filter in the minimum‐variance sense such that with the simultaneous presence of event‐triggered data transmission, norm‐bounded uncertainties, and multiple missing measurements; the filtering error is minimized at each sampling time. By solving two Riccati‐like difference equations, the filter gain is calculated recursively. Based on the stochastic analysis theory, it is proved that the estimation error is bounded under certain conditions. Finally, two numerical examples are presented to demonstrate the effectiveness of the proposed algorithm. Copyright © 2016 John Wiley & Sons, Ltd.  相似文献   

20.
Numerous models have been proposed to reduce the classification error of Na¨ ve Bayes by weakening its attribute independence assumption and some have demonstrated remarkable error performance. Considering that ensemble learning is an effective method of reducing the classification error of the classifier, this paper proposes a double-layer Bayesian classifier ensembles (DLBCE) algorithm based on frequent itemsets. DLBCE constructs a double-layer Bayesian classifier (DLBC) for each frequent itemset the new instance contained and finally ensembles all the classifiers by assigning different weight to different classifier according to the conditional mutual information. The experimental results show that the proposed algorithm outperforms other outstanding algorithms.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号