首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 312 毫秒
1.
在垃圾邮件过滤中,针对过滤器对合法邮件的误判问题,提出一种改进的垃圾邮件过滤算法。该算法对信息增益的条件熵估计方法作了改进,结合最小风险贝叶斯决策方法,在英文语料库上进行实验,并采用召回率和正确率对算法进行评价分析。实验结果表明,改进后的方法可提高过滤器对合法邮件的识别能力,降低对合法邮件的误判,减少用户的损失。  相似文献   

2.
研究探讨了传统贝叶斯模型的原理和优缺点,指出朴素贝叶斯算法没有考虑到合法邮件和垃圾邮件被误判带来的不同损失.针对个人用户的个性化需求,以朴素贝叶斯算法为基础,结合最小风险,提出改进的基于垃圾单词的单一表文件垃圾邮件过滤算法,给出其具体实现方法及过程,并且通过实验证明其可行性.最后综合黑白名单、规则过滤和文本内容分类过滤三级模式构建了邮件过滤模型.  相似文献   

3.
探讨了基于概率阈值的贝叶斯邮件过滤模型的局限性:由于很少考虑所设定阈值的适用性和实用性,损失了一定的召回率。改进贝叶斯决策,提出了基于随机变量的较小错误分类决策方法;针对邮件处理的特殊性,进一步提出了基于随机变量的较小风险分类决策方法。实验结果表明,处理普通文本分类问题时,前者的分类决策效果更好;而后者在处理邮件问题时性能更优,能够在保持较小误判风险的同时,提高贝叶斯邮件过滤器的召回率以及F值。  相似文献   

4.
朴素贝叶斯算法是一种常见的基于内容的垃圾邮件过滤算法,但是,传统朴素贝叶斯过滤存在判断内容的不确定性和邮件表示不完整性等问题。分析邮件信头各域在正常邮件和垃圾邮件中表现出的不同属性,提取非特征信息,结合特征信息和非特征信息改进朴素贝叶斯算法。实验结果表明,改进的朴素贝叶斯分类方法与单纯使用特征信息的方法相比,垃圾邮件的召回率和准确率更高,凸显了该方法涵盖邮件信息、克服内容判断缺陷的优势。  相似文献   

5.
传统的贝叶斯垃圾邮件过滤系统虽然具有较高的分类准确性,但是在处理邮件时存在效率低、消耗资源量大的问题。本文针对贝叶斯垃圾邮件过滤算法进行了在Hadoop Map Reduce下的研究,并对判定类别的阈值进行了优化,实验表明,本文提出的算法降低了正常邮件的误判率,提高了垃圾邮件判定的准确率和F值,同时提高了垃圾邮件过滤的效率。  相似文献   

6.
论文首先介绍了向量空间模型(VSM)方法以及特征向量抽取方法,推导和研究了引入“特征之间互相独立”假设的朴素贝叶斯分类算法.在此基础上提出了一种改进的贝叶斯算法,改进的贝叶斯算法假设一部分特征之间相互独立,比朴素贝叶斯分类算法更符合实际需要。并把它应用到反垃圾邮件中。最后介绍了贝叶斯过滤算法反垃圾邮件的基本步骤。  相似文献   

7.
基于MapReduce的贝叶斯垃圾邮件过滤机制   总被引:1,自引:0,他引:1  
陶永才  薛正元  石磊 《计算机应用》2011,31(9):2412-2416
贝叶斯邮件过滤器具有较强的分类能力和较高的准确性,但前期的邮件集训练与学习耗用大量系统资源和网络资源,影响系统效率。提出一种基于MapReduce技术的贝叶斯垃圾邮件过滤机制,一方面对传统贝叶斯过滤技术进行改进,另一方面利用MapReduce模型的海量数据处理优势优化邮件集训练与学习。实验表明,较之目前流行的传统贝叶斯算法、K最近邻(KNN)算法和支持向量机(SVM)算法,基于MapReduce的贝叶斯垃圾邮件过滤机制在召回率、查准率和精确率方面保持了较好的表现,同时降低了邮件学习和分类成本,提高了系统执行效率。  相似文献   

8.
贝叶斯过滤算法和费舍尔过滤算法均是利用统计学知识对于垃圾邮件进行过滤的算法,有着良好的过滤效果。该文设计将某一词组(单词)出现概率使用加权计算的方法,改善了朴素贝叶斯算法和朴素费舍尔的邮件过滤算法对于出现较少的单词误判情况,使系统对于垃圾邮件判断的准确率上升。设计可以使用个性化的垃圾邮件过滤方案,支持使用邮件下载协议(POP3、IMAP协议)从邮件服务器下载邮件,以及使用邮件解析协议(MIME协议)对于邮件进行解析,支持邮件发送协议(SMTP协议)帮助用户发送邮件。  相似文献   

9.
设计一种基于改进贝叶斯算法的垃圾邮件过滤系统,通过朴素贝叶斯过滤算法以及该算法在反垃圾邮件中的八个处理步骤,分别建立三个哈希表,设置阈值来判别邮件是否为垃圾邮件.  相似文献   

10.
翟军昌  秦玉平  车伟伟 《计算机科学》2014,41(6):214-216,224
针对垃圾邮件过滤中的特征项选择问题,提出了一种改进的信息增益方法。首先利用特征词的先验概率定义增益比,然后利用增益比对特征词为整个分类所提供的信息量进行放大或弱化,从而对特征词的类别条件熵计算作了改进,采用极大后验假设朴素贝叶斯决策方法在英文语料库上进行实验,通过召回率、正确率、精确率和错误率对算法进行评价分析。实验结果表明,改进后的算法提高了过滤器的分类精度,降低了过滤器对合法邮件的误判给用户带来的损失。  相似文献   

11.
以多粒度粗糙集理论为背景,结合可变多粒度思想与错误分类率思想,提出可变多粒度概率粗糙集(VMGPRS)模型.结合粗糙集理论中的属性约简思想,提出粒度约简算法,发现并解决可变多粒度模型中由于参数设定而引发的约简后粒度冗余问题.将约简前后的数据应用于SVM、KNN、NB等经典分类算法,验证约简对数据的分类能力几乎无影响.将规则与算法结合,设计基于规则的分类算法,并且实验分析VMGPRS模型中的2个调节参数α、 β对分类器分类效果的影响.  相似文献   

12.
树增强朴素贝叶斯模型通过放松条件属性独立来改进贝叶斯模型,结构学习效率较高且简单。然而在一些实际试验测试中,树增强朴素贝叶斯分类模型的分类精确性和失误率的效果却不好。因此在本文中,设计了平均的树增强朴素贝叶斯分类算法来改进分类的效果,并且利用条件对数似然来测试分类估计的效果,最后利用Weka平台公布的大量的UCI数据集进行试验,结果表明平均树增强朴素贝叶斯分类模型明显优于树增强的朴素贝叶斯分类模型。  相似文献   

13.
主题爬虫是实现主题搜索引擎的关键部分。提出了利用朴素贝叶斯算法进行主题识别的方法,介绍了主题爬虫实现过程中所涉及到的关键部分,包括种子URL集合的生成、页面分析及特征提取、主题识别等。将基于朴素贝叶斯算法的主题爬虫,与基于链接分析的主题爬虫和基于主题词表的主题爬虫进行比较,实验表明基于朴素贝叶斯算法的主题爬虫准确性较好,论证了方法的可行性,为主题信息的采集奠定了良好的基础。  相似文献   

14.
针对传统朴素贝叶斯算法对高维复杂的入侵行为检测效率低下的状况,提出一种基于粒子群的加权朴素贝叶斯入侵检测模型。模型首先用粗糙集理论对样本属性特征集进行约简,再利用改进的粒子群算法优化加权朴素贝叶斯算法的属性权值,获得属性权值的最优解,用获得的最优解构造贝叶斯分类器完成检测。其中,改进的粒子群是采用权衡因子方法更新其速度和位置公式,避免产生局部最优。两种算法的结合,既能解决传统朴素贝叶斯算法的特征项冗余问题,同时也可以优化特征项间的强独立性问题。通过实验证实了该模型的实效性,提高了检测率。  相似文献   

15.
局部加权朴素贝叶斯(LWNB)是朴素贝叶斯(NB)的一种较好的改进,判别频率估计(DFE)可以极大地提高NB的泛化正确率。受LWNB和DFE启发,提出逐渐缩小空间(GCS)算法用来学习NB参数:对于一个测试实例,寻找包含全体训练实例的全局空间的一系列逐渐缩小的子空间。这些子空间具有两种性质:1)它们都包含测试实例;2)一个空间一定包含在任何一个比它大的空间中。在逐渐缩小的空间上使用修改的DFE(MDFE)算法渐进地学习NB的参数,然后使用NB分类测试实例。与LWNB的根本不同是:GCS使用全体训练实例学习NB并且GCS可以实现为非懒惰版本。实现了GCS的决策树版本(GCS-T),实验结果显示,与C4.5以及贝叶斯分类算法(如Naive Bayes、BaysianNet、NBTree、LWNB、隐朴素贝叶斯)相比,GCS-T具有较高的泛化正确率,并且GCS-T的分类速度明显快于LWNB。  相似文献   

16.
MapReduce框架下的朴素贝叶斯算法并行化研究   总被引:1,自引:1,他引:0  
研究朴素贝叶斯算法MapReduce的并行实现方法, 针对传统单点串行算法在面对大规模数据或者参与分类的属性较多时效率低甚至无力承载大规模运算, 以及难以满足人们处理海量数据的需求等问题, 本文在朴素贝叶斯基本理论和MapReduce框架的基础上, 提出了一种基于MapReduce的高效、廉价的并行化方法. 通过实验表明这种方法在面对大规模数据时能有效提高算法的效率, 满足人们处理海量数据的需求.  相似文献   

17.
针对传统时间序列分类方法需要较为繁琐的特征抽取工作以及在只有少量标记数据时分类效果不佳的问题,通过分析BP神经网络和朴素贝叶斯分类器的特点,提出一种基于BP和朴素贝叶斯的时间序列分类模型。利用了BP神经网络非线性映射能力和朴素贝叶斯分类器在少量标记数据下的分类能力,将BP神经网络抽取到的特征输入到朴素贝叶斯分类器中,可以较为有效的解决传统时间序列分类算法的问题。实验结果表明,该模型在标记数据较少的情况下的时间序列分类中具有较高的分类准确度。  相似文献   

18.
分类算法一直以来都是数据挖掘领域的研究重点,朴素贝叶斯分类算法是众多优秀分类算法之一,但由于其条件属性必需独立,使得该算法也存在着一定的局限性。为了从另外一种角度来改进该算法,提高分类性能,提出了一种基于K-近邻法的局部加权朴素贝叶斯分类算法。使用K-近邻法对属性加权,找到最合适的加权值,运用加权后的朴素贝叶斯分类算法去分类,实验表明该算法提高了分类的可靠性与准确率。  相似文献   

19.
基于结构特征的nBayes双层过滤模型   总被引:7,自引:0,他引:7  
王斌  许洪波  王申 《计算机应用》2006,26(1):191-0194
由于算法的简单和效果的出色,Nave Bayes被广泛地应用到了垃圾邮件过滤当中。通过理论与实验分析发现,结构差异较大的邮件集特征分布差异也较大,这种特征分布差异影响到了Nave Bayes算法的效果。在此基础上,论文提出了一种基于结构特征的双层过滤模型,对不同结构的邮件使用不同的Nave Bayes分类器分开训练和学习。实验分析表明,Nave Bayes使用该模型之后效果有明显的提高,已经与SVM非常接近。  相似文献   

20.
为了提高Stacking集成算法的分类性能,充分利用Stacking学习机制产生的先验信息和贝叶斯网络丰富的概率表达能力,提出一种基于属性值加权朴素贝叶斯算法的Stacking集成分类算法AVWNB-Stacking(Stac-king based Attribute Value Weight Naive Bayes)...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号