首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 125 毫秒
1.
针对垃圾邮件过滤过程中分类模型难以个性化、难以适应用户兴趣动态变化的问题,提出了一种基于用户行为的邮件分类算法。通过分析朴素贝叶(NB)斯分类算法的原理,改造朴素贝叶斯算法,使其具有动态调整能力。邮件服务器接收到新邮件后自动进行分类判别,用户浏览邮件的过程中对邮件进行操作,根据用户对错分邮件的处理自动将该邮件加入训练数据集,并动态更新相应特征的统计概率,使邮件分类算法能够依据用户对不同邮件的操作行为动态调整分类模型,以达到有效过滤垃圾邮件的目的。与常用的贝叶斯分类算法的实验比较表明在给定小样本集合进行训练的情况下,新算法对于垃圾邮件的识别率比传统的朴素贝叶斯方法、基于风险敏感的朴素贝叶斯方法等提高了10%,获得了较好的分类性能。  相似文献   

2.
研究了改进的基于SVM-EM算法融合的朴素贝叶斯文本分类算法以及在垃圾邮件过滤中的应用。针对朴素贝叶斯算法无法处理基于特征组合产生的变化结果,以及过分依赖于样本空间的分布和内在不稳定性的缺陷,造成了算法时间复杂度的增加。为了解决上述问题,提出了一种改进的基于SVM-EM算法的朴素贝叶斯算法,提出的方法充分结合了朴素贝叶斯算法简单高效、EM算法对缺失属性的填补、支持向量机三种算法的优点,首先利用非线性变换和结构风险最小化原则将流量分类转换为二次寻优问题,然后要求EM算法对朴素贝叶斯算法要求条件独立性假设进行填补,最后利用朴素贝叶斯算法过滤邮件,提高分类准确性和稳定性。仿真实验结果表明,与传统的邮件过滤算法相比,该方法能够快速得到最优分类特征子集,大大提高了垃圾邮件过滤的准确率和稳定性。  相似文献   

3.
论文首先介绍了向量空间模型(VSM)方法以及特征向量抽取方法,推导和研究了引入“特征之间互相独立”假设的朴素贝叶斯分类算法.在此基础上提出了一种改进的贝叶斯算法,改进的贝叶斯算法假设一部分特征之间相互独立,比朴素贝叶斯分类算法更符合实际需要。并把它应用到反垃圾邮件中。最后介绍了贝叶斯过滤算法反垃圾邮件的基本步骤。  相似文献   

4.
论文首先介绍了向量空间模型(VSM)方法以及特征向量抽取方法,推导和研究了引入“特征之间互相独立”假设的朴素贝叶斯分类算法.在此基础上提出了一种改进的贝叶斯算法,改进的贝叶斯算法假设一部分特征之间相互独立,比朴素贝叶斯分类算法更符合实际需要。并把它应用到反垃圾邮件中。最后介绍了贝叶斯过滤算法反垃圾邮件的基本步骤。  相似文献   

5.
朴素贝叶斯算法是一种常见的基于内容的垃圾邮件过滤算法,但是,传统朴素贝叶斯过滤存在判断内容的不确定性和邮件表示不完整性等问题。分析邮件信头各域在正常邮件和垃圾邮件中表现出的不同属性,提取非特征信息,结合特征信息和非特征信息改进朴素贝叶斯算法。实验结果表明,改进的朴素贝叶斯分类方法与单纯使用特征信息的方法相比,垃圾邮件的召回率和准确率更高,凸显了该方法涵盖邮件信息、克服内容判断缺陷的优势。  相似文献   

6.
在垃圾邮件分类和朴素贝叶斯算法研究的基础上,提出了基于用户知识的贝叶斯分类算法.通过在分类过程中引入用户知识,克服了电子邮件内容是非结构化、解读依赖于用户的问题.实验证明,面向用户知识的贝叶斯分类算法在商业邮件分类中比普通贝叶斯算法有更好的性能.  相似文献   

7.
北方工业大学信息工程学院北京100041摘要:本文在分析朴素贝叶斯分类算法基础上提出了一种改进的贝叶斯算法,并将邮件视为句间有序,句内关键词无序的集合,用改进的贝叶斯算法模型设计了一种文本广告邮件过滤系统,通过实验证明了其有效性。  相似文献   

8.
基于粗糙集的加权朴素贝叶斯邮件过滤方法   总被引:5,自引:3,他引:2  
邮件过滤中有两个关键问题,一是如何选择有效的邮件特征集,二是设计较好的邮件过滤算法。在对邮件特性进行分析的基础上,综合邮件头及邮件内容的主要形象特征给出了一种新的邮件特征集提取方法。用粗糙集的信息观点度量了各属性的重要性,并以此为权重进行加权朴素贝叶斯垃圾邮件过滤,有效地解决了朴素贝叶斯分类中的条件依赖性问题。通过在中英文邮件集上的测试实验,证明了所提出的邮件过滤方法的有效性。  相似文献   

9.
基于内容的垃圾邮件过滤问题是Internet安全技术研究的一个重点问题,而基于贝叶斯的分类方法在垃圾邮件处理上表现出了很高的准确度,因此受到了广泛的关注。在朴素贝叶斯算法的基础上,提出了一种基于最小风险贝叶斯方法同Boosting算法相结合的邮件过滤改进算法,提高了分类的精确度。实验证明,算法在邮件过滤中有更好的表现。  相似文献   

10.
如何高效地特征提取和分类算法设计是衡量基于内容邮件过滤技术优缺点的关键。针对互信息MI(Mutual Information)特征提取算法和朴素贝叶斯分类算法,通过引入特征项区分度的概念,分析特征项在分类中区分能力之间的差异,进而提出一种兼顾特征项区分度和互信息的特征提取算法。通过进一步将区分度添加到分类算法设计中,最终提出一种加权朴素贝叶斯算法,高效地解决基于内容邮件过滤问题。实验结果证明,改进后的算法在召回率、精确率和正确率上均有明显提高,且分类性能更加稳定。  相似文献   

11.
王青松  魏如玉 《计算机科学》2016,43(4):256-259, 269
朴素贝叶斯算法在垃圾邮件过滤领域得到了广泛应用,该算法中,特征提取是一个必不可少的环节。过去针对中文的垃圾邮件过滤方法都以词作为文本的特征项单位进行提取,面对大规模的邮件训练样本,这种算法的时间效率会成为邮件过滤技术中的一个瓶颈。对此,提出一种基于短语的贝叶斯中文垃圾邮件过滤方法,在特征项提取阶段结合文本分类领域提出的新的短语分析方法,按照基本名词短语、基本动词短语、基本语义分析规则,以短语为单位进行提取。通过分别以词和短语为单位进行垃圾邮件过滤的对比测试实验证实了所提出方法的有效性。  相似文献   

12.
贝叶斯过滤算法和费舍尔过滤算法均是利用统计学知识对于垃圾邮件进行过滤的算法,有着良好的过滤效果。该文设计将某一词组(单词)出现概率使用加权计算的方法,改善了朴素贝叶斯算法和朴素费舍尔的邮件过滤算法对于出现较少的单词误判情况,使系统对于垃圾邮件判断的准确率上升。设计可以使用个性化的垃圾邮件过滤方案,支持使用邮件下载协议(POP3、IMAP协议)从邮件服务器下载邮件,以及使用邮件解析协议(MIME协议)对于邮件进行解析,支持邮件发送协议(SMTP协议)帮助用户发送邮件。  相似文献   

13.
研究了基于SVM算法的改进朴素贝叶斯文本分类算法及在垃圾短信过滤中的应用。针对朴素贝叶斯算法条件独立性假设、过分依赖于样本空间的分布和内在不稳定性的缺陷,造成了算法时间复杂度的增加,提出了改进的基于SVM算法的朴素贝叶斯算法垃圾短信过滤的解决方案,充分结合了朴素贝叶斯算法高效分类和SVM算法增量学习及不依赖样本空间的特点;首先利用结构风险最小化原理和非线性变换将分类问题转化为二次寻优问题,最后利用朴素贝叶斯算法过滤短信,提高分类的准确度和稳定性;仿真实验结果表明,该算法能够快速得到最优分类特征子集,有效提高了垃圾短信过滤的准确率和分类速度。  相似文献   

14.
一个基于Naive Bayesian垃圾邮件过滤器的改进   总被引:2,自引:0,他引:2  
近几年来,垃圾邮件成为互联网的公害之一。现有的反垃圾邮件技术中,基于统计方法的Naive Bayesian分类算法在垃圾邮件过滤中有很好的效果。文中简单介绍了Naive Bayesian分类算法,提出了一种旨在提高垃圾邮件过滤精确率的改进方案,并给出了实验结果。  相似文献   

15.
简单贝叶斯算法在邮件过滤领域使用得比较普遍.该算法的优点是简单、对特征较为恒定的垃圾邮件较为有效,但其适应性较差.谨提出一种以贝叶斯公式为基础的自适应垃圾邮件过滤方法,它采用基于词熵的特征提取方法,在过滤过程中不断地进行自学习,具有较强的自适应能力.  相似文献   

16.
为了有效处理迅速增长的海量信息数据安全问题,在Hadoop云计算平台上,应用朴素贝叶斯算法和Logistic回归算法对入侵检测大数据进行并行计算分析。实验在伪分布模式和分布模式下进行计算,结果表明2种算法分类准确率均超过90%,Logistic回归算法比朴素贝叶斯算法运行时间更长;集群环境下运行的朴素贝叶斯算法可以有效降低运行时间。综合算法运行时间和分类准确率等因素,朴素贝叶斯算法比Logistic回归算法更能有效处理入侵检测大数据;并行计算下朴素贝叶斯算法可以有效分析入侵检测大数据。  相似文献   

17.
针对朴素贝叶斯分类器在分类过程中,不同类别的同一特征量之间存在相似性,易导致误分类的现象,提出基于引力模型的朴素贝叶斯分类算法。提出以引力公式中的距离变量的平方作为“相似距离”,应用引力模型来刻画特征与其所属类别之间的相似度,从而克服朴素贝叶斯分类算法容易受到条件独立假设的影响,将所有特征同质化的缺点,并能有效地避免噪声干扰,达到修正先验概率、提高分类精度的目的。对遥感图像的分类实验表明,基于引力模型的朴素贝叶斯分类算法易于实现,可操作性强,且具有更高的平均分类准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号