共查询到18条相似文献,搜索用时 361 毫秒
1.
白东燕 《数字社区&智能家居》2007,(4):154-155
论文首先介绍了向量空间模型(VSM)方法以及特征向量抽取方法,推导和研究了引入“特征之间互相独立”假设的朴素贝叶斯分类算法.在此基础上提出了一种改进的贝叶斯算法,改进的贝叶斯算法假设一部分特征之间相互独立,比朴素贝叶斯分类算法更符合实际需要。并把它应用到反垃圾邮件中。最后介绍了贝叶斯过滤算法反垃圾邮件的基本步骤。 相似文献
2.
在进行文本信息的分类中,通过朴素贝叶斯算法对邮件进行分类是一种简单有效的方法,朴素贝叶斯在分类时假设属性之间条件独立,降低了复杂度。该文结合应用实例,给出了朴素贝叶斯算法在反垃圾邮件中的分类原理,达到了智能动态过滤垃圾邮件的效果。 相似文献
3.
研究了改进的基于SVM-EM算法融合的朴素贝叶斯文本分类算法以及在垃圾邮件过滤中的应用。针对朴素贝叶斯算法无法处理基于特征组合产生的变化结果,以及过分依赖于样本空间的分布和内在不稳定性的缺陷,造成了算法时间复杂度的增加。为了解决上述问题,提出了一种改进的基于SVM-EM算法的朴素贝叶斯算法,提出的方法充分结合了朴素贝叶斯算法简单高效、EM算法对缺失属性的填补、支持向量机三种算法的优点,首先利用非线性变换和结构风险最小化原则将流量分类转换为二次寻优问题,然后要求EM算法对朴素贝叶斯算法要求条件独立性假设进行填补,最后利用朴素贝叶斯算法过滤邮件,提高分类准确性和稳定性。仿真实验结果表明,与传统的邮件过滤算法相比,该方法能够快速得到最优分类特征子集,大大提高了垃圾邮件过滤的准确率和稳定性。 相似文献
4.
由于朴素贝叶斯分类模型的简单高效,在垃圾邮件分类时可以达到较好的效果;但朴素贝叶斯的条件独立假设割裂了属性之间的关系,影响了分类的准确性。放松朴素贝叶斯分类模型关于属性之间条件独立假设,介绍一种新的基于不完全朴素贝叶斯分类模型的垃圾邮件分类模型,N平均1 依赖邮件过滤模型。使用N个1 依赖分类模型的平均概率作为分类的预测概率。实验证明,该模型在简单、高效的同时降低了对垃圾邮件分类的错误率。 相似文献
5.
6.
7.
设计一种基于改进贝叶斯算法的垃圾邮件过滤系统,通过朴素贝叶斯过滤算法以及该算法在反垃圾邮件中的八个处理步骤,分别建立三个哈希表,设置阈值来判别邮件是否为垃圾邮件. 相似文献
8.
贝叶斯过滤算法是反垃圾邮件过滤技术中应用最为广泛的方法之一。考虑到邮件的错误分类对邮件接收者带来的损失不同,引入判定垃圾邮件是判定正常邮件的λ倍作为最终邮件分类依据;同时,为了提高贝叶斯过滤算法的分类质量,运用遗传算法来对邮件中正文和标题的特征词在邮件分类中不同的重要程度做区分。最后用实际的邮件样本对改进后的算法进行验证,验证结果表明,利用遗传算法优化配合贝叶斯过滤算法能有效提高邮件分类的质量。 相似文献
9.
10.
本文论述了基于内容的反垃圾邮件过滤器的构造方法。介绍了邮件表示中的几个技术问题:特征定义和选择,以及特征权值的估计;探讨了以朴素贝叶斯、支持向量机和最大熵模型为代表的机器学习方法如何构造反垃圾邮件过滤器,并对它们作了简要的评价;介绍了几个常用的衡量邮件过滤器性能的指标。 相似文献
11.
一个基于Naive Bayesian垃圾邮件过滤器的改进 总被引:2,自引:0,他引:2
近几年来,垃圾邮件成为互联网的公害之一。现有的反垃圾邮件技术中,基于统计方法的Naive Bayesian分类算法在垃圾邮件过滤中有很好的效果。文中简单介绍了Naive Bayesian分类算法,提出了一种旨在提高垃圾邮件过滤精确率的改进方案,并给出了实验结果。 相似文献
12.
基于内容的垃圾邮件过滤问题是Internet安全技术研究的一个重点问题,而基于贝叶斯的分类方法在垃圾邮件处理上表现出了很高的准确度,因此受到了广泛的关注。在朴素贝叶斯算法的基础上,提出了一种基于最小风险贝叶斯方法同Boosting算法相结合的邮件过滤改进算法,提高了分类的精确度。实验证明,算法在邮件过滤中有更好的表现。 相似文献
13.
14.
贝叶斯过滤算法和费舍尔过滤算法均是利用统计学知识对于垃圾邮件进行过滤的算法,有着良好的过滤效果。该文设计将某一词组(单词)出现概率使用加权计算的方法,改善了朴素贝叶斯算法和朴素费舍尔的邮件过滤算法对于出现较少的单词误判情况,使系统对于垃圾邮件判断的准确率上升。设计可以使用个性化的垃圾邮件过滤方案,支持使用邮件下载协议(POP3、IMAP协议)从邮件服务器下载邮件,以及使用邮件解析协议(MIME协议)对于邮件进行解析,支持邮件发送协议(SMTP协议)帮助用户发送邮件。 相似文献
15.
为了能够有效提取邮件样本集的特征及提高垃圾邮件过滤系统的性能,介绍基于N—Gram的切分算法及语言模型,在其基础上,提出了一种改进的N—Gram切分算法,给出了一种结合N—Gram语言模型的贝叶斯过滤模型。实验结果表明,提出的方法有效地提高了垃圾邮件过滤的性能。 相似文献
16.
简单贝叶斯算法在邮件过滤领域使用得比较普遍.该算法的优点是简单、对特征较为恒定的垃圾邮件较为有效,但其适应性较差.谨提出一种以贝叶斯公式为基础的自适应垃圾邮件过滤方法,它采用基于词熵的特征提取方法,在过滤过程中不断地进行自学习,具有较强的自适应能力. 相似文献
17.
基于内容的贝叶斯自学习邮件过滤模型 总被引:6,自引:0,他引:6
简单贝叶斯算法在邮件过滤领域得到广泛的应用,但它的两个缺点限制了它的使用,首先它不能进行连续的自学习,当邮件内容发生较大变化时,准确性急剧下降.其次是没有考虑字,词,短语之间的联系,以及词语的表现能力,不能准确反映邮件本身的内容性质.因此提出一种自学习的贝叶斯邮件过滤模型:它能够不断地进行自学习,使模型内部参数能够随着邮件内容的变化而改变,而且它将邮件特征(词语)之间的关系以及它们的表达能力引入,作为模型计算的基础之一,并且对用户发送的邮件进行学习. 相似文献
18.
朴素贝叶斯算法在垃圾邮件过滤领域得到了广泛应用,该算法中,特征提取是一个必不可少的环节。过去针对中文的垃圾邮件过滤方法都以词作为文本的特征项单位进行提取,面对大规模的邮件训练样本,这种算法的时间效率会成为邮件过滤技术中的一个瓶颈。对此,提出一种基于短语的贝叶斯中文垃圾邮件过滤方法,在特征项提取阶段结合文本分类领域提出的新的短语分析方法,按照基本名词短语、基本动词短语、基本语义分析规则,以短语为单位进行提取。通过分别以词和短语为单位进行垃圾邮件过滤的对比测试实验证实了所提出方法的有效性。 相似文献