首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
本文分析了目前在垃圾邮件过滤中广泛应用的朴素贝叶斯过滤算法及其优缺点,并且根据模式匹配和模糊匹配算法提出改进型的贝叶斯邮件过滤模型。首先在邮件预处理过程中进行特征项的提取——模式匹配,从训练集合中识别出正常邮件和垃圾邮件的模式集合,然后用模式集合识别垃圾邮件,再对提取出的特征项进行模糊匹配并根据匹配结果判断邮件是否为垃圾邮件。实验结果表明:应用改进后的算法有效地提高了垃圾邮件过滤的准确率。  相似文献   

2.
贝叶斯算法在垃圾邮件过滤中应用广泛,但在中文垃圾邮件过滤中性能较低。本文通过聚类的思想,提出一种基于后缀数组聚类(SAC)的中文邮件特征项抽取方法,并给出了不同特征项抽取方法下贝叶斯算法的中文垃圾邮件过滤实验数据对比。实验表明,该方法显著提高了中文垃圾邮件的过滤性能。  相似文献   

3.
简单贝叶斯算法在邮件过滤领域使用得比较普遍.该算法的优点是简单、对特征较为恒定的垃圾邮件较为有效,但其适应性较差.谨提出一种以贝叶斯公式为基础的自适应垃圾邮件过滤方法,它采用基于词熵的特征提取方法,在过滤过程中不断地进行自学习,具有较强的自适应能力.  相似文献   

4.
本文针对垃圾邮件过滤问题,结合中文自身的特点,把广泛适用于英文文本和邮件分类的朴素贝叶斯过滤方法应用在垃圾邮件网关邮件过滤层;把信息增益修剪方法经过改进作为中文特征选择方法,应用在数据管理层;从而极大提高了垃圾邮件的过滤精度。  相似文献   

5.
朴素贝叶斯算法是一种常见的基于内容的垃圾邮件过滤算法,但是,传统朴素贝叶斯过滤存在判断内容的不确定性和邮件表示不完整性等问题。分析邮件信头各域在正常邮件和垃圾邮件中表现出的不同属性,提取非特征信息,结合特征信息和非特征信息改进朴素贝叶斯算法。实验结果表明,改进的朴素贝叶斯分类方法与单纯使用特征信息的方法相比,垃圾邮件的召回率和准确率更高,凸显了该方法涵盖邮件信息、克服内容判断缺陷的优势。  相似文献   

6.
研究探讨了传统贝叶斯模型的原理和优缺点,指出朴素贝叶斯算法没有考虑到合法邮件和垃圾邮件被误判带来的不同损失.针对个人用户的个性化需求,以朴素贝叶斯算法为基础,结合最小风险,提出改进的基于垃圾单词的单一表文件垃圾邮件过滤算法,给出其具体实现方法及过程,并且通过实验证明其可行性.最后综合黑白名单、规则过滤和文本内容分类过滤三级模式构建了邮件过滤模型.  相似文献   

7.
对简单贝叶斯过滤方法作一些应用方面的研究工作.首先讨论了简单贝叶斯的垃圾邮件过滤,在PU1语料上实现了简单贝叶斯算法,通过不同的特征词选取方法,得到了比前人更好的结果,给出了特征数、阈值等参数和过滤效果间的关系,并得出了较优的参数设定.然后讨论了基于简单贝叶斯的中文邮件过滤,并在自己收集整理建立的中文邮件语料库上进行中文邮件过滤的实验,得出了不同于英文邮件的较优的参数设定.  相似文献   

8.
本文针对当前中文垃圾邮件过滤中存在的问题,提出了一种基于贝叶斯算法的中文垃圾邮件过滤模型。实验结果表明。所设计的邮件过滤算法在召回率和准确率上具有良好的应用效果。  相似文献   

9.
基于粗糙集的加权朴素贝叶斯邮件过滤方法   总被引:5,自引:3,他引:2  
邮件过滤中有两个关键问题,一是如何选择有效的邮件特征集,二是设计较好的邮件过滤算法。在对邮件特性进行分析的基础上,综合邮件头及邮件内容的主要形象特征给出了一种新的邮件特征集提取方法。用粗糙集的信息观点度量了各属性的重要性,并以此为权重进行加权朴素贝叶斯垃圾邮件过滤,有效地解决了朴素贝叶斯分类中的条件依赖性问题。通过在中英文邮件集上的测试实验,证明了所提出的邮件过滤方法的有效性。  相似文献   

10.
提出一种基于内容的中文垃圾邮件实时过滤系统的实现方案,该系统建立在Linux的Sendmail邮件服务器上,通过Milter接口实时提取邮件内容,并结合中文分词及文本分类算法对邮件实施分类和过滤。该系统可嵌入多种文本分类算法,具有良好的可扩展性。通过测试对该系统内嵌入的不同分类算法模型进行了分析和比较。  相似文献   

11.
传统的垃圾短信过滤方案,以垃圾短信中出现的敏感词作为判断的依据,却忽略了正常短信中出现的词对分类的贡献,并且由于短信用语的灵活性,特征提取难度较大。提出了一种基于svm算法对垃圾短信进行监控和过滤的方案,该方案根据短信内容、短信长度等特征,对短信文本进行向量空间的表示。通过机器学习的方式,对垃圾短信进行判断,过滤。相比传统方法而言,本系统在过滤准确度和效率两方面均获得大幅度提升。  相似文献   

12.
陈伟鹤  刘云 《计算机科学》2016,43(12):50-57
中文文本的关键词提取是自然语言处理研究中的难点。国内外大部分关键词提取的研究都是基于英文文本的, 但其并不适用于中文文本的关键词提取。已有的针对中文文本的关键词提取算法大多适用于长文本,如何从一段短中文文本中准确地提取出具有实际意义且与此段中文文本的主题密切相关的词或词组是研究的重点。 提出了面向中文文本的基于词或词组长度和频数的关键词提取算法,此算法首先提取文本中出现频数较高的词或词组,再根据这些词或词组的长度以及在文本中出现的频数计算权重,从而筛选出关键词或词组。该算法可以准确地从中文文本中提取出相对重要的词或词组,从而快速、准确地提取此段中文文本的主题。实验结果表明,基于词或词组长度和频数的中文文本关键词提取算法与已有的其他算法相比,可用于处理中文文本,且具有更高的准确性。  相似文献   

13.
研究了改进的基于SVM-EM算法融合的朴素贝叶斯文本分类算法以及在垃圾邮件过滤中的应用。针对朴素贝叶斯算法无法处理基于特征组合产生的变化结果,以及过分依赖于样本空间的分布和内在不稳定性的缺陷,造成了算法时间复杂度的增加。为了解决上述问题,提出了一种改进的基于SVM-EM算法的朴素贝叶斯算法,提出的方法充分结合了朴素贝叶斯算法简单高效、EM算法对缺失属性的填补、支持向量机三种算法的优点,首先利用非线性变换和结构风险最小化原则将流量分类转换为二次寻优问题,然后要求EM算法对朴素贝叶斯算法要求条件独立性假设进行填补,最后利用朴素贝叶斯算法过滤邮件,提高分类准确性和稳定性。仿真实验结果表明,与传统的邮件过滤算法相比,该方法能够快速得到最优分类特征子集,大大提高了垃圾邮件过滤的准确率和稳定性。  相似文献   

14.
以往使用的垃圾邮件识别方法在面对如今更新速度快且种类繁多的分词时,很难精准地识别出邮件中的关键分词,识别方法的应用能力需要进一步提高。为此,提出一种基于聚类分析算法的垃圾邮件识别方法。首先,预处理邮件样本,得到邮件文本内容的关键分词,剔除停用词,根据分词在邮件文本中出现的频率计算出分词的权重;然后,结合邮件特征属性,构建邮件特征空间,将邮件特征量化;最后,提取出邮件特征并降维处理,将其作为聚类算法的输入,经过迭代计算输出结果从而完成垃圾邮件的识别。实验结果表明:设计的基于聚类分析算法的垃圾邮件识别方法在关键词提取与分词方面更加精确,并且能够准确地识别出垃圾邮件,说明设计的基于聚类分析算法的垃圾邮件识别方法的实际应用能力得到了提高。  相似文献   

15.
贝叶斯过滤算法和费舍尔过滤算法均是利用统计学知识对于垃圾邮件进行过滤的算法,有着良好的过滤效果。该文设计将某一词组(单词)出现概率使用加权计算的方法,改善了朴素贝叶斯算法和朴素费舍尔的邮件过滤算法对于出现较少的单词误判情况,使系统对于垃圾邮件判断的准确率上升。设计可以使用个性化的垃圾邮件过滤方案,支持使用邮件下载协议(POP3、IMAP协议)从邮件服务器下载邮件,以及使用邮件解析协议(MIME协议)对于邮件进行解析,支持邮件发送协议(SMTP协议)帮助用户发送邮件。  相似文献   

16.
研究了基于SVM算法的改进朴素贝叶斯文本分类算法及在垃圾短信过滤中的应用。针对朴素贝叶斯算法条件独立性假设、过分依赖于样本空间的分布和内在不稳定性的缺陷,造成了算法时间复杂度的增加,提出了改进的基于SVM算法的朴素贝叶斯算法垃圾短信过滤的解决方案,充分结合了朴素贝叶斯算法高效分类和SVM算法增量学习及不依赖样本空间的特点;首先利用结构风险最小化原理和非线性变换将分类问题转化为二次寻优问题,最后利用朴素贝叶斯算法过滤短信,提高分类的准确度和稳定性;仿真实验结果表明,该算法能够快速得到最优分类特征子集,有效提高了垃圾短信过滤的准确率和分类速度。  相似文献   

17.
介绍现在普遍采用的几种垃圾邮件过滤方法,对基于内容的过滤方法中的贝叶斯算法和Winnow算法进行详细的介绍.目前研究中文垃圾邮件的各类文献都基于不同的语料库,缺乏算法之间的效果比较分析.分别实现贝叶斯和Winnow的改进算法,并对CCERT的一个公开邮件语料库进行测试.测试结果表明,两种算法都达到较好的过滤效果.  相似文献   

18.
为了提高垃圾邮件过滤系统的对邮件过滤的准确性和返回率,论文改进了传统的贝叶斯定理。提出一种改进的垃圾邮件过滤方法,该方法使用基于单词提取特征值和使用特征向量来描述频率。模型降低了垃圾邮件的错误率,总体上提高了系统的过滤性能。与传统贝叶斯公式的假设不同,系统为垃圾邮件样本的每个特征值分配不同的权值,降低了的垃圾邮件判断误差。实验结果表明,论文提出的垃圾邮件过滤方法能够显着提高准确性和返回率,系统性能得到了较大改进。  相似文献   

19.
基于内容的贝叶斯自学习邮件过滤模型   总被引:6,自引:0,他引:6  
简单贝叶斯算法在邮件过滤领域得到广泛的应用,但它的两个缺点限制了它的使用,首先它不能进行连续的自学习,当邮件内容发生较大变化时,准确性急剧下降.其次是没有考虑字,词,短语之间的联系,以及词语的表现能力,不能准确反映邮件本身的内容性质.因此提出一种自学习的贝叶斯邮件过滤模型:它能够不断地进行自学习,使模型内部参数能够随着邮件内容的变化而改变,而且它将邮件特征(词语)之间的关系以及它们的表达能力引入,作为模型计算的基础之一,并且对用户发送的邮件进行学习.  相似文献   

20.
基于SVM的文本词句情感分析   总被引:2,自引:0,他引:2  
近年来,文本情感倾向性分析已成为自然语言处理领域的热点,在垃圾过滤、文本分类、网络舆情分析等领域有广泛的应用。将研究中文文本词句的情感分析问题,重点解决喜、怒、哀、惧四类粒度大的情感分析问题。首先构建喜、怒、哀、惧基准情感词,然后对情感词特征进行分析,进而挖掘潜在情感词,最后使用支持向量机分类的方法融合词特征、词性特征、语义特征等各种特征,对句子进行情感识别及分类。实验表明,在COAE2009评测任务情感词句识别此方法是合理和有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号