首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 421 毫秒
1.
如何在传统垃圾邮件过滤技术基础上实现垃圾邮件个性化过滤是垃圾邮件过滤领域的重要课题。提出一种基于用户反馈的个性化垃圾邮件过滤方法,一方面将用户反馈应用于邮件分类特征的更新,提取用户个性化邮件分类标准;另一方面,将全局邮件分类标准和用户个性化分类标准综合应用于朴素贝叶斯分类过程,实现用户邮件个性化分类。仿真实验结果表明,在用户邮件分类标准存在差异的环境下,基于用户反馈的个性化垃圾邮件过滤方法能够有效提升传统垃圾邮件过滤技术的邮件分类效果。  相似文献   

2.
针对目前互联网垃圾邮件日益泛滥的情况,对目前常用的几种抗击垃圾邮件方法进行了介绍,同时提出一种混合型的垃圾邮件过滤系统,对其进行了详细地阐述。该方法结合贝叶斯理论和基于内容的邮件过滤思想,给出了邮件过滤系统的体系结构,并对其算法进行了分析。  相似文献   

3.
基于词条时序的朴素贝叶斯垃圾邮件过滤方法   总被引:1,自引:0,他引:1  
朴素贝叶斯分类算法是一种有效的垃圾邮件过滤技术.互联网上的信息随着时间推移产生概念的变迁,最近出现的垃圾邮件词条可作为判定垃圾邮件的重要依据.将新近的垃圾邮件词条单独记录,在进行邮件分类时,对于最近出现的垃圾词条,提高其对垃圾邮件判定的先验概率.通过实验对比,提出的垃圾邮件过滤方法较传统的朴素贝叶斯垃圾邮件过滤具有更高的准确性、精确性和召回率.  相似文献   

4.
伴随着电子邮件的广泛使用,垃圾邮件泛滥成灾,严重影响了人们正常的学习、工作和生活。本文通过对垃圾邮件的分析与处理,设计并实现了基于贝叶斯方法的客户端邮件过滤系统。实验证明贝叶斯方法能够有效的过滤垃圾邮件。  相似文献   

5.
信息增益是文本分类中一种有效的特征项选择方法,针对垃圾邮件过滤中的特征项选择问题,提出了一种改进的信息增益方法提取特征词,并采用了最小风险贝叶斯的决策方法,最后在英文语料库上进行实验,实验结果表明改进后的方法降低了过滤器对合法邮件的误判。  相似文献   

6.
为降低对合法邮件的误判,提出一种基于朴素贝叶斯和层次聚类的两阶段垃圾邮件过滤方法。该方法将邮件划分为“合法邮件”、“可疑邮件”和“垃圾邮件”3类,在第一阶段,利用朴素贝叶斯算法速度快、分类性能好的优点,对邮件进行初步分类;在第二阶段,基于垃圾邮件的发送特征,利用层次聚类算法进行相似性比较。实验表明,该方法能够显著提高垃圾邮件的查准率,降低对合法邮件的误判,更加符合实际应用需求。  相似文献   

7.
陆青梅  尹四清 《信息技术》2008,32(2):118-120
邮件过滤技术是反垃圾邮件的重要手段,目前对垃圾邮件的过滤主要有基于内容、基于IP地址和基于信头、信封等方法,这些方法对垃圾邮件的过滤起到了一定作用.但是由于信体是垃圾邮件的最终载体,而仅依据IP地址、信头、信封中的特征容易造成错误判断.在贝叶斯分类器的工作原理的基础上,提出了基于贝叶斯分类器的反垃圾邮件模型的原理与实现方法,将反映垃圾邮件的特征综合在一起统称为"属性",避免了单纯基于IP、信头、信封过滤的规则性太强的缺点,降低将正常邮件判断为垃圾邮件的风险.  相似文献   

8.
分析现有垃圾邮件过滤分类算法的不足,根据垃圾邮件的概念漂移特性,提出了一种基于CBR的垃圾邮件过滤算法.针对中文垃圾邮件特点提取特征,设计基于CRN网络的实例检索算法,该算法增加了预计算阶段,从而提高检索速度.实验结果表明,与传统贝叶斯算法相比,该算法对于动态变化的中文垃圾邮件数据集有更好的过滤效果.  相似文献   

9.
针对现有朴素贝叶斯贝努利模型在垃圾邮件过滤时存在的不能体现待分类邮件中文本特征词重要性而导致合法邮件误判为垃圾邮件等问题,引入特征词加权的思想,提出一种低损失的贝叶斯垃圾邮件过滤算法。实验结果表明:该算法能降低合法邮件被误判而带给用户的损失,提高过滤的正确性。  相似文献   

10.
为了减少将合法邮件误判为垃圾邮件的误报率及将垃圾邮件误判为合法邮件的漏报率的损失,首先基于现有的文本特征提取评估函数:期望交叉熵及互信息提出一种新的评估函数。利用此函数可提取到更具有代表性的邮件特征向量。在此之上提出一种基于贝叶斯公式可减少损失的垃圾邮件过滤方法。经过仿真测试后,发现基于新评估函数的新方法可有效降低误报率和漏报率。  相似文献   

11.
寇晓淮  程华 《电信科学》2017,33(11):73-82
垃圾邮件过滤技术在保证信息安全、提高资源利用、分拣信息数据等方面都发挥着重要作用。然而,垃圾邮件的出现影响了用户的体验,并且会造成不必要的经济与时间损失。针对现有的垃圾邮件过滤技术的不足,基于多个主题词理论,构建了基于朴素贝叶斯的垃圾邮件分类方法。在邮件主题获取中,采用主题模型LDA得到邮件的相关主题及主题词;并进一步采用Word2Vec寻找主题词的同义词和关联词,扩展主题词集合。在邮件分类中,对训练数据集进行统计学习得到词语的先验概率;基于扩展的主题词集合及其概率,通过贝叶斯公式推导得到某个主题和某封邮件的联合概率,以此作为垃圾邮件判定的依据。同时,基于主题模型的垃圾邮件过滤系统具有简洁易应用的特点。通过与其他典型垃圾邮件过滤方法的对比实验,证明基于主题模型的垃圾邮件分类方法及基于Word2Vec的改进方法均能有效提高垃圾邮件过滤的准确度。  相似文献   

12.
首先分析了垃圾邮件在我国泛滥的严重性,然后列举了现今被广泛使用的反垃圾邮件过滤技术,并重点分析了贝叶斯过滤技术在反垃圾邮件实践中的应用,最后对未来反垃圾邮件过滤技术提出了展望。  相似文献   

13.
一种基于N-gram组合的中文垃圾邮件过滤方法   总被引:3,自引:0,他引:3  
中文垃圾邮件的泛滥提出了极为迫切的技术诉求。本文使用了基于简单贝叶斯模型的过滤算法,同时使用N-gram对中文文本进行自动分词,并且组合多个N-gram来加快分类的收敛速度,这样分类是一种切实可行的垃圾邮件过滤方法。对于这种代价敏感性(cost sensitive)的分类,通过移动门限值的方法来处理:在评估结果时采用了TCR以及召回率(SR)和正确率(SP)等参数考察实验数据。实验表明:这种方法代价较小,而正确率较高。最后我们认为可以通过筛选训练邮件以及和其它措施相结合来满足ISP级别等应用场合的要求。  相似文献   

14.
This paper proposes a novel approach to comment spam identification based on content analysis. Three main features including the number of links, content repetitiveness, and text similarity are used for comment spam identification. In practice, content repetitiveness is determined by the length and frequency of the longest common substring. Furthermore, text similarity is calculated using vector space model. The precisions of preliminary experiments on comment spam identification con-ducted on Chinese and English are as high as 93% and 82% respectively. The results show the validity and language independency of this approach. Compared with conventional spam filtering approaches,our method requires no training, no rule sets and no link relationships. The proposed approach can also deal with new comments as well as existing comments.  相似文献   

15.
近年来,垃圾短消息呈现出包含大量拆分字、形近字现象,这种短消息可以绕过监控系统的关键词审查。由于拆分字、形近字数量众多、变化灵活,将其加入关键词库将使得关键词库冗余。对此,本文提出了一种基于汉字笔顺特征的关键词变体匹配方法,基于汉字笔顺特征,首先合并垃圾短消息中的拆分字,然后通过建立索引查找短消息中包含的疑似关键词,最后提出了“金字塔匹配法”匹配关键词。本文提出的方法有效降低了关键词库的冗余度,提高了关键词匹配效率。  相似文献   

16.
图像垃圾邮件的发展和防范   总被引:2,自引:0,他引:2  
垃圾邮件一直困扰着人们,图像垃圾邮件是垃圾邮件的变种,其危害远远大于传统的文本类垃圾邮件.本文首先给出了图像垃圾邮件的定义,介绍了图像垃圾邮件的类型和特点,然后分析了图像垃圾邮件的演进过程,总结了图像垃圾邮件的构造方法,最后探讨了图像垃圾邮件的防范措施.  相似文献   

17.
基于Word2vec的短信向量化算法   总被引:1,自引:0,他引:1  
针对目前垃圾短信过滤效果有待提高的问题,提出一种新的短信特征提取方法。该方法采用了建立在深度学习理论基础上的最新成果和Word2vec工具。基于中文短信的内容和结构特点,利用该工具设计了一个短信向量化算法。该算法能有效地将每条短信与一个向量对应,在深度置信网络上利用该算法对垃圾短信进行分类实验。实验结果表明,推广性能比已有报道结果提高了约5%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号