首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
翟军昌  秦玉平  车伟伟 《计算机科学》2014,41(6):214-216,224
针对垃圾邮件过滤中的特征项选择问题,提出了一种改进的信息增益方法。首先利用特征词的先验概率定义增益比,然后利用增益比对特征词为整个分类所提供的信息量进行放大或弱化,从而对特征词的类别条件熵计算作了改进,采用极大后验假设朴素贝叶斯决策方法在英文语料库上进行实验,通过召回率、正确率、精确率和错误率对算法进行评价分析。实验结果表明,改进后的算法提高了过滤器的分类精度,降低了过滤器对合法邮件的误判给用户带来的损失。  相似文献   

2.
改进的朴素贝叶斯垃圾邮件过滤算法   总被引:1,自引:1,他引:0       下载免费PDF全文
介绍了朴素贝叶斯垃圾邮件过滤算法,对于朴素贝叶斯算法中条件概率的计算,选用了多变量贝努里事件模型的计算方法,在多变量贝努里事件模型的基础上进行了改进,并在Ling-Spam语料库上进行实验,实验结果表明改进后的算法有效地提高了过滤器的召回率和精确率,并且降低了过滤器的错误率。  相似文献   

3.
介绍贝叶斯方法的理论依据及近几年的典型贝叶斯分类方法,并给出不同方法下垃圾邮件过滤实验数据对比,总结贝叶斯方法在垃圾邮件处理中的优点和局限性,并提出下一步可能的研究方向.  相似文献   

4.
设计一种基于改进贝叶斯算法的垃圾邮件过滤系统,通过朴素贝叶斯过滤算法以及该算法在反垃圾邮件中的八个处理步骤,分别建立三个哈希表,设置阈值来判别邮件是否为垃圾邮件.  相似文献   

5.
一种基于多贝叶斯算法的垃圾邮件过滤方法   总被引:5,自引:0,他引:5  
贝叶斯算法在垃圾邮件过滤中应用广泛。针对算法提高精确率和召回率的矛盾,提出了一种新的基于多贝叶斯算法组合的垃圾邮件过滤方法,并给出了不同方法下中、英文垃圾邮件过滤实验数据对比。实验表明该方法显著提高了垃圾邮件的过滤性能。  相似文献   

6.
垃圾邮件过滤的贝叶斯方法综述   总被引:14,自引:2,他引:12  
目前,基于内容的垃圾邮件过滤问题是Internet安全技术研究的一个重点问题,将机器学习的相关方法应用于垃圾邮件的搜索和判定是进行大量垃圾邮件处理的有效方法。由于贝叶斯分类方法在垃圾邮件处理上表现出了很高的准确度,因此基于贝叶斯分类的垃圾邮件分类方法受到了广泛的关注。主要介绍了贝叶斯方法的理论依据和实现方法,总结了近几年的贝叶斯分类方法的研究情况和贝叶斯方法在垃圾邮件处理中应用的优点和局限性,并提出了下一步可能的研究方向。  相似文献   

7.
针对朴素贝叶斯算法在垃圾邮件上的“独立性假设”条件这一不足,可以利用神经模糊技术来修正朴素贝叶斯分类算法。通过摒除模糊系统和神经网络各自的缺点,结合各自的优点组成了神经模糊系统。对贝叶斯分类算法及Naive Bayes算法在垃圾邮件处理上的最新应用进行了介绍,在此基础上,展望了该算法进一步的研究工作。  相似文献   

8.
惠孛  吴跃 《计算机应用》2009,29(3):903-904
由于朴素贝叶斯分类模型的简单高效,在垃圾邮件分类时可以达到较好的效果;但朴素贝叶斯的条件独立假设割裂了属性之间的关系,影响了分类的准确性。放松朴素贝叶斯分类模型关于属性之间条件独立假设,介绍一种新的基于不完全朴素贝叶斯分类模型的垃圾邮件分类模型,N平均1 依赖邮件过滤模型。使用N个1 依赖分类模型的平均概率作为分类的预测概率。实验证明,该模型在简单、高效的同时降低了对垃圾邮件分类的错误率。  相似文献   

9.
翟军昌  赵丽双 《福建电脑》2009,25(3):161-161
本文基于黑名单、白名单、反向DNS查询和朴素贝叶斯过滤技术,建立一个多技术整合的垃圾邮件过滤系统。该系统通过对各种技术的结合可以弥补单一过滤技术的缺点,发挥每种技术的优势,从而达到有效过滤垃圾邮件的目的。  相似文献   

10.
大量垃圾邮件的出现给用户收发电子邮件带来极大困扰。贝叶斯算法由于在垃圾邮件处理上表现出很高的准确度,因此受到了广泛关注。本文介绍了贝叶斯算法的理论依据,分析了贝叶斯算法的优缺点,总结了贝叶斯的相关改进算法,最后对贝叶斯算法进行了总结和展望。  相似文献   

11.
邓维斌  洪智勇 《计算机应用》2010,30(8):2006-2009
如何将邮件的头信息和内容信息有效结合起来进行垃圾邮件过滤备受研究人员的关注。基于粗糙集具有很好地处理不确定信息的特点,提出了一种基于粗糙集的两阶段邮件过滤方法,首先根据邮件头信息将其分为正常邮件、垃圾邮件和可疑邮件,再根据邮件内容将可疑邮件分为正常和垃圾邮件。通过在中英文邮件集上的测试实验,证明了所提出的邮件过滤方法不仅能提高垃圾邮件过滤的准确率,而且能大幅降低误杀率。  相似文献   

12.
针对当前中文垃圾邮件过滤中存在的问题,提出了一种基于改进最小风险贝叶斯算法的多层次垃圾邮件过滤方法,并研究了其中关键应用技术。实验结果表明,所设计的多层次过滤算法不但在召回率和准确率上具有一定优势,还具有较高的过滤速率,实际应用性较强。  相似文献   

13.
图像型垃圾邮件过滤技术综述   总被引:4,自引:3,他引:1  
从基于图像特征的图像型垃圾邮件的检测难点入手,总结了目前用于识别垃圾邮件的图像特征,将其归类为文件属性、图像属性等八类特征。对已经用于图像型垃圾邮件分类的五种分类算法,包括支持向量机、决策树法、最大熵模型、DS证据理论、贝叶斯算法进行了理论分析与效果比较。最后对图像型垃圾邮件过滤技术的研究方向进行了展望。  相似文献   

14.
张建  严珂  马祥 《计算机应用》2022,42(3):770-777
垃圾信息的识别是自然语言处理方面主要的任务之一.传统方法是基于文本特征或词频的方法,其识别准确率主要依赖于特定关键词的出现与否,存在对关键词识别错误或对未出现关键词的垃圾信息文本识别能力较差的问题,提出基于神经网络的方法.首先,利用传统方法针对这一类垃圾信息文本进行识别训练和测试;然后,利用从垃圾短信、广告和垃圾邮件数...  相似文献   

15.
针对AISEC模型中自体库和基因库生成效率不高的弊端,提出基于词频和MI互信息的自体库和基因库生成算法,同时对自体库和基因库的更新策略进行改进。实验结果表明,应用改进后的算法至少可以将邮件分类时间缩短10%,同时在虚报率方面得到了明显改善。  相似文献   

16.
改进ReliefF算法在图像型垃圾邮件检测中的应用研究*   总被引:1,自引:0,他引:1  
图像型垃圾邮件的传播给社会和人民生活造成了极大的负面影响。一些垃圾图像过滤技术的应用在一定程度上遏制了它的泛滥,但是在时间消耗和精确度方面很难兼顾。在对垃圾邮件图像的特征数据深入分析后,提出一种基于特征冗余度的ReliefF特征选择算法(R-ReliefF算法)。本算法首先获取图像特征,结合数据特征进行离散化,并对这些离散化后的特征集合进行优化,最后应用在垃圾图像识别上。对比发现,优化后提取的特征子集在识别垃圾邮件图像方面既减少了时间消耗,又提高了垃圾图像识别的精确度。  相似文献   

17.
Email spam has become a major problem for Internet users and providers. One major obstacle to its eradication is that the potential solutions need to ensure a very low false‐positive rate, which tends to be difficult in practice. We address the problem of low‐FPR classification in the context of naive Bayes, which represents one of the most popular machine learning models applied in the spam filtering domain. Drawing from the recent extensions, we propose a new term weight aggregation function, which leads to markedly better results than the standard alternatives. We identify short instances as ones with disproportionally poor performance and counter this behavior with a collaborative filtering‐based feature augmentation. Finally, we propose a tree‐based classifier cascade for which decision thresholds of the leaf nodes are jointly optimized for the best overall performance. These improvements, both individually and in aggregate, lead to substantially better detection rate of precision when compared with some of the best variants of naive Bayes proposed to date. Copyright © 2009 John Wiley & Sons, Ltd.  相似文献   

18.
19.
采用TF-IDF和Bernoulli两种模型构造邮件向量,首先详细测试了CHI降维策略对线性支持向量机进行邮件分类的影响。将基于核函数的支持向量机引入到垃圾邮件过滤中,对基于线性核、多项式核和径向基核的支持向量机在邮件分类中的准确率和训练时间进行了比较,分析了训练样本不平衡对分类的影响,并从理论上对实验结果进行了分析,实验结果证明基于径向基核函数的SVM分类器对垃圾邮件有较好的过滤效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号