首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
传统分布式大型邮件系统对海量邮件的过滤存在编程难、效率低、前期训练耗用资源大等缺点,为此,对传统贝叶斯过滤算法进行并行化改进,利用云计算MapReduce模型在海量数据处理方面的优势,设计一种基于Hadoop开源云架构的贝叶斯邮件过滤MapReduce模型,优化邮件的训练和过滤过程。实验结果表明,与传统分布式计算模型相比,该模型在召回率、查准率和精确率方面性能较好,同时可降低邮件过滤成本,提高系统执行效率。  相似文献   

2.
为了从大量的电子邮件中检测垃圾邮件,提出了一个基于Hadoop平台的电子邮件分类方法。不同于传统的基于内容的垃圾邮件检测,通过在Map Reduce框架上统计分析邮件收发记录,提取邮件账号的行为特征。然后使用Map Reduce框架并行的实现随机森林分类器,并基于带有行为特征的样本训练分类器和分类邮件。实验结果表明,基于Hadoop平台的电子邮件分类方法大大提高了大规模电子邮件的分类效率。  相似文献   

3.
为了从大量的电子邮件中检测垃圾邮件,提出了一个基于Hadoop平台的电子邮件分类方法。不同于传统的基于内容的垃圾邮件检测,通过在Map Reduce框架上统计分析邮件收发记录,提取邮件账号的行为特征。然后使用Map Reduce框架并行的实现随机森林分类器,并基于带有行为特征的样本训练分类器和分类邮件。实验结果表明,基于Hadoop平台的电子邮件分类方法大大提高了大规模电子邮件的分类效率。  相似文献   

4.
介绍现在普遍采用的几种垃圾邮件过滤方法,对基于内容的过滤方法中的贝叶斯算法和Winnow算法进行详细的介绍.目前研究中文垃圾邮件的各类文献都基于不同的语料库,缺乏算法之间的效果比较分析.分别实现贝叶斯和Winnow的改进算法,并对CCERT的一个公开邮件语料库进行测试.测试结果表明,两种算法都达到较好的过滤效果.  相似文献   

5.
大量垃圾邮件的出现给用户收发电子邮件带来极大困扰。贝叶斯算法由于在垃圾邮件处理上表现出很高的准确度,因此受到了广泛关注。本文介绍了贝叶斯算法的理论依据,分析了贝叶斯算法的优缺点,总结了贝叶斯的相关改进算法,最后对贝叶斯算法进行了总结和展望。  相似文献   

6.
基于贝叶斯理论的垃圾邮件过滤技术   总被引:12,自引:0,他引:12  
垃圾邮件已成为损耗生产力的问题,反垃圾邮件技术不断出现,基于贝叶斯理论的垃圾邮件过滤技术有其独特的优势,研究针对中文的贝叶斯垃圾邮件过滤技术具有理论和现实的意义。  相似文献   

7.
基于Hadoop平台协同过滤推荐算法   总被引:1,自引:1,他引:0  
针对协同过滤推荐算法在数据稀疏性及在大数据规模下系统可扩展性的两个问题, 在分析研究Hadoop分布式平台与协同过滤推荐算法后, 提出了一种基于Hadoop平台实现协同过滤推荐算法的优化方案. 实验证明, 在Hadoop平台上通过MapReduce结合Hbase数据库实现算法, 能够有效地提高协同过滤推荐算法在大数据规模下的执行效率, 从而能够进一步地搭建低成本高性能、动态扩展的分布式推荐引擎.  相似文献   

8.
基于MapReduce的贝叶斯垃圾邮件过滤机制   总被引:1,自引:0,他引:1  
陶永才  薛正元  石磊 《计算机应用》2011,31(9):2412-2416
贝叶斯邮件过滤器具有较强的分类能力和较高的准确性,但前期的邮件集训练与学习耗用大量系统资源和网络资源,影响系统效率。提出一种基于MapReduce技术的贝叶斯垃圾邮件过滤机制,一方面对传统贝叶斯过滤技术进行改进,另一方面利用MapReduce模型的海量数据处理优势优化邮件集训练与学习。实验表明,较之目前流行的传统贝叶斯算法、K最近邻(KNN)算法和支持向量机(SVM)算法,基于MapReduce的贝叶斯垃圾邮件过滤机制在召回率、查准率和精确率方面保持了较好的表现,同时降低了邮件学习和分类成本,提高了系统执行效率。  相似文献   

9.
电子邮件服务现已成为现代生活通信中不可缺少的一部分,也是Intemet服务的一个主要的组成部分。但是垃圾邮件的蔓延给用户带来了严重的损失.如何防范垃圾邮件具有重要的实用意义。本文简单的介绍了几种常用的邮件过滤技术并分析比较了各种技术的优缺点。  相似文献   

10.
电子邮件服务现已成为现代生活通信中不可缺少的一部分,也是Internet服务的一个主要的组成部分。但是垃圾邮件的蔓延给用户带来了严重的损失,如何防范垃圾邮件具有重要的实用意义。本文简单的介绍了几种常用的邮件过滤技术并分析比较了各种技术的优缺点。  相似文献   

11.
垃圾邮件过滤是一种主动安全防御技术。首先概述了垃圾邮件过滤的发展历史及其基本概念;然后根据不同的标准对垃圾邮件过滤技术进行了分类,并评述了各种垃圾邮件过滤方法和技术;最后展望了垃圾邮件过滤技术及其产品的发展方向。  相似文献   

12.
从图片垃圾邮件的现状着手,通过对图片垃圾邮件的分析,将图片垃圾邮件与文本垃圾邮件之间的不同点进行了对比,并对图片垃圾邮件的特征进行了总结.与此同时,对图片垃圾邮件过滤中常用的一些过滤方法,例如OCR(最优字符识别)以及指纹技术进行了介绍,分析了其优缺点,并结合它们自身的缺点提出了一些建设性看法.最后对最新的反垃圾邮件研究成果作了简略描述,并对垃圾邮件的发展作出了展望.  相似文献   

13.
垃圾邮件过滤系统的探究与实现   总被引:2,自引:0,他引:2  
电子邮件已成为现代通信中不可缺少的一部分,但垃圾邮件的日益泛滥给计算机系统安全和人们的工作与生活带来了极大的威胁,反垃圾邮件已成为一个非常重要的任务.在传统的黑白名单过滤技术的基础上,引入了IP信誉评分机制,并结合基于规则的过滤技术和基于内容的贝叶斯过滤技术,从而建立了一个多层次的垃圾邮件过滤系统模型.同时在系统中应用了反馈学习技术,以弥补因误判而造成的损失和提高系统的准确率.经实践验证,本系统适用于用户终端使用,有较高的可行性.  相似文献   

14.
提出了一种新型的双层垃圾邮件过滤方法.该方法基于免疫学习,免疫记忆和免疫识别等机制,具有一定的自适应能力和多样性,充分利用了垃圾邮件与非垃圾邮件的特征,从而降低了非垃圾邮件被错判的风险.实验结果表明,双层过滤方法可有效的降低垃圾邮件的虚报率(非垃圾邮件被错判为垃圾邮件的比例).  相似文献   

15.
基于CAPTCHA和Winnow算法的垃圾短信过滤研究   总被引:1,自引:1,他引:0  
为识别并过滤掉日益增多的垃圾短信,提出了基于全自动人机识别系统(CAPTCHA)和Winnow算法的过滤方法。在CAPTCHA方法中,根据用户能否正确辨认图片,人类和计算机能被辨别,该方法能有效地过滤计算机发送的组垃圾短信。改进的Winnow过滤器可以直接处理原始文本,节省了中文分词时间,而且利用了复合分类思想,提高了分类精度。实验结果表明,CAPTCHA和改进的Winnow算法相结合能较准确地过滤掉垃圾短信。  相似文献   

16.
在分析了大量包含图像的垃圾邮件后,提出基于形象特征分析的垃圾邮件过滤系统.它提取出有用的形象特征并使用一类支持向量机来过滤垃圾邮件.实验结果表明,该系统模型具有令人满意的过滤效果,并且有很高的探测率和较低的误判率.  相似文献   

17.
协同过滤是互联网推荐系统的核心技术,针对协同过滤推荐算法中推荐精度和推荐效率以及数据可扩展性问题,采用灰色关联相似度,设计和实现了一种基于Hadoop的多特征协同过滤推荐算法,使用贝叶斯概率对用户特征属性进行分析,根据分析结果形成用户最近邻居集合,通过Hadoop中的MapReduce模型构建预测评分矩阵,最后基于邻居集和用户灰色关联度形成推荐列表.实验结果表明,该算法提高了推荐的有效性和准确度,且能有效支持较大数据集.  相似文献   

18.
图像型垃圾邮件过滤技术综述   总被引:4,自引:3,他引:1  
从基于图像特征的图像型垃圾邮件的检测难点入手,总结了目前用于识别垃圾邮件的图像特征,将其归类为文件属性、图像属性等八类特征。对已经用于图像型垃圾邮件分类的五种分类算法,包括支持向量机、决策树法、最大熵模型、DS证据理论、贝叶斯算法进行了理论分析与效果比较。最后对图像型垃圾邮件过滤技术的研究方向进行了展望。  相似文献   

19.
吴峻  李洋 《计算机应用研究》2008,25(5):1537-1539
在深入分析了传统垃圾邮件过滤技术不足的基础上,提出并实现了一种新型的基于URL过滤的垃圾邮件过滤技术(URLbased spamfiltering,UBSF)。该方法通过对比从到来邮件中提取的URL与URL库中存储的URL信息的相似性来判定垃圾邮件。通过语料库以及构建实际系统原型的测试,表明该方法具有准确性高、误报率低以及实时处理速度快的优点。  相似文献   

20.
Email spam filtering is typically treated as a binary classification problem that can be solved by machine learning algorithms. We argue that a three-way decision approach provides a more meaningful way to users for precautionary handling their incoming emails. Three email folders instead of two are produced in a three-way spam filtering system, a suspected folder is added to allow users make further examinations of suspicious emails, thereby reducing the chances of misclassification. Different from existing ternary email spam filtering systems, we focus on two issues that are less studied, that is, the computation of required thresholds to define the three email categories, and the interpretation of the cost-sensitive characteristics of spam filtering. Instead of supplying the thresholds based on intuitive understandings of the levels of tolerance for errors, we systematically calculate the thresholds based on decision-theoretic rough set model. A loss function is interpreted as the costs of making classification decisions. A decision is made for which the overall cost is minimum. Experimental results show that the new approach reduces the error rate of misclassifying a legitimate email to spam and demonstrates a better performance for the cost-sensitivity aspect.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号