首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
研究了改进的基于SVM-EM算法融合的朴素贝叶斯文本分类算法以及在垃圾邮件过滤中的应用。针对朴素贝叶斯算法无法处理基于特征组合产生的变化结果,以及过分依赖于样本空间的分布和内在不稳定性的缺陷,造成了算法时间复杂度的增加。为了解决上述问题,提出了一种改进的基于SVM-EM算法的朴素贝叶斯算法,提出的方法充分结合了朴素贝叶斯算法简单高效、EM算法对缺失属性的填补、支持向量机三种算法的优点,首先利用非线性变换和结构风险最小化原则将流量分类转换为二次寻优问题,然后要求EM算法对朴素贝叶斯算法要求条件独立性假设进行填补,最后利用朴素贝叶斯算法过滤邮件,提高分类准确性和稳定性。仿真实验结果表明,与传统的邮件过滤算法相比,该方法能够快速得到最优分类特征子集,大大提高了垃圾邮件过滤的准确率和稳定性。  相似文献   

2.
该文介绍一种手机垃圾短信过滤的方法,通过将朴素贝叶斯分类技术与黑名单技术相结合,应用于垃圾短信的过滤中。全文详细介绍了过滤系统的结构和流程,为了进一步提高分类器的准确性,对朴素贝叶斯分类多元模型公式进行了相应改进。  相似文献   

3.
针对朴素贝叶斯算法文本分词中过多的简化和条件独立性假设的缺陷,提出了一种改进的基于朴素贝叶斯算法的短信过滤算法。该算法通过改进概率算法将朴素贝叶斯算法更好地适用于垃圾短信的过滤器中,并且在求得的后验概率中加入了经过统计短信长度得到的不同长度所对应类别的一定概率值,从而降低正常短信被误判的概率。  相似文献   

4.
基于朴素贝叶斯和支持向量机的自适应垃圾短信过滤系统   总被引:1,自引:0,他引:1  
金展  范晶  陈峰  徐从富 《计算机应用》2008,28(3):714-718
随着短信业务的不断发展,垃圾短信的特征和内容也在不断变化,传统垃圾短信过滤系统中存在的主要问题是,短信特征和内容未能得到及时更新而导致过滤性能降低。考虑朴素贝叶斯的快速统计分类及支持向量机(SVM)的增量训练等特点,将其应用于垃圾短信过滤中,并把分析结果及时反馈给在线过滤子系统,使得系统具有更好的自适应性。实验结果表明,该方法可有效地解决当前垃圾短信过滤系统中存在的问题。  相似文献   

5.
基于设计科学的视角,利用回复率规则,提出了度量短信重要性的SmsRank算法,并将该方法引入到垃圾短信的过滤算法中。通过实验,使用R语言验证了该算法在过滤垃圾短信的有效性,并且与SVM算法的分类结果做对比,结果表明其精准率明显优于SVM算法。最后,利用该算法提出了基于短信服务中心的应用模式。  相似文献   

6.
研究探讨了传统贝叶斯模型的原理和优缺点,指出朴素贝叶斯算法没有考虑到合法邮件和垃圾邮件被误判带来的不同损失.针对个人用户的个性化需求,以朴素贝叶斯算法为基础,结合最小风险,提出改进的基于垃圾单词的单一表文件垃圾邮件过滤算法,给出其具体实现方法及过程,并且通过实验证明其可行性.最后综合黑白名单、规则过滤和文本内容分类过滤三级模式构建了邮件过滤模型.  相似文献   

7.
王祖辉  姜维 《计算机工程》2009,35(13):188-189,207
针对中英文混合垃圾邮件过滤问题,提出一种基于支持向量机(SVM)的过滤方法和融合多种分类特征的框架.通过改进SVM中线性核的表示方式,解决存储空间和计算最问题.通过领域术语自动抽取技术,增强垃圾邮件过滤的语义单元识别能力,提高垃圾邮件分类性能.在跨语言大规模语料库上的实验表明,采用SVM比采用Good-Turing算法平滑的朴素贝叶斯模型泛化性能提高了6.13%,分类精度比最大熵模型提高了8.18%.  相似文献   

8.
基于支持向量机的Internet流量分类研究   总被引:12,自引:0,他引:12  
准确的网络流量分类是众多网络研究工作的基础,也一直是网络测量领域的研究热点.近年来,利用机器学习方法处理流量分类问题成为了该领域一个新兴的研究方向.在目前研究中应用较多的是朴素贝叶斯(naive Bayes,NB)及其改进算法.这些方法具有实现简单、分类高效的特点.但该方法过分依赖于样本空间的分布,具有内在的不稳定性.因此,提出一种基于支持向量机(sulbport vector machine,SVM)的流量分类方法.该方法利用非线性变换和结构风险最小化(structural risk minimization,SRM)原则将流量分类问题转化为二次寻优问题,具有良好的分类准确率和稳定性.在理论分析的基础上,通过在实际网络流集合上与朴素贝叶斯算法的对比实验,可以看出使用支持向量机方法处理流量分类问题,具有以下3个优势:1)网络流属性不必满足条件独立假设,无须进行属性过滤;2)能够在先验知识相对不足的情况下,仍保持较高的分类准确率;3)不依赖于样本空间的分布,具有较好的分类稳定性.  相似文献   

9.
在传统垃圾短信过滤系统基础上引入了中文分词算法和朴素贝叶斯算法,使其具有了自学习能力,克服了传统垃圾短信系统需要人工设置、无法适应短信内容变化、误判率高的缺点。实践证明该短信过滤系统具有较高的准确率和适应力。  相似文献   

10.
基于内容的垃圾邮件过滤问题是Internet安全技术研究的一个重点问题,而基于贝叶斯的分类方法在垃圾邮件处理上表现出了很高的准确度,因此受到了广泛的关注。在朴素贝叶斯算法的基础上,提出了一种基于最小风险贝叶斯方法同Boosting算法相结合的邮件过滤改进算法,提高了分类的精确度。实验证明,算法在邮件过滤中有更好的表现。  相似文献   

11.
传统的垃圾短信过滤方案,以垃圾短信中出现的敏感词作为判断的依据,却忽略了正常短信中出现的词对分类的贡献,并且由于短信用语的灵活性,特征提取难度较大。提出了一种基于svm算法对垃圾短信进行监控和过滤的方案,该方案根据短信内容、短信长度等特征,对短信文本进行向量空间的表示。通过机器学习的方式,对垃圾短信进行判断,过滤。相比传统方法而言,本系统在过滤准确度和效率两方面均获得大幅度提升。  相似文献   

12.
针对手机垃圾短息难以治理的现象,提出一种基于行为识别和SVM的短信过滤方法。综合行为识别和SVM的特点,从运营商短信业务支撑中心方面实施对垃圾短信的过滤,并对SVM方法进行了相关实验。实验表明,SVM方法在短信拦截过滤方面有着较好的效果。  相似文献   

13.
基于复杂网络的垃圾短信过滤算法   总被引:1,自引:0,他引:1  
对垃圾短信发送用户的识别和过滤具有十分重要的研究价值和社会意义. 随着新形式和内容的垃圾短信出现, 传统的关键字匹配和发送速度频率过滤方法无法有效地处理这一问题. 在对短信发送/接收网络形式化表达的基础上, 以真实短信发送和接收以及通话关系数据为例, 统计和分析了短信发送网络的网络特性. 进一步分析和挖掘了垃圾短信用户在网络上发送接收的异常模式和行为, 并以此提出了一个基于语音关联程度和短信回复比率的过滤算法(NASFA算法). 通过实验和分析表明, 本文的算法能够高效地识别垃圾短信发送用户, 同时能够有效地控制将正常用户误识别为垃圾短信用户的比率.  相似文献   

14.
基于内容的垃圾短信过滤   总被引:2,自引:0,他引:2       下载免费PDF全文
李辉  张琦  卢湖川 《计算机工程》2008,34(12):154-156
研究一种基于最小风险贝叶斯决策的垃圾短信过滤方法。对于以文本信息为主的短信,采用信息增益的方法进行特征选择,使用基于最小风险贝叶斯决策方法进行分类。通过自建短信语料库对该方法进行了实验。实验结果表明,该方法能够准确地对短信进行分类,降低合法短信的分类错误率,分类正确率达到99.3%,符合了短信分类要求。  相似文献   

15.
刘芬  帅建梅 《计算机工程》2010,36(16):157-160
提出以图像的梯度直方图和颜色直方图作为分类特征,分析最小二乘支持向量机(LS-SVM)算法以及该算法与传统SVM算法的区别,比较传统分类算法与LS-SVM算法的分类准确度,将LS-SVM算法用于图像垃圾邮件过滤。实验结果表明,该方法能提高图像垃圾邮件的检测率。  相似文献   

16.
针对目前中文短信过滤研究缺乏样本库的现状,提出一种客户端样本特征库生成方法。设计客户端短信过滤样本特征数据库,将客户端接收到的短信进行预处理和中文分词,考虑高信息量的低频词和带有较强类别特性的特征词,改进互信息评价函数提取样本特征,形成特征数据。采用Naive Bayes算法测试特征数目对过滤器性能的影响,实验结果表明,当特征数目为10时,测试准确率达到最大值,当样本特征库中短信数目达到2 000条时,数据库文件的大小约为714.28 KB,可在普通手机平台上运行,验证了特征库生成方法的可行性。  相似文献   

17.
夏超  徐德华 《计算机与现代化》2010,(10):125-128,132
贝叶斯过滤算法是反垃圾邮件过滤技术中应用最为广泛的方法之一。考虑到邮件的错误分类对邮件接收者带来的损失不同,引入判定垃圾邮件是判定正常邮件的λ倍作为最终邮件分类依据;同时,为了提高贝叶斯过滤算法的分类质量,运用遗传算法来对邮件中正文和标题的特征词在邮件分类中不同的重要程度做区分。最后用实际的邮件样本对改进后的算法进行验证,验证结果表明,利用遗传算法优化配合贝叶斯过滤算法能有效提高邮件分类的质量。  相似文献   

18.
基于内容的垃圾邮件过滤问题是Internet安全技术研究的一个重点问题,而基于贝叶斯的分类方法在垃圾邮件处理上表现了很高的准确度,因此受到了广泛的关注。本文将一种基于模拟退火遗传算法的贝叶斯分类方法引入到中文垃圾邮件过滤中,提高了分类的精确度。实验证明,算法在邮件过滤中有更好的表现。  相似文献   

19.
Bo Yu  Zong-ben Xu   《Knowledge》2008,21(4):355-362
The growth of email users has resulted in the dramatic increasing of the spam emails during the past few years. In this paper, four machine learning algorithms, which are Naïve Bayesian (NB), neural network (NN), support vector machine (SVM) and relevance vector machine (RVM), are proposed for spam classification. An empirical evaluation for them on the benchmark spam filtering corpora is presented. The experiments are performed based on different training set size and extracted feature size. Experimental results show that NN classifier is unsuitable for using alone as a spam rejection tool. Generally, the performances of SVM and RVM classifiers are obviously superior to NB classifier. Compared with SVM, RVM is shown to provide the similar classification result with less relevance vectors and much faster testing time. Despite the slower learning procedure, RVM is more suitable than SVM for spam classification in terms of the applications that require low complexity.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号