首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 133 毫秒
1.
基于字符语言模型的垃圾邮件过滤   总被引:2,自引:1,他引:1  
基于内容的过滤是当前解决垃圾邮件问题的主流技术之一。该文先简单综述了当前基于内容的垃圾邮件过滤中采用的各种技术,在此基础上提出将基于字符的语言模型应用于垃圾邮件过滤任务中,并通过实验对比了该方法与Nave Bayes、SVM和基于词的语言模型方法的性能差异,以及不同n值、不同特征选择方式对过滤结果的影响。实验结果表明,基于字符的语言模型实现简单且具有很高的性能,能较好地满足大规模在线邮件系统的需要,具有很高的实用价值。  相似文献   

2.
基于人工免疫系统的反垃圾邮件过滤机制   总被引:6,自引:0,他引:6  
胡可  张家树 《计算机应用》2005,25(11):2559-2561
提出了一种基于人工免疫系统(AIS)的垃圾邮件过滤机制。将邮件文本向量空间化并结合免疫识别算法进行过滤。对机制进行了建模与算法描述,对检测器的性能和系统的学习更新进行了向量空间上r 模拟仿真并与Nave Bayes方法进行比较。研究结果说明将人工免疫系统应用于垃圾邮件处理有动态性和自适应强的优点,同时为特定领域的信息分类问题提供了一种参考机制。  相似文献   

3.
从Web中快速、准确地检索出所需信息的迫切需求催生了专业搜索引擎技术。在专业搜索引擎中,网络爬虫(Crawler)负责在Web上搜集特定专业领域的信息,是专业搜索引擎的重要核心部件。该文对中文专业网页的爬取问题进行了研究,基于KL距离验证了网页内容与链接前后文在分布上的差异,在此基础上提出了以链接锚文本及其前后文为特征、Nave Bayes分类器制导的中文专业网页爬取算法,设计了自动获取带链接类标的训练数据的算法。以金融专业网页的爬取为例,分别对所提出的算法进行了离线和在线测试,结果表明,Nave Bayes分类器制导的网络爬虫可以达到近90%的专业网页收割率。  相似文献   

4.
基于改进Na(i)ve Bayes的垃圾邮件过滤模型研究   总被引:2,自引:0,他引:2  
分析了目前在垃圾邮件过滤中广泛应用的Na(i)ve Bayes过滤模型(NBF),指出了期望交叉熵(ECE)特征词选取方法的不足.提出了改进的Na(i)ve Bayes垃圾邮件过滤模型(A-NBF),用改进的期望交叉熵(AECE)选取垃圾邮件特征词,并在邮件分类过程中对特征词进行加权,从而提高对垃圾邮件过滤的精度.实验结果可以看出A-NBF比NBF在过滤精度方面有明显的提高.  相似文献   

5.
基于小样本学习的垃圾邮件过滤方法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对客户端垃圾邮件过滤器难以获取足够训练样本的问题,提出一种基于小样本学习的垃圾邮件过滤方法,利用容易获取的未标记样本提高垃圾邮件过滤的性能。该方法使用已标记的小样本邮件实例集训练一个初始Na?ve Bayes分类器,以此标注未标记邮件,再使用所有数据训练新的分类器,利用EM算法进行迭代直至收敛。实验结果证明,当给定5个~20个已标记小样本训练邮件时,该方法可有效提高垃圾邮件过滤性能。  相似文献   

6.
基于规则挖掘和Na(l)ve Bayes方法的组合型歧义字段切分   总被引:1,自引:0,他引:1  
组合型歧义字段切分是中文自动分词的难点之一.在对现有方法进行深入分析的基础上,提出了一种新的切分算法.该算法自动从训练语料中挖掘词语搭配规则和语法规则,基于这些规则和Nave Bayes模型综合决策进行组合型歧义字段切分.充分的实验表明,相对于文献中的研究结果,该算法对组合型歧义字段切分的准确率提高了大约8%.  相似文献   

7.
朴素Bayes邮件过滤算法由于简单、易于理解,已被人们广泛接受,并应用到一些商用邮件系统当中.但面对目前垃圾邮件问题依然严重的现状,人们逐渐开始认识到采用简单的朴素Bayes邮件过滤算法已不能满足现有邮件过滤的性能要求.Bayes网络一直以来作为知识发现的一个重要分支,是人们研究的热点;邮件过滤问题也可以映射到一个Bayes决策网络模型中.通过构建针对邮件过滤的Bayes决策网络模型,并经过概率学习对关键节点作Bayes参数估计,可以实现邮件的概率分类发现.邮件样本试验结果表明新算法与朴素Bayes邮件过滤算法相比具有更快的收敛速度和更高的稳定性.  相似文献   

8.
基于改进Naïve Bayes的垃圾邮件过滤模型研究   总被引:1,自引:0,他引:1  
分析了目前在垃圾邮件过滤中广泛应用的Naïve Bayes过滤模型(NBF),指出了期望交叉熵(ECE)特征词选取方法的不足。提出了改进的Naïve Bayes垃圾邮件过滤模型(A-NBF),用改进的期望交叉熵(AECE)选取垃圾邮件特征词,并在邮件分类过程中对特征词进行加权,从而提高对垃圾邮件过滤的精度。实验结果可以看出A-NBF比NBF在过滤精度方面有明显的提高。  相似文献   

9.
提出了一种基于基因表达式编程(GEP)的信用评估模型挖掘方法GEP-CREDIT。该方法基于客户信贷数据,利用GEP算法自动进行属性筛选,并进行属性融合,在此基础上训练和建立信用评估模型。在德国信用数据库真实数据集上做的实验和性能分析表明,基于GEP的信用评估模型挖掘方法较Nave Bayes算法的预测精度提高了3%;较SVM算法的预测精度提高了1.6%;较KNN(K=17)算法的预测精度提高了6.83%。  相似文献   

10.
Nave Bayes方法在文本分类中的决策强烈依赖于主观选择的样本关于类别的分布。本文利用层次式分类的特点并引入概率条件改进Nave Bayes方法,使其在每个内部类别所属的子类局部数据中进行决策,缓解了全局数据分布对分类器的影响,部分克服了数据偏斜问题。实验表明,改进方法在层次式分类中的效果较Nave Bayes方法有显著提高。  相似文献   

11.
分析了一种基于直线几何分割的朴素贝叶斯邮件过滤模型LGDNBF,用更为精确的代价因子描述了分类器误判的代价。定义了高风险决策区域,对高风险决策区域中的邮件引入SVM方法进行二次分类,提出了基于精确代价因子的两层邮件过滤模型。在中文邮件语料集上的实验结果证明了这一两层过滤模型的分类效果较之朴素贝叶斯邮件过滤模型有明显的改进。  相似文献   

12.
针对朴素贝叶斯算法在垃圾邮件上的“独立性假设”条件这一不足,可以利用神经模糊技术来修正朴素贝叶斯分类算法。通过摒除模糊系统和神经网络各自的缺点,结合各自的优点组成了神经模糊系统。对贝叶斯分类算法及Naive Bayes算法在垃圾邮件处理上的最新应用进行了介绍,在此基础上,展望了该算法进一步的研究工作。  相似文献   

13.
在垃圾邮件过滤中,考虑到特征词对合法邮件和垃圾邮件分类贡献的不同,通过定义分类贡献比系数,将特征词分类贡献的思想应用到特征选择和朴素贝叶斯过滤器的设计中,在英文语料库上进行实验,实验结果表明,应用特征词分类贡献的垃圾邮件过滤方法可以有效提高过滤器对合法邮件和垃圾邮件的识别能力,降低过滤器对合法邮件和垃圾邮件的误判率。  相似文献   

14.
手机短信业务一方面给人们带来诸多便利,另一方面不法分子利用短信进行违法犯罪活动也日益猖狂,如何防范和打击此类犯罪活动对执法机关来说是一个新的挑战。提出了一个基于贝叶斯分类算法和改进的多模式串模糊匹配算法的不良短信甄别混合模型,以实现对不良短信的识别和分类。短信经由朴素贝叶斯分类器进行是否不良的判断,对确认为不良的短信再经过多模式串的模糊匹配进行不良类别的分类。实验表明该方法提高了不良短信识别的准确率,具有良好的应用前景和实际效益。重点分析不良短信识别和分类过程。  相似文献   

15.
针对传统时间序列分类方法需要较为繁琐的特征抽取工作以及在只有少量标记数据时分类效果不佳的问题,通过分析BP神经网络和朴素贝叶斯分类器的特点,提出一种基于BP和朴素贝叶斯的时间序列分类模型。利用了BP神经网络非线性映射能力和朴素贝叶斯分类器在少量标记数据下的分类能力,将BP神经网络抽取到的特征输入到朴素贝叶斯分类器中,可以较为有效的解决传统时间序列分类算法的问题。实验结果表明,该模型在标记数据较少的情况下的时间序列分类中具有较高的分类准确度。  相似文献   

16.
分析当前使用最广泛的粗糙贝叶斯算法,指出其在实际应用中的不足,并采用2-gram理论对该算法进行了改进.经过实验证明,改进后的粗糙贝叶斯算法,邮件分类效果明显改善,垃圾邮件误判率、合法邮件误判率和平均误判率都有大幅度下降.  相似文献   

17.
朴素贝叶斯分类器是一种简单而高效的分类器,但是其属性独立性假设限制了对实际数据的应用。提出一种新的算法,该算法为避免数据预处理时,训练集的噪声及数据规模使属性约简的效果不太理想,并进而影响分类效果,在训练集上通过随机属性选取生成若干属性子集,并以这些子集构建相应的贝叶斯分类器,进而采用遗传算法进行优选。实验表明,与传统的朴素贝叶斯方法相比,该方法具有更好的分类精度。  相似文献   

18.
分析了目前在垃圾邮件过滤中广泛应用的NaveBayes过滤模型(NBF),指出了期望交叉熵(ECE)特征词选取方法的不足。提出了改进的NaveBayes垃圾邮件过滤模型(A-NBF),用改进的期望交叉熵(AECE)选取垃圾邮件特征词,并在邮件分类过程中对特征词进行加权,从而提高对垃圾邮件过滤的精度。实验结果可以看出A-NBF比NBF在过滤精度方面有明显的提高。  相似文献   

19.
基于树桩网络的贝叶斯文本分类算法   总被引:2,自引:0,他引:2       下载免费PDF全文
杨延娇  王治和 《计算机工程》2009,35(16):201-202
分析贝叶斯文本分类算法的不足,提出相应的改进算法。放宽朴素贝叶斯文本分类模型中的属性独立性假设,采用一种改进的基于贝叶斯定理的文本分类模型“树桩网络”,改进朴素贝叶斯文本分类模型。实验证明,改进后的文本分类模型适合于文本分类的需要,改善了原有分类器的性能。  相似文献   

20.
生物实体名识别对生物医学文献的信息抽取有重要的意义。本文针对如何识别蛋白质名进行了有益的尝试,主要采用了基于词典的方法,其中运用了近似搭配算法和首词查询的方法进行蛋白质名识别,同时结合机器学习方法训练了一个分类器来过滤候选词以提高识别的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号