共查询到20条相似文献,搜索用时 133 毫秒
1.
2.
基于人工免疫系统的反垃圾邮件过滤机制 总被引:6,自引:0,他引:6
提出了一种基于人工免疫系统(AIS)的垃圾邮件过滤机制。将邮件文本向量空间化并结合免疫识别算法进行过滤。对机制进行了建模与算法描述,对检测器的性能和系统的学习更新进行了向量空间上r 模拟仿真并与Nave Bayes方法进行比较。研究结果说明将人工免疫系统应用于垃圾邮件处理有动态性和自适应强的优点,同时为特定领域的信息分类问题提供了一种参考机制。 相似文献
3.
从Web中快速、准确地检索出所需信息的迫切需求催生了专业搜索引擎技术。在专业搜索引擎中,网络爬虫(Crawler)负责在Web上搜集特定专业领域的信息,是专业搜索引擎的重要核心部件。该文对中文专业网页的爬取问题进行了研究,基于KL距离验证了网页内容与链接前后文在分布上的差异,在此基础上提出了以链接锚文本及其前后文为特征、Nave Bayes分类器制导的中文专业网页爬取算法,设计了自动获取带链接类标的训练数据的算法。以金融专业网页的爬取为例,分别对所提出的算法进行了离线和在线测试,结果表明,Nave Bayes分类器制导的网络爬虫可以达到近90%的专业网页收割率。 相似文献
4.
基于改进Na(i)ve Bayes的垃圾邮件过滤模型研究 总被引:2,自引:0,他引:2
分析了目前在垃圾邮件过滤中广泛应用的Na(i)ve Bayes过滤模型(NBF),指出了期望交叉熵(ECE)特征词选取方法的不足.提出了改进的Na(i)ve Bayes垃圾邮件过滤模型(A-NBF),用改进的期望交叉熵(AECE)选取垃圾邮件特征词,并在邮件分类过程中对特征词进行加权,从而提高对垃圾邮件过滤的精度.实验结果可以看出A-NBF比NBF在过滤精度方面有明显的提高. 相似文献
5.
6.
7.
朴素Bayes邮件过滤算法由于简单、易于理解,已被人们广泛接受,并应用到一些商用邮件系统当中.但面对目前垃圾邮件问题依然严重的现状,人们逐渐开始认识到采用简单的朴素Bayes邮件过滤算法已不能满足现有邮件过滤的性能要求.Bayes网络一直以来作为知识发现的一个重要分支,是人们研究的热点;邮件过滤问题也可以映射到一个Bayes决策网络模型中.通过构建针对邮件过滤的Bayes决策网络模型,并经过概率学习对关键节点作Bayes参数估计,可以实现邮件的概率分类发现.邮件样本试验结果表明新算法与朴素Bayes邮件过滤算法相比具有更快的收敛速度和更高的稳定性. 相似文献
8.
基于改进Naïve Bayes的垃圾邮件过滤模型研究 总被引:1,自引:0,他引:1
分析了目前在垃圾邮件过滤中广泛应用的Naïve Bayes过滤模型(NBF),指出了期望交叉熵(ECE)特征词选取方法的不足。提出了改进的Naïve Bayes垃圾邮件过滤模型(A-NBF),用改进的期望交叉熵(AECE)选取垃圾邮件特征词,并在邮件分类过程中对特征词进行加权,从而提高对垃圾邮件过滤的精度。实验结果可以看出A-NBF比NBF在过滤精度方面有明显的提高。 相似文献
9.
提出了一种基于基因表达式编程(GEP)的信用评估模型挖掘方法GEP-CREDIT。该方法基于客户信贷数据,利用GEP算法自动进行属性筛选,并进行属性融合,在此基础上训练和建立信用评估模型。在德国信用数据库真实数据集上做的实验和性能分析表明,基于GEP的信用评估模型挖掘方法较Nave Bayes算法的预测精度提高了3%;较SVM算法的预测精度提高了1.6%;较KNN(K=17)算法的预测精度提高了6.83%。 相似文献
10.
Nave Bayes方法在文本分类中的决策强烈依赖于主观选择的样本关于类别的分布。本文利用层次式分类的特点并引入概率条件改进Nave Bayes方法,使其在每个内部类别所属的子类局部数据中进行决策,缓解了全局数据分布对分类器的影响,部分克服了数据偏斜问题。实验表明,改进方法在层次式分类中的效果较Nave Bayes方法有显著提高。 相似文献
11.
分析了一种基于直线几何分割的朴素贝叶斯邮件过滤模型LGDNBF,用更为精确的代价因子描述了分类器误判的代价。定义了高风险决策区域,对高风险决策区域中的邮件引入SVM方法进行二次分类,提出了基于精确代价因子的两层邮件过滤模型。在中文邮件语料集上的实验结果证明了这一两层过滤模型的分类效果较之朴素贝叶斯邮件过滤模型有明显的改进。 相似文献
12.
13.
在垃圾邮件过滤中,考虑到特征词对合法邮件和垃圾邮件分类贡献的不同,通过定义分类贡献比系数,将特征词分类贡献的思想应用到特征选择和朴素贝叶斯过滤器的设计中,在英文语料库上进行实验,实验结果表明,应用特征词分类贡献的垃圾邮件过滤方法可以有效提高过滤器对合法邮件和垃圾邮件的识别能力,降低过滤器对合法邮件和垃圾邮件的误判率。 相似文献
14.
手机短信业务一方面给人们带来诸多便利,另一方面不法分子利用短信进行违法犯罪活动也日益猖狂,如何防范和打击此类犯罪活动对执法机关来说是一个新的挑战。提出了一个基于贝叶斯分类算法和改进的多模式串模糊匹配算法的不良短信甄别混合模型,以实现对不良短信的识别和分类。短信经由朴素贝叶斯分类器进行是否不良的判断,对确认为不良的短信再经过多模式串的模糊匹配进行不良类别的分类。实验表明该方法提高了不良短信识别的准确率,具有良好的应用前景和实际效益。重点分析不良短信识别和分类过程。 相似文献
15.
针对传统时间序列分类方法需要较为繁琐的特征抽取工作以及在只有少量标记数据时分类效果不佳的问题,通过分析BP神经网络和朴素贝叶斯分类器的特点,提出一种基于BP和朴素贝叶斯的时间序列分类模型。利用了BP神经网络非线性映射能力和朴素贝叶斯分类器在少量标记数据下的分类能力,将BP神经网络抽取到的特征输入到朴素贝叶斯分类器中,可以较为有效的解决传统时间序列分类算法的问题。实验结果表明,该模型在标记数据较少的情况下的时间序列分类中具有较高的分类准确度。 相似文献
16.
分析当前使用最广泛的粗糙贝叶斯算法,指出其在实际应用中的不足,并采用2-gram理论对该算法进行了改进.经过实验证明,改进后的粗糙贝叶斯算法,邮件分类效果明显改善,垃圾邮件误判率、合法邮件误判率和平均误判率都有大幅度下降. 相似文献
17.
朴素贝叶斯分类器是一种简单而高效的分类器,但是其属性独立性假设限制了对实际数据的应用。提出一种新的算法,该算法为避免数据预处理时,训练集的噪声及数据规模使属性约简的效果不太理想,并进而影响分类效果,在训练集上通过随机属性选取生成若干属性子集,并以这些子集构建相应的贝叶斯分类器,进而采用遗传算法进行优选。实验表明,与传统的朴素贝叶斯方法相比,该方法具有更好的分类精度。 相似文献
18.
分析了目前在垃圾邮件过滤中广泛应用的NaveBayes过滤模型(NBF),指出了期望交叉熵(ECE)特征词选取方法的不足。提出了改进的NaveBayes垃圾邮件过滤模型(A-NBF),用改进的期望交叉熵(AECE)选取垃圾邮件特征词,并在邮件分类过程中对特征词进行加权,从而提高对垃圾邮件过滤的精度。实验结果可以看出A-NBF比NBF在过滤精度方面有明显的提高。 相似文献
19.
20.
生物实体名识别对生物医学文献的信息抽取有重要的意义。本文针对如何识别蛋白质名进行了有益的尝试,主要采用了基于词典的方法,其中运用了近似搭配算法和首词查询的方法进行蛋白质名识别,同时结合机器学习方法训练了一个分类器来过滤候选词以提高识别的准确率。 相似文献