首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 109 毫秒
1.
针对现有朴素贝叶斯贝努利模型在垃圾邮件过滤时存在的不能体现待分类邮件中文本特征词重要性而导致合法邮件误判为垃圾邮件等问题,引入特征词加权的思想,提出一种低损失的贝叶斯垃圾邮件过滤算法。实验结果表明:该算法能降低合法邮件被误判而带给用户的损失,提高过滤的正确性。  相似文献   

2.
为了减少将合法邮件误判为垃圾邮件的误报率及将垃圾邮件误判为合法邮件的漏报率的损失,首先基于现有的文本特征提取评估函数:期望交叉熵及互信息提出一种新的评估函数。利用此函数可提取到更具有代表性的邮件特征向量。在此之上提出一种基于贝叶斯公式可减少损失的垃圾邮件过滤方法。经过仿真测试后,发现基于新评估函数的新方法可有效降低误报率和漏报率。  相似文献   

3.
提出一种基于多特征模糊关联的垃圾邮件过滤方法.该方法分为预处理和实时处理两个阶段,在预处理阶段,分析训练样本集,提取邮件的发送源特征和文本特征的典型特征值集合,计算典型特征值与合法邮件类、垃圾邮件类之间的模糊关联度.在实时处理阶段,根据待分类邮件所包含的特征值,计算邮件的类支持度,然后利用Dempster-Shafer 证据理论实现多个特征的分类融合与判决.实验结果表明,此方法能有效提高垃圾邮件过滤的查全率和查准率.  相似文献   

4.
基于词条时序的朴素贝叶斯垃圾邮件过滤方法   总被引:1,自引:0,他引:1  
朴素贝叶斯分类算法是一种有效的垃圾邮件过滤技术.互联网上的信息随着时间推移产生概念的变迁,最近出现的垃圾邮件词条可作为判定垃圾邮件的重要依据.将新近的垃圾邮件词条单独记录,在进行邮件分类时,对于最近出现的垃圾词条,提高其对垃圾邮件判定的先验概率.通过实验对比,提出的垃圾邮件过滤方法较传统的朴素贝叶斯垃圾邮件过滤具有更高的准确性、精确性和召回率.  相似文献   

5.
朴素贝叶斯分类算法由于其计算高效在生活中应用广泛。本文根据集成算法的差异性特征,聚类算法聚类点的选择方式的可变性,提出了基于K-medoids聚类技术的贝叶斯集成算法,朴素贝叶斯的泛化性能得到了提升。首先,通过样本集训练出多个朴素贝叶斯基分类器模型;然后,为了增大基分类器之间的差异性,利用K-medoids算法对基分类器在验证集上的预测结果进行聚类;最后,从每个聚类簇中选择泛化性能最佳的基分类器进行集成学习,最终结果由简单投票法得出。将该算法应用于UCI数据集,并与其他类似算法进行比较可得,本文提出的基于K-medoids聚类的贝叶斯集成算法(NBKME)提高了数据集的分类准确率。  相似文献   

6.
以朴素贝叶斯理论作为基石并结合信息增益、代价因子等方法,尝试设计一种基于用户需求的垃圾邮件过滤分类模型,在垃圾邮件一次分类基础上提出邮件先过滤后分类方法,进而改进传统邮件分类一次阈值比较,变为两次阈值比较,且应用反馈技术以应对垃圾邮件的日益变化.该模型可能会对垃圾邮件多分类研究具有一定的参考价值.  相似文献   

7.
如何在传统垃圾邮件过滤技术基础上实现垃圾邮件个性化过滤是垃圾邮件过滤领域的重要课题。提出一种基于用户反馈的个性化垃圾邮件过滤方法,一方面将用户反馈应用于邮件分类特征的更新,提取用户个性化邮件分类标准;另一方面,将全局邮件分类标准和用户个性化分类标准综合应用于朴素贝叶斯分类过程,实现用户邮件个性化分类。仿真实验结果表明,在用户邮件分类标准存在差异的环境下,基于用户反馈的个性化垃圾邮件过滤方法能够有效提升传统垃圾邮件过滤技术的邮件分类效果。  相似文献   

8.
信息增益是文本分类中一种有效的特征项选择方法,针对垃圾邮件过滤中的特征项选择问题,提出了一种改进的信息增益方法提取特征词,并采用了最小风险贝叶斯的决策方法,最后在英文语料库上进行实验,实验结果表明改进后的方法降低了过滤器对合法邮件的误判。  相似文献   

9.
寇晓淮  程华 《电信科学》2017,33(11):73-82
垃圾邮件过滤技术在保证信息安全、提高资源利用、分拣信息数据等方面都发挥着重要作用。然而,垃圾邮件的出现影响了用户的体验,并且会造成不必要的经济与时间损失。针对现有的垃圾邮件过滤技术的不足,基于多个主题词理论,构建了基于朴素贝叶斯的垃圾邮件分类方法。在邮件主题获取中,采用主题模型LDA得到邮件的相关主题及主题词;并进一步采用Word2Vec寻找主题词的同义词和关联词,扩展主题词集合。在邮件分类中,对训练数据集进行统计学习得到词语的先验概率;基于扩展的主题词集合及其概率,通过贝叶斯公式推导得到某个主题和某封邮件的联合概率,以此作为垃圾邮件判定的依据。同时,基于主题模型的垃圾邮件过滤系统具有简洁易应用的特点。通过与其他典型垃圾邮件过滤方法的对比实验,证明基于主题模型的垃圾邮件分类方法及基于Word2Vec的改进方法均能有效提高垃圾邮件过滤的准确度。  相似文献   

10.
基于贝叶斯神经网络的垃圾邮件过滤方法   总被引:12,自引:2,他引:10  
垃圾邮件过滤是当前互联网应用中急需解决的一个重要课题,日益受到人们的关注。本文提出了一种基于贝叶斯神经网络BNN(Bayesian Neural Network)的垃圾邮件过滤方法,利用贝叶斯推理和神经网络相结合的贝叶斯神经网络算法对用户给定的正常/垃圾邮件集合进行训练,得到邮件过滤模型。并且提出了一种有效的特征选择方法,采用信息增益准则,有效降低了特征维数。经过实验测试,本文提出的方法可以实现对垃圾邮件的有效过滤。  相似文献   

11.
This paper proposes a stateless open‐digest spam fingerprinting at the packet level (layer 3) based on an open‐digest fingerprinting algorithm Nilsimsa. Spam emails show several characteristics when viewed at gateway level, which are suitable for spam fingerprinting: (a) content invariance and (b) recipient address dispersion. In this paper, Nilsimsa is adapted to support both fingerprinting and fast email class estimation, on a per‐packet basis. Email packets are incrementally fingerprinted on a per‐packet basis, without the need for reassembly. Spam detection status is tagged to the last packet of each email. This in turn allows fast email class estimation (spam detection) at receiving email servers to support more effective spam handling on both inbound and outbound (relayed) emails. The work presented in this paper focuses on evaluating the accuracy of spam fingerprinting at the packet level with consideration on the constraints of processing byte streams over the network, including packet reordering, fragmentation, overlapped bytes, different packet sizes, and possibilities of random addition attacks. Results show that the proposed packet‐level fingerprinting can detect spam with 100% random addition when the similarity threshold is set to between 36 and 59. This method gives 0% false positive and 100% true negative, which equals the performance attained for spam fingerprinting at full email abstraction (layer 7). This shows that classifying emails at the packet level can differentiate non‐spam from spam with high confidence for a viable spam control implementation on middleboxes. Copyright © 2011 John Wiley & Sons, Ltd.  相似文献   

12.
陆青梅  尹四清 《信息技术》2008,32(2):118-120
邮件过滤技术是反垃圾邮件的重要手段,目前对垃圾邮件的过滤主要有基于内容、基于IP地址和基于信头、信封等方法,这些方法对垃圾邮件的过滤起到了一定作用.但是由于信体是垃圾邮件的最终载体,而仅依据IP地址、信头、信封中的特征容易造成错误判断.在贝叶斯分类器的工作原理的基础上,提出了基于贝叶斯分类器的反垃圾邮件模型的原理与实现方法,将反映垃圾邮件的特征综合在一起统称为"属性",避免了单纯基于IP、信头、信封过滤的规则性太强的缺点,降低将正常邮件判断为垃圾邮件的风险.  相似文献   

13.
张天润 《移动信息》2023,45(10):167-169
文中旨在研究基于深度学习的垃圾邮件文本分类方法,该方法结合了卷积神经网络(CNN)和循环神经网络(RNN)的模型,通过对邮件文本进行特征提取和分类,能高效、准确地对垃圾邮件进行分类。文中以卷积神经网络和循环神经网络为实验对象,提出了一种垃圾邮件文本分类方法,并在公开数据集上进行了实验。实验结果表明,该方法在垃圾邮件文本分类任务上具有较高的准确率和召回率。  相似文献   

14.
王友卫  刘元宁  凤丽洲  朱晓冬 《电子学报》2015,43(10):1963-1970
为在不显著降低垃圾邮件识别精度的同时有效提高邮件识别速度,提出了一种在线垃圾邮件快速识别新方法.首先引入用户正、负兴趣集的概念,结合用户兴趣集及支持向量机对邮件进行分类;然后根据主动学习理论,结合训练集样本密度及改进角度差异方法寻找分类最不确定的样本并推荐给用户进行类别标注;最后将标注后样本及分类最确定性样本加入训练集,并使用样本价值评价新函数淘汰冗余样本以生成新的训练集.实验表明,本文方法的用户标注负担小,垃圾邮件识别精度高、速度快,具有较高的在线应用价值.  相似文献   

15.
张鸿 《舰船电子对抗》2012,(1):79-82,85
为改善模糊C均值(FCM)聚类分析算法的性能,减少FCM聚类算法的误分率,提高FCM聚类算法的稳定性,提出了一种改进ReliefF加权FCM(IReliefF-WFCM)聚类算法。IReliefF算法改进了传统ReliefF算法的样本点选择方法,得到了更加稳定有效的特征权值。最后,将该IReliefF-WFCM算法用于数据集等实际数据的聚类分析。结果表明该方法是可行、有效的,为分类模式识别提供了一种误分率小的、稳定的方法。  相似文献   

16.
在加密邮件系统中,公钥可搜索加密技术可以有效地解决在不解密的情况下搜索加密邮件的问题。针对公钥可搜索加密复杂的密钥管理问题,该文在加密邮件系统中引入了基于身份的密码体制。针对可搜索加密的离线关键字猜测攻击问题,该文采用了在加密关键字和生成陷门的同时进行认证,并且指定服务器去搜索加密电子邮件的方法。同时,在随机预言机模型下,基于判定性双线性Diffie-Hellman假设,证明方案满足陷门和密文不可区分性安全。数值实验结果表明,在陷门生成和关键字密文检测阶段,该方案与现有方案相比在计算效率上较高。  相似文献   

17.
Unsolicited emails distributed by marketers and fraudsters are a growing burden on Internet users. It is expected that with the introduction of low-cost next-generation networks, such as the IP multimedia subsystem, these unsolicited communications will migrate from email and move to voice, video, and instant messaging sessions. Unsolicited voice and video calls are highly disruptive, causing frustration to end users, and they are wasteful of network resources. These communications also may involve fraud, phishing, or the propagation of offensive material. This article highlights the scale of this inevitable problem and proposes mechanisms to enable users to filter their incoming multimedia sessions, such that only legitimate calls are received. This is achieved in a variety of ways including call-pattern analysis, statistical filtering, blacklists, whitelists, and challenge-response mechanisms.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号