首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 343 毫秒
1.
基于粗糙集的带决策规则边界的邮件过滤算法   总被引:1,自引:0,他引:1  
针对垃圾邮件过滤的准确率和稳定性不高,以及为了解决邮件过滤算法在语料分类上存在漏报和误报等问题,提出基于粗糙集的带决策规则边界的邮件过滤算法(RARM)。该算法运用粗糙集理论对语料库进行直接分析,并采用启发式方法提出了粗糙集理论的三种不同决策规则的执行计划,确保当邮件内容的词汇语义较为模糊时,仍能保证一定的分类准确度。在实验仿真中,通过与基于支持向量机(SVM)、Ada Boost和贝叶斯分类的邮件过滤算法相比较,该算法在垃圾邮件过滤上的准确率优于对比算法。  相似文献   

2.
基于粗糙集理论和模糊SVM的车牌识别技术研究   总被引:1,自引:0,他引:1  
针对传统的SVM多分类存在不可分区域,提出一种粗糙FSVM识别算法。该算法根据粗糙集理论对训练样本进行建立决策表、离散决策表、约简决策表、提取分类规则等推理过程设计。不但有效改善训练时间,而且解决了传统的SVM多分类存在不可分区域的问题。实验表明,将该识别算法应用于车牌字符识别,取得在相同的条件下比支持向量机方法更为理想的识别效果。  相似文献   

3.
目前的图像垃圾邮件过滤技术,大都采用国际上通用的垃圾图像数据集作为训练集,与中国国内图像垃圾邮件的图像特点不一致,图像数据缺乏实时更新,且分类器单一,过滤效果难以保证。针对该问题,在建立国内垃圾邮件图像数据库的基础上,首先提取图像的颜色、纹理和形状特征,再经K-NN分类算法优选出HSV颜色直方图特征对不同分类器进行训练、测试和性能比较,提出将基于粗糙集的K-NN算法、Naive Bayes算法和SVM算法构成的3种基分类器相结合,并基于串行迭代提升的方法形成集成学习的强分类器。该方法可以实现对国内图像垃圾邮件的有效过滤,使图像垃圾邮件过滤的准确率和召回率同时得到提升,分别为97.3%和96.1%,误判率降低到了2.7%。  相似文献   

4.
支持向量机是一种新的机器学习方法,它具有良好的推广性和分类精确性。但是在利用支持向量机的分类算法处理实际问题时,该算法的计算速度较慢、处理问题效率较低。文中介绍了一种新的学习算法,就是将粗糙集和支持向量机相结合,利用粗糙集对支持向量机的训练样本进行预处理,从而缩短样本的训练时间,提高基于SVM预测系统实时性。文中最后利用该方法进行了数据试验,试验结果表明了该方法可以大大缩短样本的训练时间,提高基于支持向量机处理预测系统的效率。从而也证明了该方法的有效性。  相似文献   

5.
利用粗糙集理论提高SVM预测系统的实时性   总被引:1,自引:0,他引:1  
支持向量机是一种新的机器学习方法,它具有良好的推广性和分类精确性。但是在利用支持向量机的分类算法处理实际问题时,该算法的计算速度较慢、处理问题效率较低。文中介绍了一种新的学习算法,就是将粗糙集和支持向量机相结合,利用粗糙集对支持向量机的训练样本进行预处理,从而缩短样本的训练时间,提高基于SVM预测系统实时性。文中最后利用该方法进行了数据试验,试验结果表明了该方法可以大大缩短样本的训练时间,提高基于支持向量机处理预测系统的效率。从而也证明了该方法的有效性。  相似文献   

6.
基于改进的SVM的甲状腺图像检索   总被引:1,自引:1,他引:0  
针对SVM处理大数据量和区分训练集样本属性的重要性差的问题,我们将SVM和粗糙集结合,构造了基于粗糙集与SVM的图像检索相关反馈算法,将其应用于甲状腺CT图像检索。实验结果表明,改进的SVM分类精度可达到92.53%,相比SVM的分类精度(76.58%)提高了15.95%,进而使检索的查准率和查全率也分别提高到89.53%和29.67%。  相似文献   

7.
提出了一种基于粗糙集-支持向量机(Rough Set Support Vector Machine,RS-SVM)的火灾识别算法。首先利用粗糙集理论,将描述火灾特征的6个变量映射为粗糙集的知识系统,再去除冗余信息,对该系统进行属性约简,获取该知识系统的规则集;利用SVM泛化和非线性逼近能力,将以上规则集作为训练火灾识别SVM的样本集,最终得到分类准确、优化的火灾识别算法。实验仿真表明:该算法对火灾识别精度高、速度快、抗扰性好、非线性能力强,且适用范围广,对于火灾及时准确识别具有重要意义。  相似文献   

8.
支持向量机是一种具有完备统计学习理论基础和出色学习性能的新型机器学习方法,它能够较好地克服过学习和泛化能力低等缺陷.但是在利用支持向量机的分类算法处理实际问题时,该算法的计算速度较慢、处理问题效率较低.文中介绍了一种新的学习算法粗SVM分类方法,就是将粗糙集和支持向量机相结合,利用粗糙集对支持向量机的训练样本进行预处理,通过属性约简方法以减少属性个数,且在属性约简过程中选出几组合适的属性集组成新的属性集,使模型具有一定的抗信息丢失能力,同时充分利用SCM的良好推广性能,从而缩短样本的训练时间,实现快速故障诊断.对航空发动机故障诊断的实验结果表明了该方法的优越性. 型机器学习方法,它能够较好地克服过学习和泛化能力低等缺陷.但是在利用支持向量机的分类算法处理实际问题时,该算法的计算速度较慢、处理问题效率较低.文中介绍了一种新的学习算法粗SVM分类方法,就是将粗糙集和支持向量机相结合,利用粗糙集对支持向量机的训练样本进行预处理,通过属性约简方法以减少属性个数,且在属性约筒过程中选出几组合适的属性集组成新的属性集,使模型具有一定的抗信息丢失能力,同时充分利用SCM的良好推广性能,从而缩短样本的训练时间,实现快速故障诊 .对航空发动机故障诊断的实验结果表明了该方法的优越性. 型机器学习方法  相似文献   

9.
网络故障的关联性传播可能导致网络故障数据包含大量冗余信息,影响诊断精度和处理效能。该文根据故障数据的特点,将粗糙集理论与支持向量机(SVM)相结合,采用基于邻域粗糙逼近的数值型属性约简算法进行快速高效的故障诊断,避免经典粗糙集理论中离散化误差的影响,缩减数据存储空间,降低SVM训练模型的复杂度,提高训练速度。ROC性能曲线分析结果表明,该方法具有良好的泛化能力。  相似文献   

10.
基于粗糙集与贝叶斯决策的不良网页过滤研究   总被引:1,自引:0,他引:1  
不良网页过滤是一种两类网页分类问题。提出了一种基于粗糙集与贝叶斯决策相结合的不良网页分类过滤方法,首先利用粗糙集理论的区分矩阵和区分函数得到网页分类决策的属性约简;然后通过贝叶斯决策理论对网页进行分类与过滤决策。仿真实验表明,该方法在不良网页分类过滤系统中开销小,过滤准确度高,因而在快速过滤不良网页的应用中具有工程应用价值。  相似文献   

11.
基于KNN-SVM的混合协同过滤推荐算法   总被引:1,自引:1,他引:0  
数据稀疏性问题对协同过滤推荐系统的推荐精度有很大影响,为此,融合缺失数据平衡方法,提出了一个基于KNN-SVM的混合协同过滤推荐算法。利用K-最近邻法对训练集中的缺失数据进行填补,然后通过支持向量机交叉验证进行分类,综合两者优点,从而克服数据质量对推荐算法的影响。在标杆数据集上进行了仿真实验,数值结果证明了方法的有效性。  相似文献   

12.
Electronic mail is a major revolution taking place over traditional communication systems due to its convenient, economical, fast, and easy to use nature. A major bottleneck in electronic communications is the enormous dissemination of unwanted, harmful emails known as spam emails. A major concern is the developing of suitable filters that can adequately capture those emails and achieve high performance rate. Machine learning (ML) researchers have developed many approaches in order to tackle this problem. Within the context of machine learning, support vector machines (SVM) have made a large contribution to the development of spam email filtering. Based on SVM, different schemes have been proposed through text classification approaches (TC). A crucial problem when using SVM is the choice of kernels as they directly affect the separation of emails in the feature space. This paper presents thorough investigation of several distance-based kernels and specify spam filtering behaviors using SVM. The majority of used kernels in recent studies concern continuous data and neglect the structure of the text. In contrast to classical kernels, we propose the use of various string kernels for spam filtering. We show how effectively string kernels suit spam filtering problem. On the other hand, data preprocessing is a vital part of text classification where the objective is to generate feature vectors usable by SVM kernels. We detail a feature mapping variants in TC that yield improved performance for the standard SVM in filtering task. Furthermore, to cope for realtime scenarios we propose an online active framework for spam filtering. We present empirical results from an extensive study of online, transductive, and online active methods for classifying spam emails in real time. We show that active online method using string kernels achieves higher precision and recall rates.  相似文献   

13.
The Internet has been flooded with spam emails, and during the last decade there has been an increasing demand for reliable anti-spam email filters. The problem of filtering emails can be considered as a classification problem in the field of supervised learning. Theoretically, many mature technologies, for example, support vector machines (SVM), can be used to solve this problem. However, in real enterprise applications, the training data are typically collected via honeypots and thus are always of huge amounts and highly biased towards spam emails. This challenges both efficiency and effectiveness of conventional technologies. In this article, we propose an undersampling method to compress and balance the training set used for the conventional SVM classifier with minimal information loss. The key observation is that we can make a trade-off between training set size and information loss by carefully defining a similarity measure between data samples. Our experiments show that the SVM classifier provides a better performance by applying our compressing and balancing approach.  相似文献   

14.
支持向量机(SVM)是统计学习理论的最新方法,在模式分类和回归分析中有广泛的应用。针对SAR图像解译,SVM在图像滤波、图像分割、目标识别与分类、极化数据分类等过程中有很好的处理能力。本文首先介绍了SVM的基本原理,然后综述SVM在SAR图像解译中的各方面研究进展。  相似文献   

15.
研究了基于SVM算法的改进朴素贝叶斯文本分类算法及在垃圾短信过滤中的应用。针对朴素贝叶斯算法条件独立性假设、过分依赖于样本空间的分布和内在不稳定性的缺陷,造成了算法时间复杂度的增加,提出了改进的基于SVM算法的朴素贝叶斯算法垃圾短信过滤的解决方案,充分结合了朴素贝叶斯算法高效分类和SVM算法增量学习及不依赖样本空间的特点;首先利用结构风险最小化原理和非线性变换将分类问题转化为二次寻优问题,最后利用朴素贝叶斯算法过滤短信,提高分类的准确度和稳定性;仿真实验结果表明,该算法能够快速得到最优分类特征子集,有效提高了垃圾短信过滤的准确率和分类速度。  相似文献   

16.
一种基于SVM算法的垃圾邮件过滤方法   总被引:4,自引:1,他引:3       下载免费PDF全文
基于邮件内容的过滤是当前解决垃圾邮件问题的主流技术之一。针对垃圾邮件过滤本质是分类问题,提出了一种基于支持向量机对垃圾邮件过滤的方法,并且将SMO分类算法结合到垃圾邮件分类中。通过实验,SMO算法能够取得较好的分类效果,缩短了支持向量机分类器的分类时间。  相似文献   

17.
衣治安  刘杨 《计算机应用》2007,27(11):2860-2862
目前性能较好的多分类算法有1-v-r支持向量机(SVM)、1-1-1SVM、DDAG SVM等,但存在大量不可分区域且训练时间较长的问题。提出一种基于二叉树的多分类SVM算法用于电子邮件的分类与过滤,通过构建二叉树将多分类转化为二值分类,算法采用先聚类再分类的思想,计算测试样本与子类中心的最大相似度和子类间的分离度,以构造决策节点的最优分类超平面。对于C类分类只需C-1个决策函数,从而可节省训练时间。实验表明,该算法得到了较高的查全率、查准率。  相似文献   

18.
基于遗传算法和支持向量机的肿瘤分子分类   总被引:1,自引:0,他引:1  
提出了一种基于遗传算法(GA)和支持向量机(SVM)的用于肿瘤分子分类和特征基因选择的新方法。该方法针对基因表达数据样本少维数高的特点,先根据基因的散乱度滤掉大量分类无关基因,而后使用相关性分析去除分类冗余基因,得到一个候选基因子集,用遗传算法搜索候选特征基因空间,发现在支持向量机分类器上具有好的分类性能的且含基因个数较少的特征子集。把这种GA/SVM方法应用到结肠癌和急性白血病基因表达谱,能选出多个取得较高分类精度的较小基因子集,实验结果表明了该方法的有效性。  相似文献   

19.
提出了一种可以解决SVM分类算法中的多重共线性问题的因子分析方法。因子分析的核心是用较少的互相独立的因子反映原有变量的绝大部分信息,它既能大大减少参与数据建模的变量个数,简化支持向量机结构,减少支持向量机分类过程中的复杂度和运算量,同时不会改变样本的分布特性,保持样本的分类信息。实验结果表明,通过因子分析对样本数据的处理,使用3个因子代替7个原始变量,原始变量间的多重共线性问题得到了很好的解决。  相似文献   

20.
针对深层神经网络初始化方法不明确、泛化能力差而导致解决垃圾邮件过滤时效果较差的问题,提出了基于深度置信网络的分类方法。深度置信网络通过逐层无监督的方法来预训练网络,实现了网络的初始化。在LingSpam,SpamAssassin和Enron1三个广泛使用的数据集上,通过与目前最好的垃圾邮件过滤方法支持向量机(SVM)在分类性能上进行比较,实验结果表明深度置信网络的垃圾邮件过滤方法是有效的,获得了较高的准确率和召回率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号