首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
随着邮件分类技术的不断发展,为了对邮件进行更加有效的组织和管理,需要对不断变化的邮件进行动态特征提取,根据其动态特征对邮件进行分类。从邮件的动态特征方面入手,通过编写邮件客户端程序,利用中科院的ICTCLAS分词工具实现中文邮件的准确分词,利用改进的TF-IDF算法对邮件的特征权重进行计算,并利用WEKA挖掘工具进行结果的仿真实验。实验结果表明,利用邮件的动态特征来对邮件进行分类是切实可行的,且在一定程度上能够对邮件进行合理有效的分类。  相似文献   

2.
邮件分类是当前研究的一个热点问题,而如何进行邮件特征选择,是邮件分类中的重要问题。在介绍几种常用的邮件分类的特征选择算法的同时,提出了将非搜索型算法FCBF与搜索型算法SFS结合的特征选择方法。实验验证了该方法的有效性和可行性,能够有效提高分类器的准确率。  相似文献   

3.
电子邮件是互联网的最重要应用之一,尽管给人们日常工作和生活带来很大便利,但也带来了一种令人讨厌的副产品一一垃圾邮件。对邮件进行分类已成为当前的一个研究热点,而如何进行邮件特征选择,是邮件分类中一个基本也是很重要的问题。本文在分析比较几种用于邮件分类的典型特征选择方法基础上,提出一种新的结合了Mitra's算法和顺序前进搜索法优点的邮件特征选择方法。实验结果表明该方法能够改进邮件分类的准确率,验证了本文方法的有效性和可行性。  相似文献   

4.
一种改进的基于神经网络的文本分类算法*   总被引:1,自引:0,他引:1  
提出并实现了一种结合前馈型神经网络和K最近邻的文本分类算法。其中,在选取特征项时考虑到Web文本不同标签组所代表的意义和权重有所区别,采用了一种改进的TFIDF特征选择法。最后对设计的分类器进行了开放性测试,实验结果表明该分类器显著地提高了文本分类的查全率和查准率。  相似文献   

5.
朴素贝叶斯算法是一种常见的基于内容的垃圾邮件过滤算法,但是,传统朴素贝叶斯过滤存在判断内容的不确定性和邮件表示不完整性等问题。分析邮件信头各域在正常邮件和垃圾邮件中表现出的不同属性,提取非特征信息,结合特征信息和非特征信息改进朴素贝叶斯算法。实验结果表明,改进的朴素贝叶斯分类方法与单纯使用特征信息的方法相比,垃圾邮件的召回率和准确率更高,凸显了该方法涵盖邮件信息、克服内容判断缺陷的优势。  相似文献   

6.
邮件过滤中特征选择算法的研究及改进   总被引:1,自引:0,他引:1  
对基于内容的垃圾邮件过滤技术尤其是特征选择算法进行了研究.在此基础上,对其中的互信息算法进行了分析,并将其与邮件过滤的特点结合起来进行,在频度、集中度及分散度三个指标上进行改进,在原互信息算法已考虑分散度的基础上,引入词频来表征频度,以类别贡献比来衡量特征对分类的贡献,即表征集中度,并给出了改进后的互信息计算公式及算法.最后使用真实邮件训练集进行了邮件分类的实验,实验结果证明对互信息算法的改进能有效提高邮件分类性能.  相似文献   

7.
文本分类中普遍应用的TF-IDF特征权重算法没有引入特征项的纯度和类别属性.在结合基尼指数原理和TF-IDF特征权重算法基础上,提出一种基于基尼指数的特征权重改进算法,在计算特征权重时引入特征项的纯度和分类的已知类别属性.进一步,设计了两种特征权重算法的对比实验,并在SVM分类器和kNN分类器下选取不同的特征项数目进行多次实验.实验结果表明,该改进的基尼指数特征权重算法有更好的效果.  相似文献   

8.
研究了改进的基于SVM-EM算法融合的朴素贝叶斯文本分类算法以及在垃圾邮件过滤中的应用。针对朴素贝叶斯算法无法处理基于特征组合产生的变化结果,以及过分依赖于样本空间的分布和内在不稳定性的缺陷,造成了算法时间复杂度的增加。为了解决上述问题,提出了一种改进的基于SVM-EM算法的朴素贝叶斯算法,提出的方法充分结合了朴素贝叶斯算法简单高效、EM算法对缺失属性的填补、支持向量机三种算法的优点,首先利用非线性变换和结构风险最小化原则将流量分类转换为二次寻优问题,然后要求EM算法对朴素贝叶斯算法要求条件独立性假设进行填补,最后利用朴素贝叶斯算法过滤邮件,提高分类准确性和稳定性。仿真实验结果表明,与传统的邮件过滤算法相比,该方法能够快速得到最优分类特征子集,大大提高了垃圾邮件过滤的准确率和稳定性。  相似文献   

9.
基于内容的邮件过滤本质是二值文本分类问题。特征选择在分类之前约简特征空间以减少分类器在计算和存储上的开销,同时过滤部分噪声以提高分类的准确性,是影响邮件过滤准确性和时效性的重要因素。但各特征选择算法在同一评价环境中性能不同,且对分类器和数据集分布特征具有依赖性。结合邮件过滤自身特点,从分类器适应性、数据集依赖性及时间复杂度三个方面评价与分析各特征选择算法在邮件过滤领域的性能。实验结果表明,优势率和文档频数用于邮件过滤时垃圾邮件识别的准确率较高,运算时间较少。  相似文献   

10.
基于粗糙集的加权朴素贝叶斯邮件过滤方法   总被引:5,自引:3,他引:2  
邮件过滤中有两个关键问题,一是如何选择有效的邮件特征集,二是设计较好的邮件过滤算法。在对邮件特性进行分析的基础上,综合邮件头及邮件内容的主要形象特征给出了一种新的邮件特征集提取方法。用粗糙集的信息观点度量了各属性的重要性,并以此为权重进行加权朴素贝叶斯垃圾邮件过滤,有效地解决了朴素贝叶斯分类中的条件依赖性问题。通过在中英文邮件集上的测试实验,证明了所提出的邮件过滤方法的有效性。  相似文献   

11.
朱颢东  钟勇 《计算机科学》2009,36(11):196-199
在文本分类中,特征空间的维数通常高达几万,甚至远远超出训练样本的个数,这是一种十分普遍现象.为了提高文本挖掘算法的运行速度,降低占用的内存空间,过滤掉不相关或相关程度低的特征,必须使用特征选择算法.首先给出了一个基于最小词频的文档频方法,然后把粗糙集引入进来并提出了一个基于Beam搜索的属性约简算法,最后把该属性约简算法同基于最小词频的文档频方法结合起来,提出了一个综合的特征选择算法.该算法首先利用基于最小词频的文档频方法进行特征选择,然后利用所提属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明该算法是有效的.  相似文献   

12.
A practical method of three-dimensional feature space iterative clustering (3D-FSIC) for image classification has been introduced, in which the clustering iteration is performed in three-dimensional feature space rather than scanning the image pixel by pixel. This method permits the cluster size and pixel frequency to be taken into account so that a more advanced decision rule, the optimal multiple point reassignment (OMPR) can be applied. The paper also provides a simple technique for splitting a cluster based on the first principal component without performing principal component transformation. Finally, a classification example using hue images as well as a discussion of the advantages of using hue images in the 3D-FSIC classification is given.  相似文献   

13.
传统朴素贝叶分类算法没有根据特征项的不同对其重要程度进行划分,使得分类结果不准确。针对这一问题,引入Jensen-Shannon(JS)散度,用JS散度来表示特征项所能提供的信息量,并针对JS散度存在的不足,从类别内与类别间的词频、文本频以及用变异系数修正过的逆类别频率这三个方面考虑,对JS散度进行调整修正,最后计算出每一特征项的权值,将权值带入到朴素贝叶斯的公式中。通过与其他算法的对比实验证明,基于JS散度并从词、文本、类别三方面改进后的朴素贝叶斯算法的分类效果最好。因此基于JS散度特征加权的朴素贝叶斯分类算法与其他分类算法相比,其分类性能有很大提高。  相似文献   

14.
特征选择是文本分类的关键步骤之一,所选特征子集的优劣直接影响文本分类的结果.分析了词频法和文档频法并总结了其缺陷,给出了一个改进的文档频方法;引进粗糙集理论,提出了一个属性约简算法;最后提出了一个新的特征选择方法.该特征选择方法使用改进的文档频初选特征并用所提属性约简算法消除冗余.仿真结果表明该特征选择方法性能较好.  相似文献   

15.
针对极深神经网络图像超分辨率重建过程中,存在图像特征提取少、信息利用率低,平等处理高、低频信息通道的问题,提出了残差卷积注意网络的图像超分辨率重建算法。构造多尺度残差注意块,最大限度地提高网络提取到多尺寸特征信息,引入通道注意力机制,增强高频信息通道的表征能力。引入卷积注意块的特征提取结构,减少高频图像细节信息的丢失。在网络的重建层,引入全局跳远连接结构,进一步丰富重建的高分辨率图像信息的流动。实验结果表明,所提算法在Set5等基准数据集上的PSNR、SSIM比其他基于深度卷积神经网络的方法均明显提升,验证了提出方法的有效性与先进性。  相似文献   

16.
特征选择是文本分类过程中非常重要的环节。CHI统计是一种经典的特征选择方法,针对CHI统计方法存在的不足,一方面,为了兼顾特征项的文档频和词频,本文在CHI中引入词频因子和类间方差;另一方面,为了排除在指定类中很少出现但在其他类中普遍存在的特征项,降低人为选取比例因子带来的误差,本文在CHI中引入自适应比例因子。实验结果表明,与CHI统计方法相比,改进后的CHI特征选择方法提高了非平衡语料集上的分类准确度。   相似文献   

17.
We analyze some spatial frequency-based features used for text region detection in natural scene images, and redefine the DCT-based feature. We employ Fisher’s discriminant analysis to improve the DCT-based feature and to achieve higher accuracy. An unsupervised thresholding method for discriminating text and non-text regions is introduced and tested as well. Experimental results show that a wide high frequency band, covering some lower-middle frequency components, is generally more suitable for scene text detection despite the original definition of the DCT-based feature.  相似文献   

18.
特征选择是文本分类的关键步骤之一,所选特征子集的优劣直接影响文本分类的结果。在分析词频方法和文档频方法不足的基础上提出了特征辨别能力,把元信息引入粗糙集并提出了一个基于元信息的属性约简算法,给出了一个综合性特征选择方法。该方法利用特征辨别能力进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,使用所提属性约简算法消除冗余,从而获得较具代表性的特征子集。实验结果表明:所提特征选择方法在一定程度上具有一定的优势。  相似文献   

19.
基于谱特征的模拟与数字调制方式识别方法   总被引:1,自引:0,他引:1  
提出一种基于谱特征的模拟与数字调制方式自动识别算法,从信号的包络平方谱中提取单频分量检测值作为特征参数,对模拟与数字调制方式进行自动分类.仿真结果表明,在信噪比大于3 dB时识别率达990%以上.该算法不需要先验知识,计算简单,对数字调制信号的滚降系数不敏感,具有较强的实用性.  相似文献   

20.
自动文本分类特征选择方法研究   总被引:4,自引:4,他引:4  
文本分类是指根据文本的内容将大量的文本归到一个或多个类别的过程,文本表示技术是文本分类的核心技术之一,而特征选择又是文本表示技术的关键技术之一,对分类效果至关重要。文本特征选择是最大程度地识别和去除冗余信息,提高训练数据集质量的过程。对文本分类的特征选择方法,包括信息增益、互信息、X^2统计量、文档频率、低损降维和频率差法等做了详细介绍、分析、比较研究。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号