共查询到20条相似文献,搜索用时 125 毫秒
1.
2.
邮件分类是当前研究的一个热点问题,而如何进行邮件特征选择,是邮件分类中的重要问题。在介绍几种常用的邮件分类的特征选择算法的同时,提出了将非搜索型算法FCBF与搜索型算法SFS结合的特征选择方法。实验验证了该方法的有效性和可行性,能够有效提高分类器的准确率。 相似文献
3.
电子邮件是互联网的最重要应用之一,尽管给人们日常工作和生活带来很大便利,但也带来了一种令人讨厌的副产品一一垃圾邮件。对邮件进行分类已成为当前的一个研究热点,而如何进行邮件特征选择,是邮件分类中一个基本也是很重要的问题。本文在分析比较几种用于邮件分类的典型特征选择方法基础上,提出一种新的结合了Mitra's算法和顺序前进搜索法优点的邮件特征选择方法。实验结果表明该方法能够改进邮件分类的准确率,验证了本文方法的有效性和可行性。 相似文献
4.
5.
6.
7.
文本分类中普遍应用的TF-IDF特征权重算法没有引入特征项的纯度和类别属性.在结合基尼指数原理和TF-IDF特征权重算法基础上,提出一种基于基尼指数的特征权重改进算法,在计算特征权重时引入特征项的纯度和分类的已知类别属性.进一步,设计了两种特征权重算法的对比实验,并在SVM分类器和kNN分类器下选取不同的特征项数目进行多次实验.实验结果表明,该改进的基尼指数特征权重算法有更好的效果. 相似文献
8.
研究了改进的基于SVM-EM算法融合的朴素贝叶斯文本分类算法以及在垃圾邮件过滤中的应用。针对朴素贝叶斯算法无法处理基于特征组合产生的变化结果,以及过分依赖于样本空间的分布和内在不稳定性的缺陷,造成了算法时间复杂度的增加。为了解决上述问题,提出了一种改进的基于SVM-EM算法的朴素贝叶斯算法,提出的方法充分结合了朴素贝叶斯算法简单高效、EM算法对缺失属性的填补、支持向量机三种算法的优点,首先利用非线性变换和结构风险最小化原则将流量分类转换为二次寻优问题,然后要求EM算法对朴素贝叶斯算法要求条件独立性假设进行填补,最后利用朴素贝叶斯算法过滤邮件,提高分类准确性和稳定性。仿真实验结果表明,与传统的邮件过滤算法相比,该方法能够快速得到最优分类特征子集,大大提高了垃圾邮件过滤的准确率和稳定性。 相似文献
9.
10.
11.
在文本分类中,特征空间的维数通常高达几万,甚至远远超出训练样本的个数,这是一种十分普遍现象.为了提高文本挖掘算法的运行速度,降低占用的内存空间,过滤掉不相关或相关程度低的特征,必须使用特征选择算法.首先给出了一个基于最小词频的文档频方法,然后把粗糙集引入进来并提出了一个基于Beam搜索的属性约简算法,最后把该属性约简算法同基于最小词频的文档频方法结合起来,提出了一个综合的特征选择算法.该算法首先利用基于最小词频的文档频方法进行特征选择,然后利用所提属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明该算法是有效的. 相似文献
12.
A practical method of three-dimensional feature space iterative clustering (3D-FSIC) for image classification has been introduced, in which the clustering iteration is performed in three-dimensional feature space rather than scanning the image pixel by pixel. This method permits the cluster size and pixel frequency to be taken into account so that a more advanced decision rule, the optimal multiple point reassignment (OMPR) can be applied. The paper also provides a simple technique for splitting a cluster based on the first principal component without performing principal component transformation. Finally, a classification example using hue images as well as a discussion of the advantages of using hue images in the 3D-FSIC classification is given. 相似文献
13.
传统朴素贝叶分类算法没有根据特征项的不同对其重要程度进行划分,使得分类结果不准确。针对这一问题,引入Jensen-Shannon(JS)散度,用JS散度来表示特征项所能提供的信息量,并针对JS散度存在的不足,从类别内与类别间的词频、文本频以及用变异系数修正过的逆类别频率这三个方面考虑,对JS散度进行调整修正,最后计算出每一特征项的权值,将权值带入到朴素贝叶斯的公式中。通过与其他算法的对比实验证明,基于JS散度并从词、文本、类别三方面改进后的朴素贝叶斯算法的分类效果最好。因此基于JS散度特征加权的朴素贝叶斯分类算法与其他分类算法相比,其分类性能有很大提高。 相似文献
14.
特征选择是文本分类的关键步骤之一,所选特征子集的优劣直接影响文本分类的结果.分析了词频法和文档频法并总结了其缺陷,给出了一个改进的文档频方法;引进粗糙集理论,提出了一个属性约简算法;最后提出了一个新的特征选择方法.该特征选择方法使用改进的文档频初选特征并用所提属性约简算法消除冗余.仿真结果表明该特征选择方法性能较好. 相似文献
15.
针对极深神经网络图像超分辨率重建过程中,存在图像特征提取少、信息利用率低,平等处理高、低频信息通道的问题,提出了残差卷积注意网络的图像超分辨率重建算法。构造多尺度残差注意块,最大限度地提高网络提取到多尺寸特征信息,引入通道注意力机制,增强高频信息通道的表征能力。引入卷积注意块的特征提取结构,减少高频图像细节信息的丢失。在网络的重建层,引入全局跳远连接结构,进一步丰富重建的高分辨率图像信息的流动。实验结果表明,所提算法在Set5等基准数据集上的PSNR、SSIM比其他基于深度卷积神经网络的方法均明显提升,验证了提出方法的有效性与先进性。 相似文献
16.
17.
We analyze some spatial frequency-based features used for text region detection in natural scene images, and redefine the
DCT-based feature. We employ Fisher’s discriminant analysis to improve the DCT-based feature and to achieve higher accuracy.
An unsupervised thresholding method for discriminating text and non-text regions is introduced and tested as well. Experimental
results show that a wide high frequency band, covering some lower-middle frequency components, is generally more suitable
for scene text detection despite the original definition of the DCT-based feature. 相似文献
18.
特征选择是文本分类的关键步骤之一,所选特征子集的优劣直接影响文本分类的结果。在分析词频方法和文档频方法不足的基础上提出了特征辨别能力,把元信息引入粗糙集并提出了一个基于元信息的属性约简算法,给出了一个综合性特征选择方法。该方法利用特征辨别能力进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,使用所提属性约简算法消除冗余,从而获得较具代表性的特征子集。实验结果表明:所提特征选择方法在一定程度上具有一定的优势。 相似文献
19.
基于谱特征的模拟与数字调制方式识别方法 总被引:1,自引:0,他引:1
提出一种基于谱特征的模拟与数字调制方式自动识别算法,从信号的包络平方谱中提取单频分量检测值作为特征参数,对模拟与数字调制方式进行自动分类.仿真结果表明,在信噪比大于3 dB时识别率达990%以上.该算法不需要先验知识,计算简单,对数字调制信号的滚降系数不敏感,具有较强的实用性. 相似文献
20.
自动文本分类特征选择方法研究 总被引:4,自引:4,他引:4
文本分类是指根据文本的内容将大量的文本归到一个或多个类别的过程,文本表示技术是文本分类的核心技术之一,而特征选择又是文本表示技术的关键技术之一,对分类效果至关重要。文本特征选择是最大程度地识别和去除冗余信息,提高训练数据集质量的过程。对文本分类的特征选择方法,包括信息增益、互信息、X^2统计量、文档频率、低损降维和频率差法等做了详细介绍、分析、比较研究。 相似文献