首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 234 毫秒
1.
网络新闻自动分类已经成为当下的热点问题,SVM分类算法是文本分类中应用较为成熟的一种方法.文章针对SVM文本分类中特征选择和核函数选择的两个重要问题,在新闻文本实验环境下进行了探讨,结果表明使用互信息特征选择法且特征数在4000左右,使用SIGMOID核函数的情况下准确率与召回率均可达到97%的分类效果.  相似文献   

2.
文本分类中改进型互信息特征选择的研究   总被引:5,自引:2,他引:3  
互信息是文本分类中常用的特征选择方法.提出了一种新的基于互信息的特征选择方法.首先分析了特征选择影响文本分类精度的因素,将这些因素组合起来表征特征对于分类的强弱,并用公式直观地表示由组合因素计算出的特征值,根据这些值得大小选择对分类影响大的特征.最后理论证明了其可行性,并通过实验证明了该方法在提高分类精度方面比传统方法提高了10%.  相似文献   

3.
提出了一种基于特征选择和特征抽取的混合型文本特征降维方法.通过一种改进的优势率方法进行初次特征选择,将文本表示为以类别属性为行向量的矩阵形式;再使用一种改进的最大散度差特征抽取方法进行二次特征抽取.在最大限度减少信息损失的前提下实现了文本特征的二次降维.对中文文本的分类实验结果表明,提出的特征降维方法具有良好的分类效果.  相似文献   

4.
一种基于数据偏斜的改进KNN文本分类   总被引:2,自引:1,他引:1  
KNN是一种简单、有效、非参数的分类算法.针对样本分布偏斜的分类环境,首先提出了一种改进的特征选择方法进行特征降维,在此基础上进一步提出了一种基于分布的改进KNN方法用于文本分类,降低了分布偏斜问题对决策函数的影响.试验表明,所提出的改进KNN文本分类方法具有较好的分类性能.  相似文献   

5.
一种基于改进K-means聚类的文本特征选择模型   总被引:2,自引:1,他引:1  
介绍了文本聚类中基于划分的方法,针对该算法对孤立点的过于敏感问题,提出了一种用于特征选择的算法改进模型,通过对特征集里孤立点的剔除改善了特征聚类效果.随后的文本分类试验表明,提出的改进的算法具有较好的特征选择效果,文本分类的效率较高.  相似文献   

6.
豆增发 《现代导航》2014,5(3):214-218
为了在文本数据中选择有效的文本特征,本文提出一种新的基于改进二进制粒子群优化的特征选择算法,该算法利用翻转角度,局部翻转因子和全局翻转因子来决定粒子群的进化,通过求解目标函数的最优解,得到二进制特征选择系数,选择特征选择系数为1的特征为有效特征。实验证明,该方法不仅有效地降低了运算开销,而且提高了文本分类的准确度。  相似文献   

7.
陈圣  熊钦 《电子设计工程》2012,20(18):142-144,147
为了实现对模式识别、信号处理等领域中数据的有效表达,提出了一种基于规范互信息和动态冗余信号识别技术的特征选择方法。该方法采用规范互信息对特征相关性和冗余性进行测量,并通过一种动态冗余信号识别技术在特征全集中进行冗余特征的筛选。分类实验结果表明所提特征选择方法性能优于典型的特征选择方法。  相似文献   

8.
《现代电子技术》2019,(17):177-179
针对平台中文本信息的分类管理问题,提出一种基于半监督支持向量机的图书馆微信公众号内容分类方法,以便实现面向不同用户群体的分类信息推送。首先,利用基于统计的分词方法对微信公众平台中图书服务文本进行预处理,并采用互信息和期望交叉熵作为特征选择方法;然后,采用半监督支持向量机作为分类器完成文本信息的分类。实验结果表明,在查准率和查全率等性能评估指标方面,提出的方法具有较好的分类效果。  相似文献   

9.
关键帧提取技术是视频分析和检索的关键技术之一。提出一种基于互信息量的关键帧提取的新方法,把关键帧提取问题建模为一个多目标规划数学模型,可以同时解决提取关键帧的数量和位置两个主要问题。并且采用了图像信息熵和互信息量作为特征参数参与启发式算法的评价函数,可快速有效地进行子镜头的分割和关键帧的提取。实验证明该方法能较好地提取出视频序列的关键帧。  相似文献   

10.
文本分类中特征选择方法研究   总被引:2,自引:0,他引:2  
对四种特征选择方法:互信息、信息增益、x2统计和期望交叉熵作了简要的介绍,并且结合KNN分类算法,使用查全率、查准率、宏平均和微平均对四种特征选择方法分别进行评估,提出并讨论了互信息修正的两种方法.  相似文献   

11.
刘洺辛  陈晶  王麒媛 《电信科学》2018,34(10):85-95
提出了结合情感词典的改进信息增益特征选择方法。首先,针对现有的信息增益特征选择存在注重特征词的文档频率而忽视语料均衡等问题,提出了改进方法。其次,考虑情感词对文本分类的影响,提出了基于情感词典的特征选择(information gain combining sentiment classification,IGSC)算法进行文本分类。该算法通过对文本情感词进行匹配并结合情感词赋权重,实现了特征降维并解决了文本数据稀疏影响分类性能的问题;最后,针对旅游评论数据集对所提出的特征选择方法进行了实验验证及分析。实验结果表明,本文提出的改进文本情感分类特征选择方法在分类准确率、召回率和F值方面均得到了提升,并且具有较好的分类稳定性。  相似文献   

12.
针对信息增益模型在文本分类中的不足之处,提出了一种基于灰关系与信息增益的文本分类算法.首先基于改进的χ2统计进行类别特征选择用于类内文本表示,提高类别中心向量的表示能力;其次针对IG模型对低频词赋权过大问题,提出了基于频数和位置的改进加权方法;最后提出了基于灰关系的文本相似度计算途径,改善了基于距离的相似度计算模式的不足.试验表明,此算法提高了文本分类效率.  相似文献   

13.
信息增益是文本分类中一种有效的特征项选择方法,针对垃圾邮件过滤中的特征项选择问题,提出了一种改进的信息增益方法提取特征词,并采用了最小风险贝叶斯的决策方法,最后在英文语料库上进行实验,实验结果表明改进后的方法降低了过滤器对合法邮件的误判。  相似文献   

14.
基于最小类差异的无关信息预处理算法   总被引:7,自引:0,他引:7       下载免费PDF全文
陈治平  林亚平  彭雅  王雷  童调生 《电子学报》2003,31(11):1750-1753
为了降低无关信息对文本分类精度的影响,提出了基于最小类差异的预处理算法.算法通过分析文本特征在类中的分布情况,将特征划分为三种类型,按照特征在各类间的分布差异,保留对分类有作用的单类特征与多类特征,而将类分布差异较小的一般特征进行过滤.实验结果表明,采用新算法进行分类预处理所得到的分类精度明显优于信息增益、互信息量等预处理算法.  相似文献   

15.
中文文本分类中的特征选择算法研究   总被引:34,自引:0,他引:34  
比较了文档频率、信息增益、互信息、X^2统计量、期望交叉熵、文本证据权以及几率比等7种常用于文本分类的特征选择算法。实验采用国家“八六三计划”中文文文本语料库和Rocchio分类器对以上的特征选择算法分别进行评估,测评结果表明,几率比法的性能优于其它特征选择算法。  相似文献   

16.
波段选择是重要的高光谱图像降维手段。为了达到降维的目的,提出结合K-L散度和互信息的无监督波段选择算法,并进行了理论分析和实验验证。首先选出信息熵最大的波段作为初始波段,然后将散度与互信息量的比值定义为联合散度互信息(KLMI)准则,选择KLMI值大且信息量也大的波段加入波段子集中,选出信息量大且相似度低的波段集合,最终利用k最近邻分类算法实现了基于最大方差主成分分析算法、聚类算法、互信息算法和本文中方法的真实高光谱数据分类实验。结果表明,本文中的算法总体分类精度和κ系数均达到0.8以上,高于其它算法;大多数地物的分类精度均得到提升,具有较好的分类性能。该算法是一种实用的高光谱图像降维算法。  相似文献   

17.
Feature selection is one of the important topics in text classification. However, most of existing feature selection methods are serial and inefficient to be applied to massive text data sets. In this ease, a feature selection method based on parallel collaborative evolutionary genetic algorithm is presented. The presented method uses genetic algorithm to select feature subsets and takes advantage of parallel collaborative evolution to enhance time efficiency, so it can quickly acquire the feature subsets which are more representative. The experimental results show that, for accuracy ratio and recall ratio, the presented method is better than information gain, x2 statistics, and mutual information methods; the consumed time of the presented method with only one CPU is inferior to that of these three methods, but the presented method is superior after using the parallel strategy.  相似文献   

18.
Battiti's mutual information feature selector (MIFS) and its variant algorithms are used for many classification applications. Since they ignore feature synergy, MIFS and its variants may cause a big bias when features are combined to cooperate together. Besides, MIFS and its variants estimate feature redundancy regardless of the corresponding classification task. In this paper, we propose an automated greedy feature selection algorithm called conditional mutual information‐based feature selection (CMIFS). Based on the link between interaction information and conditional mutual information, CMIFS takes account of both redundancy and synergy interactions of features and identifies discriminative features. In addition, CMIFS combines feature redundancy evaluation with classification tasks. It can decrease the probability of mistaking important features as redundant features in searching process. The experimental results show that CMIFS can achieve higher best‐classification‐accuracy than MIFS and its variants, with the same or less (nearly 50%) number of features.  相似文献   

19.
特征选择是目标分类的一项重要步骤,直接影响到分类器的设计和性能。本文利用实际水声目标辐射噪声数据,对遗传算法和互信息算法两种特征选择方法分别作了分析。在特征维数较大的情况下,两种方法都需要很长的计算时间,为此,提出一种遗传与互信息混合算法,旨在降低计算时间。最后,分类器用三种选择后的特征子集作为输入进行分类,并与任意选择的特征子集作为输入的分类结果作了比较。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号