首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
基于改进的互信息特征选择的文本分类   总被引:1,自引:0,他引:1  
伍建军  康耀红 《计算机应用》2006,26(Z2):172-173
使用传统的互信息评估函数进行特征选择方法,得到的分类精度并不高.提出了一种考虑词频作用的互信息评估函数,并采用了K-近邻算法进行文本分类测试,通过分析测试结果,使用改进的互信息评估函数进行特征选择,提高了文本分类的精度.  相似文献   

2.
基于互信息的主成分分析特征选择算法   总被引:3,自引:0,他引:3  
主成分分析是一种常用的特征选择算法,经典方法是计算各个特征之间的相关,但是相关无法评估变量间的非线性关系.互信息可用于衡量两个变量间相互依赖的强弱程度,且不局限于线性相关,鉴于此,提出一种基于互信息的主成分分析特征选择算法.该算法计算特征间的互信息,以互信息矩阵的特征值作为评价准则确定主成分的个数,并衡量主成分分析特征选择的效果.通过实例对所提出方法和传统主成分分析方法进行比较,并以神经网络为分类器分析分类效果.  相似文献   

3.
宋哲理  王超  王振飞 《计算机科学》2018,45(Z11):468-473, 479
特征选择是文本分类的关键步骤,分类结果的准确度主要取决于选择得到的特征词的优劣。文中提出一种基于MapReduce的多级特征选择机制,一方面利用改进的CHI特征选择算法进行初次筛选,再通过互信息方法对初选结果进行噪声词过滤、优质特征词前置等操作;另一方面将本机制载入MapReduce模型中,以减少多级特征选择作用于海量数据的时间消耗。实验结果表明,该机制能在较短的时间内处理大规模数据,同时也提升了文本分类的精度。  相似文献   

4.
罗勇 《福建电脑》2009,25(4):82-83
特征选择是文本分类的重要环节,评估函数直接影响特征选择的质量,互信息是几种常用的评估函数之一。也是一种分类精度相对较低的特征选择方法。本文在分析传统互信息方法缺陷的基础上,提出了一个改进方案。改进了互信息的计算公式,在其中引入了频度因子和分散度因子,并通过理论和实验证明了这一改进的有效性。  相似文献   

5.
朱接文  肖军 《计算机应用》2014,34(9):2608-2611
针对大型数据中大量冗余特征的存在可能降低数据分类性能的问题,提出了一种基于互信息(MI)与模糊C均值(FCM)聚类集成的特征自动优选方法FCC-MI。首先分析了互信息特征及其相关度函数,根据相关度对特征进行排序;然后按照最大相关度对应的特征对数据进行分组,采用FCM聚类方法自动确定最优特征数目;最后基于相关度对特征进行了优选。在UCI机器学习数据库的7个数据集上进行实验,并与相关文献中提出的基于类内方差与相关度结合的特征选择方法(WCMFS)、基于近似Markov blanket和动态互信息的特征选择算法(B-AMBDMI)及基于互信息和遗传算法的两阶段特征选择方法(T-MI-GA)进行对比。理论分析和实验结果表明,FCC-MI不但提高了数据分类的效率,而且在有效保证分类精度的同时能自动确定最优特征子集,减少了数据集的特征数目,适用于海量、数据特征相关性大的特征约简及数据分析。  相似文献   

6.
一种核心子集选择训练的大规模中文网页分类方法   总被引:1,自引:0,他引:1  
针对Web页面分类方法一般只能处理小规模数据的问题,提出一种核心子集选择训练的大规模中文网页分类方法.该方法通过将支持向量机的最优化求解问题转化为等价的近似最小闭包球求解问题,使得只需选择数据集的核心子集参与分类器训练;并且,在特征选择阶段采用改进的基于词性的互信息特征选择模型,有效提高Web页面分类的大规模数据处理能力.在搜狗实验室提供的大规模Web页面数据集上进行了实验,实验结果表明不仅准确率可达到支持向量机同等的效果,且训练时间大大减少;而对不均衡类别数据的测试结果表明,该方法在处理不均衡类别数的Web网页分类上也能获得很好的效果.  相似文献   

7.
为提高对发酵过程中质量变量的预测精度,解决发酵数据非线性的问题,提出一种基于核二次互信息回归的质量预测模型.将非线性过程数据核映射至高维特征空间,使其线性可分;基于高维特征空间,使用Renyi二次熵与二次互信息定义目标函数提取过程特征,建立过程特征与质量变量间的回归模型;二次互信息可衡量变量间的非线性关系.仿真实验及大肠杆菌发酵生产数据的实验结果表明,该方法具有较高质量预测精度,对非线性数据有较强处理能力.  相似文献   

8.
在高维数据如图像数据、基因数据、文本数据等的分析过程中,当样本存在冗余特征时会大大增加问题分析复杂难度,因此在数据分析前从中剔除冗余特征尤为重要。基于互信息(MI)的特征选择方法能够有效地降低数据维数,提高分析结果精度,但是,现有方法在特征选择过程中评判特征是否冗余的标准单一,无法合理排除冗余特征,最终影响分析结果。为此,提出一种基于最大联合条件互信息的特征选择方法(MCJMI)。MCJMI选择特征时考虑整体联合互信息与条件互信息两个因素,两个因素融合增强特征选择约束。在平均预测精度方面,MCJMI与信息增益(IG)、最小冗余度最大相关性(mRMR)特征选择相比提升了6个百分点;与联合互信息(JMI)、最大化联合互信息(JMIM)相比提升了2个百分点;与LW向前搜索方法(SFS-LW)相比提升了1个百分点。在稳定性方面,MCJMI稳定性达到了0.92,优于JMI、JMIM、SFS-LW方法。实验结果表明MCJMI能够有效地提高特征选择的准确率与稳定性。  相似文献   

9.
新型快速中文文本分类器的设计与实现   总被引:1,自引:0,他引:1       下载免费PDF全文
为了提高中文文本分类的效率与精度,设计了一种新型的分类器。该分类器采用基于词频、互信息和类别信息的综合评估函数进行选择特征;在特征权重计算上,由于传统TF-IDF方法没有考虑特征类间和类内分布,提出了一种将词频和综合评估函数值相结合的权重计算方法;最后设计了一种基于贝叶斯原理的快速分类器。实验证明该分类器简单有效。  相似文献   

10.
生态位因子分析方法是一种基于生态位概念的多变量分析方法,然而该方法在计算相关性时所使用的协方差只考虑了变量间的线性关系,而大部分变量间的关系是非线性相关的.互信息可用于衡量两个变量间相互依赖的强弱程度,且不局限于线性相关.本文提出基于互信息的生态位因子分析方法,采用互信息计算变量间的相关性,分析斑头雁在青海湖地区的栖息地选择情况以及栖息地适宜性,与传统生态位因子分析方法相比,所提出的方法改变了特化向量,提高了栖息地适宜性预测的准确率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号