首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 74 毫秒
1.
在文本分类中,特征空间维数通常高达几万,甚至远远超出训练样本的个数,这是一种十分普遍的现象。为了提高文本挖掘算法的运行速度,降低占用的内存空间,提出了一种基于优化的模拟退火算法的特征选择方法。在该方法中,为避免遗失当前最优解,增加了记忆功能,将当前最好的状态记忆下来,从而使得模拟退火算法成为一种智能化算法;设计了一个自适应温度更新函数,并设置双阈值使得在尽量保持最优性的前提下减少计算量,从而较快地获得较具代表性的特征子集。实验结果表明该方法是有效的。  相似文献   

2.
随着网络的发展,大量的文档数据涌现在网上,自动文本分类已经成为处理和组织大量文档数据的关键技术.其困难之一是特征空间的高维性,因此寻求一种有效的特征选择方法,降低特征空间的维数,成为文本分类中的重要问题.本文结合了多种特征选择方法,提出一种基于差值思想的多特征选择算法,并应用于KNN文本分类算法,实验表明,本文提出的特征选择算法能进一步提高分类性能.  相似文献   

3.
基于类信息的文本聚类中特征选择算法   总被引:2,自引:0,他引:2  
文本聚类属于无监督的学习方法,由于缺乏类信息还很难直接应用有监督的特征选择方法,因此提出了一种基于类信息的特征选择算法,此算法在密度聚类算法的聚类结果上使用信息增益特征选择法重新选择最有分类能力的特征,实验验证了算法的可行性和有效性。  相似文献   

4.
文本分类是根据未知文本的内容将其划分到一个或多个预先定义的类别的过程,是许多基于内容的信息管理任务的重要组成部分.文本分类问题的难点是特征空间的高维性,通常采用特征选择作为降维的重要方法.将属性约简和文本分类的特点相结合,提出了一种基于粗糙集的特征选择算法即改进的快速约简算法.实验表明该算法是有效的,不仅可以降低特征空间的维度,而且能够维持高精度.  相似文献   

5.
传统的ReliefF算法使用二值法不能体现离散特征差异大小,且不能去除冗余特征。针对这种情况提出了mRMR-ReliefF特征选择算法。该算法利用概率弥补特征差异度量上的不足,提出新的差异函数。此函数使提取出的特征更能体现文本的类内相关性和类间差异性。该算法还结合了词间相关性。词间相关性在考虑选择和类别相关性大的特征词的同时还考虑了特征冗余的消除。通过三种算法的对比实验,表明该算法为文本分类提供了更有效的特征子集。  相似文献   

6.
文本分类中基于基尼指数的特征选择算法研究   总被引:17,自引:3,他引:14  
随着网络的发展,大量的文档数据涌现在网上,用于处理海量数据的自动文本分类技术变得越来越重要,自动文本分类已成为处理和组织大量文档数据的关键技术.对于采用矢量空间模型(VSM)的大多数分类器来说,文本预处理成为分类的瓶颈,高维的特征空间对于大多数分类器来说是难以忍受的,因此采用适当的文本特征选择算法降低原始文本特征空间的维数成为文本分类的首要任务.目前也有很多的文本特征选择算法,介绍了另一种新的基于基尼指数的文本特征选择算法,使用基尼指数原理进行了文本特征选择的研究,构造了基于基尼指数的适合于文本特征选择的特征选择评估函数.实验表明,基于基尼指数的文本特征选择能进一步提高分类性能,而且计算复杂度小.  相似文献   

7.
董梅  胡学钢 《微机发展》2007,17(7):117-119
自动文本分类就是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。特征选择作为文本分类中的关键,困难之一是特征空间的高维性,因此寻求一种有效的特征选择方法,降低特征空间的维数,成为文本分类中的重要问题。在分析已有的文本分类特征选择方法的基础上,实现了一种组合不同特征选择方法的多特征选择方法,应用于KNN文本分类算法,实验表明,多特征选择方法分类效果比单一的特征选择方法分类效果有明显的提高。  相似文献   

8.
基于多特征选择的中文文本分类   总被引:1,自引:0,他引:1  
自动文本分类就是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。特征选择作为文本分类中的关键,困难之一是特征空间的高维性,因此寻求一种有效的特征选择方法,降低特征空间的维数,成为文本分类中的重要问题。在分析已有的文本分类特征选择方法的基础上,实现了一种组合不同特征选择方法的多特征选择方法,应用于KNN文本分类算法,实验表明,多特征选择方法分类效果比单一的特征选择方法分类效果有明显的提高。  相似文献   

9.
唐小川  邱曦伟  罗亮 《计算机应用》2018,38(7):1857-1861
针对文本分类中的特征选择问题,提出了一种考虑特征之间交互作用的文本分类特征选择算法——Max-Interaction。首先,通过联合互信息(JMI),建立基于信息论的文本分类特征选择模型;其次,放松现有特征选择算法的假设条件,将特征选择问题转化为交互作用优化问题;再次,通过最大最小法避免过高估计高阶交互作用;最后,提出一个基于前向搜索和高阶交互作用的文本分类特征选择算法。实验结果表明,Max-Interaction比交互作用权重特征选择(IWFS)的平均分类精度提升了5.5%,Max-Interaction比卡方统计法(Chi-square)的平均分类精度提升了6%,Max-Interaction在93%的实验中分类精度高于对比方法,因此,Max-Interaction能有效利用交互作用提升文本分类特征选择的性能。  相似文献   

10.
覆盖算法下文本分类特征选择的研究   总被引:1,自引:1,他引:0  
文本分类是信息检索和数据挖掘的基础,被广泛应用于网络数据挖掘及搜索引擎等方面.首先对文本进行分词,对分词的结果分别使用x2统计量(CHI)方法与相关系数法(CC法)进行降维,并使用维数调节的思想进行特征提取.在得到特征集后,使用覆盖算法作为文本分类器进行学习.实验结果表明,通过结合相关系数法、覆盖算法以及维数调节方法,可实现一个效果较好的文本分类器.  相似文献   

11.
陈欢  周永权  赵光伟 《计算机应用》2012,32(7):1958-1961
针对入侵杂草优化算法存在的早熟现象,提出一种基于混沌序列的多种群入侵杂草优化算法。首先,算法初始化时,利用混沌序列初始化种群提高初始解的质量;其次,在算法迭代过程中,若个体的聚集程度小于阈值时,再次用混沌序列重新初始化种群,使得算法迭代过程中能够有效地跳出局部极小;最后,将杂草种群分为5个种群协同合作,可有效地避免算法早熟现象,提高算法的寻优精度和收敛速度。通过对8个测试函数的测试,结果表明,所提算法获得最优值比基本入侵杂草优化算法精度提高了25%~300%;标准差提高了50%~100%。  相似文献   

12.
引入向量约简率和分类准确率的度量标准,采用量子比特对遗传算法进行编码,结合克隆算子,提出一种基于混合克隆量子遗传策略的文本特征选择方法。实验结果显示,该方法能有效地降低文本特征向量的维度,所提取的特征向量子集能有效提高文本分类的精度。  相似文献   

13.
在基于测距的无线传感器网络节点定位中,最小二乘法由于定位误差的累积,定位精度不高。针对该问题,提出了一种基于入侵杂草优化算法的定位方法。该算法以定位误差为适应度函数,将定位问题转换为求解非线性方程组最优化问题。在求解的过程中,利用未知节点到锚节点的距离和锚节点可信度对适应度函数进行修正,以实现更高精度的定位。仿真实验表明:改进的定位算法,在不同测距误差、不同通信半径、不同锚节点数和不同节点数下,都能得到更高的定位精度。  相似文献   

14.
Multi-objective optimization with artificial weed colonies   总被引:2,自引:0,他引:2  
Invasive Weed Optimization (IWO) was recently proposed as a simple but powerful metaheuristic algorithm for real parameter optimization. IWO draws inspiration from the ecological process of weeds colonization and distribution and is capable of solving general multi-dimensional, linear and nonlinear optimization problems with appreciable efficiency. This article extends the basic IWO for tackling multi-objective optimization problems that aim at achieving two or more objectives (very often conflicting) simultaneously. The concept of fuzzy dominance has been used to sort the promising candidate solutions at each iteration. The new algorithm has been shown to be statistically significantly better than some state of the art existing evolutionary multi-objective algorithms, namely NSGAIILS, DECMOSA-SQP, MOEP, Clustering MOEA, GDE3, and MOEADGM on a 12-function test-suite (including both unconstrained and constrained problems) from the IEEE CEC (Congress on Evolutionary Computation) 2009 competition and special session on multi-objective optimization algorithms. The following performance metrics were considered: IGD, Spacing, and Minimum Spacing. Our experimental results suggest that IWO holds immense promise to appear as an efficient metaheuristic for multi-objective optimization.  相似文献   

15.
特征加权是文本分类中的重要环节,通过考察传统的特征选择函数,发现互信息方法在特征加权过程中表现尤为突出。为了提高互信息方法在特征加权时的性能,加入了词频信息、文档频率信息以及类别相关度因子,提出了一种基于改进的互信息特征加权方法。实验结果表明,该方法比传统的特征加权方法具有更好的分类性能。  相似文献   

16.
基于方差的CHI特征选择方法*   总被引:1,自引:0,他引:1  
通过分析特征词与类别间的相关性,在原有的卡方特征选择的方法上增加三个调节参数,使选出的特征词集中分布在某一类,且在某一类中尽可能地均匀分布,并使特征词在某一类中出现的次数尽可能地多。通过实验对比改进前后的卡方特征选择方法,基于方差的卡方统计(Var-CHI)方法使得查全率和查准率都得到了明显的提高。  相似文献   

17.
针对文本数据中含有大量噪声和冗余特征,为获取更有代表性的特征集合,提出了一种结合改进卡方统计(ICHI)和主成分分析(PCA)的特征选择算法(ICHIPCA).首先针对CHI算法忽略词频、文档长度、类别分布及负相关特性等问题,引入相应的调整因子来完善CHI计算模型;然后利用改进后的CHI计算模型对特征进行评价,选取靠前...  相似文献   

18.
基于分形维数的属性约简算法与特征辨别能力相结合,提出了一个综合的特征选择方法.该方法利用特征辨别能力进行特征初选,过滤掉一些词条来降低特征空间的稀疏性,以利用所提约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明,此种特征选择方法效果良好.  相似文献   

19.
基于量子遗传算法的文本特征选择方法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
特征选择方法是文本自动分类中的一项关键技术,提出了一种基于量子遗传算法的文本特征选择新方法,该方法用量子比特对文本向量进行编码,用量子旋转门和量子非门对染色体进行更新,同时,针对信息过滤的特点,对适应度函数进行了改进,充分考虑了特征权值、文本相似度和向量维数等。实验证明,该方法可以极大地降低文本的维数,提高分类的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号