首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 841 毫秒
1.
一种改进的文本网页分类特征选择方法   总被引:6,自引:0,他引:6  
李粤  李星  刘辉  许静芳 《计算机应用》2004,24(7):119-121
网页分类是网络信息检索研究的关键技术之一。文中针对分类技术中的特征选择方法展开研究。在分析、比较常用的文本分类特征选择方法基础上,提出了一种联合特征选择方法。该方法将已有的X^2统计方法和互信息方法综合起来,在标准文本网贞数据集分类实验中,综合查全率和查准率得到明显的提高。该选择方法已应用于“网络指南针”系统大规模文本网页分类中。  相似文献   

2.
在分类任务中,特征选择是一种提高分类效果的重要方法。现实生活中的数据都是存储在多关系数据库中的。多关系数据库的数据中有许多不相关的且冗余的特征,这些特征对分类任务的贡献很小,甚至没有贡献。如何有效地将特征选择应用到多关系分类中是比较重要的。因此,将最大相关最小冗余的特征选择方法应用到多关系分类中,对关系数据库中的每个关系表进行特征选择,选择出对分类影响较好的特征集,再用多关系朴素贝叶斯分类算法对进行特征选择后的多关系数据库进行分类测试。实验结果表明了该算法的性能有了一定的提高。  相似文献   

3.
基于粗糙集的特征选择方法的研究   总被引:1,自引:1,他引:0  
文本自动分类是指将文本按照一定的策略归于一个或多个类别中的应用技术。文本分类是文本挖掘的基础,而特征选择又是文本分类中的核心。论文分析了以前特征选择方法中由于特征数目过多而造成分类时间和精度不高的缺点,提出了一种基于粗糙集的特征选择方法,其特点是以特征在文本分类中的重要性对特征进行选择。最后通过实验验证了该算法,证明该方法是可行的。  相似文献   

4.
基于多特征选择的中文文本分类   总被引:1,自引:0,他引:1  
自动文本分类就是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。特征选择作为文本分类中的关键,困难之一是特征空间的高维性,因此寻求一种有效的特征选择方法,降低特征空间的维数,成为文本分类中的重要问题。在分析已有的文本分类特征选择方法的基础上,实现了一种组合不同特征选择方法的多特征选择方法,应用于KNN文本分类算法,实验表明,多特征选择方法分类效果比单一的特征选择方法分类效果有明显的提高。  相似文献   

5.
文本分类是将自由文本自动划分到若干预先定义类别的方法,在信息检索等领域有很重要的作用。其中,如何选择有效的文本特征是影响文本分类器分类性能的一个重要步骤 。很多应用中需要处理的文本信息包含了很多的命名实体,如某个行业的名人,往往能够在很大程度上影响着文本所属的类别。然而,现阶段的文本特征方法都只利用关键词
词的统计意义,而没有考虑关键词作为命名实体所含有的分类特征。针对这一问题,本文提出了一种将命名实体识别方法NER集成到文本分类特征选择中的方法,在保留关键 词统计特征之外,还保留了单词作为命名实体的分类特征。实验结果表明,相对于其他特征选择方法而言,本文提出的方法在一定程度上提高了文本分类的分类准确率。  相似文献   

6.
特征选择是中文文本分类过程中的一个关键环节,文本特征项选择的优劣将直接影响文本分类的准确率。针对传统的特征选择算法没有考虑到特征项的类别区分度在特征选择中的作用而丧失了一些优秀的特征项的问题,文中通过引入特征项的类别区分度对传统的特征选择算法进行改进。实验结果表明,改进方法的分类效果要好于传统方法,从而验证了改进方法的有效性和可行性。  相似文献   

7.
流特征选择算法在深度流检测技术中发挥着重要作用,数据流的正确识别和分类都需要选择流特征,通过这些流特征在业务流中的差异区分业务流类型。当前基于信息度量的特征选择算法在整个样本空间中计算特征的信息熵,没有将特征选择过程中的动态变化信息加入计算,因此不能准确地度量特征选择过程中各个特征之间的相互关系程度,冗余信息的存在影响特征选择结果,导致分类算法性能降低。提出一种改进的动态特征选择算法,该算法基于信息标准,充分考虑特征选择过程中信息标准的动态变化,通过删除由信息动态变化导致的冗余及无用信息,避免动态选择过程的干扰,达到准确并高效选择特征的目的。实验数据说明,提出的动态流特征选择算法的分类性能比当前其他选择算法较好。  相似文献   

8.
针对文本检索中的特征提取和分类问题,提出一种基于内嵌空间支持向量机的特征选择和排序学习方法。与多分类特征选择问题中常用的组合方法不同,本文提出的方法能将一个有序分类问题转化为一个两分类问题,从整体上选择最有效的特征。同时与已有的Ranking SVM相比,该方法在转换过程中学习样本的数量只有线性级的增长,从而大大提高了检索的速度。在人工数据集和标准的文本分类数据集上的实验结果表明,本文所提出的方法能较好地解决文本检索中的特征选择和排序问题。  相似文献   

9.
唐小川  邱曦伟  罗亮 《计算机应用》2018,38(7):1857-1861
针对文本分类中的特征选择问题,提出了一种考虑特征之间交互作用的文本分类特征选择算法——Max-Interaction。首先,通过联合互信息(JMI),建立基于信息论的文本分类特征选择模型;其次,放松现有特征选择算法的假设条件,将特征选择问题转化为交互作用优化问题;再次,通过最大最小法避免过高估计高阶交互作用;最后,提出一个基于前向搜索和高阶交互作用的文本分类特征选择算法。实验结果表明,Max-Interaction比交互作用权重特征选择(IWFS)的平均分类精度提升了5.5%,Max-Interaction比卡方统计法(Chi-square)的平均分类精度提升了6%,Max-Interaction在93%的实验中分类精度高于对比方法,因此,Max-Interaction能有效利用交互作用提升文本分类特征选择的性能。  相似文献   

10.
不平衡情感分类中的特征选择方法研究   总被引:1,自引:0,他引:1  
随着网络的发展,情感分类任务受到广大研究人员的密切关注。针对情感分类中的不平衡数据分布和高维特征问题,该文比较研究了四种经典的特征选择方法在不平衡情感分类中的应用。同时,该文提出了三种不同的特征选择模式并实验比较了这三种模式在分类和降维性能方面的表现。实验结果表明在不平衡数据的情感分类任务中,特征选择方法能够在不损失分类效果的前提下显著降低特征向量的维度。此外,特征选择方法中信息增益(IG)结合“先随机欠采样后特征选择”模式能够取得最佳的分类效果。  相似文献   

11.
赵宇  陈锐  刘蔚 《计算机科学》2016,43(8):177-182, 215
考虑将特征选择集成到支持向量机分类器中,提出集成特征选择的最优化支持向量机分类器——FS-SDP-SVM(Feature Selection in Semi-definite Program for Support Vector Machine)。该模型将每个特征分别在核空间中做特征映射,然后通过参数组合构成新的核矩阵,将特征选择过程与机器分类过程统一在一个优化目标下,同时达到特征选择与分类最优。在特征筛选方面,根据模型参数提出用于特征筛选的特征支持度和特征贡献度,通过控制二者的上下限可以在最优分类和最少特征之间灵活取舍。实证中分别将最优分类(FS-SDP-SVM1)和最少特征(FS-SDP-SVM2)两类集成化特征选择算法与Relief-F、SFS、SBS算法在UCI机器学习数据和人造数据中进行对比实验。结果表明,提出的FS-SDP-SVM算法在保持较好泛化能力的基础上,在多数实验数据集中实现了最大分类准确率或最少特征数量;在人工数据中,该方法可以准确地选出真正的特征,去除噪声特征。  相似文献   

12.
张莉  陈恭和 《计算机工程》2007,33(4):184-186
研究训练样本重要特征选择问题,提出了一种适合大规模数据集的特征选择方法。在不同的样本空间中利用特征相似性和浮动搜索方法的思想选择特征,基于互信息和分类准确度加权选择分类器,提出了基于Bagging选择性组合算法来提高特征选择算法稳定性。采用KDD Cup’99中的入侵检测数据对算法性能进行了验证。  相似文献   

13.
孙辉  许洁萍  刘彬彬 《计算机应用》2015,35(6):1753-1756
针对不同特征向量下选择最优核函数的学习方法问题,将多核学习支持向量机(MK-SVM)应用于音乐流派自动分类中,提出了将最优核函数进行加权组合构成合成核函数进行流派分类的方法。多核分类学习能够针对不同的声学特征采用不同的最优核函数,并通过学习得到各个核函数在分类中的权重,从而明确各声学特征在流派分类中的权重,为音乐流派分类中特征向量的分析和选择提供了一个清晰、明确的结果。在ISMIR 2011竞赛数据集上验证了提出的基于多核学习支持向量机(MKL-SVM)的分类方法,并与传统的基于单核支持向量机的方法进行了比较分析。实验结果表明基于MKL-SVM的音乐流派自动分类准确率比传统单核支持向量机的分类准确率提高了6.58%,且该方法与传统的特征选择结果比较,更清楚地解释了所选择的特征向量对流派分类的影响大小,通过选择影响较大的特征组合进行分类,分类结果也有了明显的提升。  相似文献   

14.
中文文本分类中的特征选择研究   总被引:14,自引:0,他引:14  
有多种特征选择算法被用于文本自动分类,YimingYang教授曾针对英文文本分类中的特征选择做过深入的研究,并得出结论:IG和CHI方法效果相对较好.考虑到该结论不一定适合对中文文本的分类,对中文文本分类中的特征选择方法进行研究,采用了包含500篇新闻的中文语料库对几种特征选择算法进行测试,结果表明:在测试的特征选择算法中,χ2估计方法无需因训练集的改变而人为调节特征阀值,并且分类准确率较高.  相似文献   

15.
邮件分类是当前研究的一个热点问题,而如何进行邮件特征选择,是邮件分类中的重要问题。在介绍几种常用的邮件分类的特征选择算法的同时,提出了将非搜索型算法FCBF与搜索型算法SFS结合的特征选择方法。实验验证了该方法的有效性和可行性,能够有效提高分类器的准确率。  相似文献   

16.
提出了一种基于线性规划分类器的相关反馈方法.所设计的线性规划分类器将特征选择和分类学习结合起来,使其不仅能在利用用户标注的小样本条件下进行实时训练,而且能根据样本对分类的贡献程度选择用户反馈中的敏感特征,从而能在相关反馈小样本训练条件下有效捕捉用户的反馈意图.针对草图检索的实验结果验证了所提出方法在相关反馈中的有效性.  相似文献   

17.
董梅  胡学钢 《微机发展》2007,17(7):117-119
自动文本分类就是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。特征选择作为文本分类中的关键,困难之一是特征空间的高维性,因此寻求一种有效的特征选择方法,降低特征空间的维数,成为文本分类中的重要问题。在分析已有的文本分类特征选择方法的基础上,实现了一种组合不同特征选择方法的多特征选择方法,应用于KNN文本分类算法,实验表明,多特征选择方法分类效果比单一的特征选择方法分类效果有明显的提高。  相似文献   

18.
由于人类语言的复杂性,文本情感分类算法大多都存在因为冗余而造成的词汇量过大的问题。深度信念网络(DBN)通过学习输入语料中的有用信息以及它的几个隐藏层来解决这个问题。然而对于大型应用程序来说,DBN是一个耗时且计算代价昂贵的算法。针对这个问题,提出了一种半监督的情感分类算法,即基于特征选择和深度信念网络的文本情感分类算法(FSDBN)。首先使用特征选择方法(文档频率(DF)、信息增益(IG)、卡方统计(CHI)、互信息(MI))过滤掉一些不相关的特征从而使词汇表的复杂性降低;然后将特征选择的结果输入到DBN中,使得DBN的学习阶段更加高效。将所提算法应用到中文以及维吾尔语中,实验结果表明在酒店评论数据集上,FSDBN在准确率方面比DBN提高了1.6%,在训练时间上比DBN缩短一半。  相似文献   

19.
产品属性的自动抽取是情感分析中的重要研究内容.文中提出一种基于特征选择和词频及点互信息剪枝的产品属性提取方法.首先引入在分类任务中常用的l1-norm正则化(Lasso)方法,将产品属性抽取问题转换为分类中的特征选择问题,利用Lasso生成稀疏模型的特性,将模型中少量的特征作为产品特征属性候选集.然后根据候选特征属性集中的特征属性在文本中出现的频率进行排序并剪枝.最后经过进一步合并和点互信息剪枝处理,得到最终的产品属性集.在中文产品评论集上的实验证实文中方法的有效性.  相似文献   

20.
对于现有的多源自适应学习方案无法有效区分多个源域中的有用信息并迁移至目标域的问题,提出一种具有特征选择的多源自适应分类框架(MACFFS),并将特征选择和共享特征子空间学习整合到统一框架中进行联合特征学习。具体来说,MACFFS将来自多个源域的特征数据投影至不同的潜在空间中来学习得到多个源域分类模型,实现目标域的分类。然后,将得到的多个分类结果进行整合用于目标域分类模型的学习。此外,框架还利用L2,1范数稀疏回归代替传统的基于L2范数的最小二乘回归来提高鲁棒性。最后,把多种现有方法在两项任务中与MACFFS进行实验比较分析。实验结果表明,与现有方法中表现最好的DSM相比,MACFFS节省了接近1/4的计算时间,并且提升了大约2%的识别率。总的来说,MACFFS结合了机器学习、统计学习等相关知识,为多源自适应方法提供了一个新的思路,且该方法在现实场景下的识别应用中比现有方法具有更好的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号