首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 421 毫秒
1.
一种文本特征选择方法的研究   总被引:2,自引:2,他引:0  
在文本分类中,对高维的特征集进行降维是非常重要的,不但可以提高分类精度和效率,也可以找出富含信息的特征子集.而特征选择是有效降低特征向量维数的一种方法.目前常用的一些特征选择算法仅仅考虑了特征词与类别间的相关性,而忽略了特征词与特征词之间的相关性,从而存在特征冗余,影响了分类效果.为此,在分析了常用的一些特征选择算法之后,提出了一种基于mRMR模型的特征选择方法.实验表明,该特征选择方法有助于提高分类性能.  相似文献   

2.
特征选择就是从特征集合中选择出与分类类别相关性强而特征之间冗余性最小的特征子集,这样一方面可以提高分类器的计算效率,另一方面可以提高分类器的泛化能力,进而提高分类精度。基于互信息的特征相关性和冗余性的评价准则,在实际应用中存在以下的问题:(1)变量的概率计算困难,进而影响特征的信息熵计算困难;(2)互信息倾向于选择值较多的特征;(3)基于累积加和的候选特征与特征子集之间冗余性度量准则在特征维数较高的情况下容易失效。为了解决上述问题,提出了基于归一化模糊互信息最大的特征评价准则,基于模糊等价关系计算变量的信息熵、条件熵、联合熵;利用联合互信息最大替换累积加和的度量方法;基于归一化联合互信息对特征重要性进行评价;基于该准则建立了基于前向贪婪搜索的特征选择算法。在UCI机器学习标准数据集上的多组实验,证明算法能够有效地选择出对分类类别有效的特征子集,能够明显提高分类精度。  相似文献   

3.
一种近似Markov Blanket最优特征选择算法   总被引:4,自引:0,他引:4  
特征选择可以有效改善分类效率和精度,传统方法通常只评价单个特征,较少评价特征子集.在研究特征相关性基础上,进一步划分特征为强相关、弱相关、无关和冗余四种特征,建立起Markov Blanket理论和特征相关性之间的联系,结合Chi-Square检验统计方法,提出了一种基于前向选择的近似Markov Blanket特征选择算法,获得近似最优的特征子集.实验结果证明文中方法选取的特征子集与原始特征子集相比,以远小于原始特征数的特征子集获得了高于或接近于原始特征集的分类结果.同时,在高维特征空间的文本分类领域,与其它的特征选择方法OCFS,DF,CHI,IG等方法的分类结果进行了比较,在20 Newsgroup文本数据集上的分类实验结果表明文中提出的方法获得的特征子集在分类时优于其它方法.  相似文献   

4.
刘云  肖雪  黄荣乘 《计算机与数字工程》2021,49(10):2048-2051,2117
在对文本进行分类时,大量的冗余特征会增加计算复杂度并降低分类的精度,因此需要对特征进行降维.论文提出了一种类依赖(CD)特征选择算法,通过训练集计算出所有文档的关联值(DR),根据类别,分别计算出对应类的阈值(CT),依次提取出大于阈值的文档中的最大特征,得到了对应类的特征向量,以确保每个类别都有不同数量的特征.仿真结果表明,与IG-PSO和GA两种特征选择算法相比,CD特征选择算法根据类别选择特征子集,使得分类的准确率和F1指标得到提升.  相似文献   

5.
特征选择是从原始数据集中去除无关的特征并选择良好的特征子集,可以避免维数灾难和提高学习算法的性能。为解决已选特征和类别动态变化(DCSF)算法在特征选择过程中只考虑已选特征和类别之间动态变化的信息量,而忽略候选特征和已选特征的交互相关性的问题,提出了一种基于动态相关性的特征选择(DRFS)算法。该算法采用条件互信息度量已选特征和类别的条件相关性,并采用交互信息度量候选特征和已选特征发挥的协同作用,从而选择相关特征并且去除冗余特征以获得优良特征子集。仿真实验表明,与现有算法相比,所提算法能有效地提升特征选择的分类准确率。  相似文献   

6.
介绍了基于辨识集的属性约简算法,把该属性约简算法同类别相关性结合起来,提出了一个综合的特征选择方法.该综合方法使用类别相关性进行特征初选,并用所提属性约简算法消除冗余.实验结果表明此种特征选择方法能够获得较具代表性的特征子集.  相似文献   

7.
针对原始病理图像经软件提取形态学特征后存在高维度,以及医学领域上样本的少量性问题,提出ReliefF-HEPSO头颈癌病理图像特征选择算法。该算法构建了多层次降维框架,首先根据特征和类别的相关性,利用ReliefF算法确定不同的特征权重,实现初步降维。其次利用进化神经策略(ENS)丰富二进制粒子群算法(BPSO)的种群的多样性,提出混合二进制进化粒子群算法(HEPSO)对候选特征子集完成最佳特征子集的自动寻找。与7种特征选择算法的实验对比结果证明,该算法能更有效筛选出高相关性的病理图像形态学特征,实现快速降维,以较少特征获得较高分类性能。  相似文献   

8.
在开放动态环境当中,特征是动态生成的,特征在不同时间戳内流入特征空间称为流特征.然而,在一些基于传统的邻域粗糙集流特征选择算法中,噪声点会对特征的依赖度计算造成影响.基于此,本文提出了基于抗噪声邻域粗糙集的在线流特征选择算法.首先,充分考虑噪声点的影响,定义一种抗噪声的邻域关系,并设计基于抗噪声邻域的依赖度计算公式.进一步,考虑到特征对不同类别所提供的信息不同,结合类别正域,提出了一种新的在线相关性分析方法和冗余分析方法.在8个数据集上的实验研究表明,所提算法得到的特征子集优于一些在线流特征选择算法.  相似文献   

9.
针对大量无关和冗余特征的存在可能降低分类器性能的问题,提出了一种基于近似Markov Blanket和动态互信息的特征选择算法。该算法利用互信息作为特征相关性的度量准则,并在未识别的样本上对互信息进行动态估值,利用近似Markov Blanket原理准确地去除冗余特征,从而获得远小于原始特征规模的特征子集。通过仿真试验证明了该算法的有效性。以支持向量机为分类器,在公共数据集UCI上进行了试验,并与DMIFS和ReliefF算法进行了对比。试验结果证明,该算法选取的特征子集与原始特征子集相比,以远小于原始特征规模的特征子集获得了高于或接近于原始特征集合的分类结果。  相似文献   

10.
分类问题普遍存在于现代工业生产中。在进行分类任务之前,利用特征选择筛选有用的信息,能够有效地提高分类效率和分类精度。最小冗余最大相关算法(mRMR)考虑最大化特征与类别的相关性和最小化特征之间的冗余性,能够有效地选择特征子集;但该算法存在中后期特征重要度偏差大以及无法直接给出特征子集的问题。针对该问题,文中提出了结合邻域粗糙集差别矩阵和mRMR原理的特征选择算法。根据最大相关性和最小冗余性原则,利用邻域熵和邻域互信息定义了特征的重要度,以更好地处理混合数据类型。基于差别矩阵定义了动态差别集,利用差别集的动态演化有效去除冗余属性,缩小搜索范围,优化特征子集,并根据差别矩阵判定迭代截止条件。实验选取SVM,J48,KNN和MLP作为分类器来评价该特征选择算法的性能。在公共数据集上的实验结果表明,与已有算法相比,所提算法的平均分类精度提升了2%左右,同时在特征较多的数据集上能够有效地缩短特征选择时间。所提算法继承了差别矩阵和mRMR的优点,能够有效地处理特征选择问题。  相似文献   

11.
提出了一种基于遗传编程和支持向量机的故障诊断模型。通过遗传编程对时域指标进行特征选择和提取,得到更能反映信号本质的特征信号,该特征信号可作为识别特征输入多类支持向量机,实现对模拟电路不同类型软故障的识别。实验结果表明,同传统时域指标相比,经过遗传选择和提取的特征对模拟电路的软故障具有更好的识别能力,进而提高了多类支持向量机的分类准确性。  相似文献   

12.
This paper introduces a novel enhancement for unsupervised learning of conditional Gaussian networks that benefits from feature selection. Our proposal is based on the assumption that, in the absence of labels reflecting the cluster membership of each case of the database, those features that exhibit low correlation with the rest of the features can be considered irrelevant for the learning process. Thus, we suggest performing this process using only the relevant features. Then, every irrelevant feature is added to the learned model to obtain an explanatory model for the original database which is our primary goal. A simple and, thus, efficient measure to assess the relevance of the features for the learning process is presented. Additionally, the form of this measure allows us to calculate a relevance threshold to automatically identify the relevant features. The experimental results reported for synthetic and real-world databases show the ability of our proposal to distinguish between relevant and irrelevant features and to accelerate learning, while still obtaining good explanatory models for the original database  相似文献   

13.
提出了一种基于遗传编程和支持向量机的故障诊断模型。通过遗传编程对时域指标进行特征选择和提取,得到更能反映信号本质的特征信号,该特征信号可作为识别特征输入多类支持向量机,实现对模拟电路不同类型软故障的识别。实验结果表明,同传统时域指标相比,经过遗传选择和提取的特征对模拟电路的软故障具有更好的识别能力,进而提高了多类支持向量机的分类准确性。  相似文献   

14.
目前特征选择方法中常用的特征相关性测度可有效评估两个特征之间的相关性,但却将特征孤立看待,没有考虑其它特征对它们相关性的影响。文中在整体考虑特征之间关系的前提下,提出用稀疏表示系数评估特征的相关性,它与现有特征相关性测度的不同之处在于可揭示特征在其它所有特征影响下与目标的相关性,反映特征间的相互影响。为验证稀疏表示系数评估特征相关性的有效性,在典型的高维小样本数据上,比较了Relief F方法及分别以稀疏表示系数、对称不确定性和皮尔森相关系数为相关性测度的特征选择方法选择的特征集的分类能力。实验结果表明文中方法选择的特征集的分类能力高且较稳定。  相似文献   

15.
针对传统的偏最小二乘法只考虑单特征的重要性以及特征之间存在冗余和多重共线性等问题,将特征之间的统计相关性引入到传统的偏最小二乘分析中,构造了一种基于特征相关的偏最小二乘模型。首先利用特征相关度对特征进行评估预选出特征组,然后将其放入偏最小二乘模型中进行训练,评估该特征组是否可取。结合前向贪心搜索策略依次评价候选特征,并选中使目标函数最小的候选特征加入到已选特征。分别采用麻杏石甘汤君药止咳、平喘和UCI数据集进行分析处理,实验结果表明,该特征选择方法能较好寻找较优的特征组。  相似文献   

16.
Feature selection plays an important role in data mining and pattern recognition, especially for large scale data. During past years, various metrics have been proposed to measure the relevance between different features. Since mutual information is nonlinear and can effectively represent the dependencies of features, it is one of widely used measurements in feature selection. Just owing to these, many promising feature selection algorithms based on mutual information with different parameters have been developed. In this paper, at first a general criterion function about mutual information in feature selector is introduced, which can bring most information measurements in previous algorithms together. In traditional selectors, mutual information is estimated on the whole sampling space. This, however, cannot exactly represent the relevance among features. To cope with this problem, the second purpose of this paper is to propose a new feature selection algorithm based on dynamic mutual information, which is only estimated on unlabeled instances. To verify the effectiveness of our method, several experiments are carried out on sixteen UCI datasets using four typical classifiers. The experimental results indicate that our algorithm achieved better results than other methods in most cases.  相似文献   

17.
基于粒子群优化算法和相关性分析的特征子集选择   总被引:3,自引:0,他引:3  
特征选择是模式识别与数据挖掘等领域的重要问题之一.针对此问题,提出了基于离散粒子群和相关性分析的特征子集选择算法,算法中采用过滤模式的特征选择方法,通过分析网络入侵数据中所有特征之间的相关性,利用离散粒子群算法在所有特征的空间里优化搜索,自动选择有效的特征子集以降低数据维度.1999 KDD Cup Data中IDS数据集的实验结果表明了提出算法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号