首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
基于自适应隶属度函数的特征选择   总被引:2,自引:0,他引:2  
Neuro-fuzzy (NF) networks are adaptive fuzzy inference systems (FIS) and have been applied to feature selection by some researchers. However, their rule number will grow exponentially as the data dimension increases. On the other hand, feature selection algorithms with artificial neural networks (ANN) usually require normalization of input data, which will probably change some characteristics of original data that are important for classification. To overcome the problems mentioned above, this paper combines the fuzzification layer of the neuro-fuzzy system with the multi-layer perceptron (MLP) to form a new artificial neural network. Furthermore, fuzzification strategy and feature measurement based on membership space are proposed for feature selection.Finally, experiments with both natural and artificial data are carried out to compare with other methods, and the results approve the validity of the algorithm.  相似文献   

2.
探讨基于体裁的中文网页分类的特征项选取问题.词汇特征方面,结合自动抽取和人工归纳的方式来获得.通过改进PAT树存储结构,进行序列挖掘来获得频繁字符串特征,使得文本分类系统摆脱对切词处理和词典的依赖,并提出了模糊字符串模式的特征表达方式.此外,特征集中融入了文本的形式特征,并根据网页的特点,引入链接信息特征.实现了基于体裁的中文网页分类系统,结果表明分类效果得到了有效的改善.  相似文献   

3.
文本知识发现:基于信息抽取的文本挖掘蝌   总被引:9,自引:0,他引:9  
In the general context of Knowledge Discovery, Knowledge Discovery in Text (KDT), which uses TextMining techniques to extract and induce hidden knowledge from unstructured text data, surges in the data and naturallanguage processing research. KDT is a multi-discipline of Artificial Intelligence, Machine learning, Natural Lan-ing with a stressing on its IE (Information Extraction)-based induction and specific sublanguage fields oriented prac-tices.  相似文献   

4.
刘殊 《计算机应用》2009,29(6):1582-1589
针对阴性选择算法缺乏高效的分类器生成机制和“过拟合”抑制机制的缺陷,提出了一种面向多类别模式分类的阴性选择算法CS-NSA。通过引入克隆选择机制,根据分类器的分类效果和刺激度对其进行自适应学习;针对多类别模式分类的“过拟合”问题,引入了检测器集合的修剪机制,增强了检测器的分类推广能力。对比实验结果证明:与著名的人工免疫分类器AIRS相比,CS-NSA体现出更高的正确识别率。  相似文献   

5.
从信息论的角度,提出了一种新的文本分类模型.该模型以文本提供的关于类别的信息作为分类依据,从另一个角度来思考文本分类问题.从实用性的角度来看,该模型与传统的朴素贝叶斯模型和基于KL距离的中心向量法具有一定的关系,并给出了证明.根据广义信息论的基本概念,又对此模型进行推广,提出了特征权重的概念,可以通过修正特征权重来修正文本分类模型,为成功解决文本分类模型的修正问题提供了理论基础.  相似文献   

6.
随着网络信息的迅猛发展,信息处理已经成为人们获取有用信息不可缺少的工具,文本自动分类系统是信息处理的重要研究方向.对文本分类关键技术中的特征选择算法进行了探讨,并结合网页特性,对特征权重算法及互信息算法进行了改进.实验结果证明,改进算法是可行的.  相似文献   

7.
统计句法分析建模中基于信息论的特征类型分析   总被引:2,自引:0,他引:2  
统计句法分析利用概率评价模型评价每棵选句法树存在的可能性,选择概率值最高的候选句法树作为最终的句法分析结果。因此,统计句法分析的核心是一个概率评价模型,而各种概率评价模型的本质区别主要在于它们分别是根据上下文中的哪些特征来赋予句法树概率的。在统计句法分析研究领域,虽然已经提出了大量的概率评价模型,然而,不同的模型用得到了不同类型的特征,如何评价这些特征类型对于句法分析的作用呢?针对以上的问题,本研究为统计句法分析提出了一种特征类型的分析模型,该模型可以从信息论的角度量化地分析不同类型的上下文特征对于句法结构的预测作用。其基本思想是利用信息论中熵与条件熵的度量来显示一个特征类型是否抓住了预测句法结构的主要信息。如果加入某个特征类型之后当前句法结构的不确定性(熵)明显下降,则认为该特征类型抓住了上下文中影响句法结构的某些主要信息。特征类型分析的信息论模型利用预测信息量、预测信息增益、预测信息关联度以及预测信息总量四种度量从不同的仙量化地分析各种特征类型及特征类型组合对于当前目标的预测作用。实验以Penn TreeBank为训练集,将上下文中不同的特征类型对于句法分析规则的预测作用进行了系统的量化分析,得出了一系列有关不同特征类型及特征类型组合对句法结构的预测作用的结论。  相似文献   

8.
基于模糊粗糙集的肿瘤分类特征基因选取   总被引:2,自引:0,他引:2  
依据基因表达谱有效建立肿瘤分类模型的关键在于,准确找出决定样本类剐的一组特征基因.粗糙集理论作为一种新的软计算方法能够保持在原数据集的分类能力不变的基础上,对属性极大约简,从大量基因中找到对分类有效的基因.由于基因表达谱数据集的连续性,为了避免运用粗糙集方法所必需的离散化过程带来的信息丢失,尝试将模糊粗糙集应用于特征基因的选取,提出了基于互信息的模糊粗糙集属性约简算法,运用于基因表达谱数据集的基因选取.然后分别采用KNN和C5.0分类器进行特征基因分类性能进行检验.以急性白血病亚型(leukemia Microarray)和直肠癌(colon Microarray)分类特征基因选取为例进行实验,结果表明了上述方法的可行性和有效性.  相似文献   

9.
刘兆赓  李占山  王丽  王涛  于海鸿 《软件学报》2020,31(5):1511-1524
特征选择作为一种重要的数据预处理方法,不但能解决维数灾难问题,还能提高算法的泛化能力.各种各样的方法已被应用于解决特征选择问题,其中,基于演化计算的特征选择算法近年来获得了更多的关注并取得了一些成功.近期研究结果表明,森林优化特征选择算法具有更好的分类性能及维度缩减能力.然而,初始化阶段的随机性、全局播种阶段的人为参数设定,影响了该算法的准确率和维度缩减能力;同时,算法本身存在着高维数据处理能力不足的本质缺陷.从信息增益率的角度给出了一种初始化策略,在全局播种阶段,借用模拟退火控温函数的思想自动生成参数,并结合维度缩减率给出了适应度函数;同时,针对形成的优质森林采取贪心算法,形成一种特征选择算法EFSFOA(enhanced feature selection using forest optimization algorithm).此外,在面对高维数据的处理时,采用集成特征选择的方案形成了一个适用于EFSFOA的集成特征选择框架,使其能够有效处理高维数据特征选择问题.通过设计对比实验,验证了EFSFOA与FSFOA相比在分类准确率和维度缩减率上均有明显的提高,高维数据处理能力更是提高...  相似文献   

10.
胡包钢  赫然  哀晓彤 《自动化学报》2012,38(7):1169-1182
基于信息论度量而系统性地研究了拒识分类中客观评价问题. 定义了客观评价度量为一类无自由参数描述的函数. 该定义是为了从技术上可以简单地判别度量或评价在“客观性”或“主观性”中的归属. 建议了应用并考察24个信息度量. 它们分别来自于互信息、散度、交叉熵的定义. 不同于传统的性能类度量是基于经验公式或用户直觉上的定义, 信息类度量是构建在更为普适的理论基础上. 该类度量可以对二值分类中的“误差类别”与“拒识类别”进行区分, 而不需求人们输入代价信息. 针对拒识分类评价中更为关注的需求, 提出了三个“元度量(meta-measure)”用于考察度量. 由此用户可以在更高知识层面上测评度量的各自优缺点. 应用数值实例比较了24个信息度量. 对其中最优的信息度量进行了在“误差”与“拒识”代价性质方面的解析分析.  相似文献   

11.
分类问题的一种可伸缩特征选择算法   总被引:4,自引:0,他引:4  
张巍  邹翔  吴晓如 《计算机学报》2005,28(7):1223-1229
特征选择是数据挖掘分类中的一个重要问题.该文推导出一种新的衡量特征与类别相关度的测度SCD即描述特征取值序列类分布的CV系数,利用该测度给出一种线性的可伸缩特征选择算法StaFSOS,并证明了在类别数为2时,SCD测度满足分支界限法的单调性;给出了StaFSOS的一个完备形式——BBStaFS.在12个标准数据集中,StaFSOS算法得出的结果和目标集几乎一致,而StaFSOS的效率高于其它算法;而在另1个中,BBStaFS算法得出了准确结果.在用1000个样本20个特征的真实数据进行的测试中,StaFSOS运行时间是目前较快的GRSR的1/2,得出的特征集准确有效.  相似文献   

12.
张彪  刘贵全 《计算机工程》2010,36(22):184-186
提出一种在选取特征时考虑特征与特征之间联系的算法。对特征词之间的关联关系进行挖掘,找出那些对类别有重要影响的特征词组,而这些特征词组中的每个单词在传统单独打分策略的特征选择算法中很可能会因分值过低而被丢弃。在Ruters21578、20Newsgroup文本数据集上进行实验,将算法与广泛应用的特征选择算法(信息增益、CHI等)进行对比、分析。实验结果表明该方法是一种有特点、有效的特征选择方法。  相似文献   

13.
针对在数据挖掘过程中存在的维度灾难和特征冗余问题,本文在传统特征选择方法的基础上结合强化学习中Q学习方法,提出基于强化学习的特征选择算法,智能体Agent通过训练学习后自主决策得到特征子集.实验结果表明,本文提出的算法能有效的减少特征数量并有较高的分类性能.  相似文献   

14.
不平衡情感分类中的特征选择方法研究   总被引:1,自引:0,他引:1  
随着网络的发展,情感分类任务受到广大研究人员的密切关注。针对情感分类中的不平衡数据分布和高维特征问题,该文比较研究了四种经典的特征选择方法在不平衡情感分类中的应用。同时,该文提出了三种不同的特征选择模式并实验比较了这三种模式在分类和降维性能方面的表现。实验结果表明在不平衡数据的情感分类任务中,特征选择方法能够在不损失分类效果的前提下显著降低特征向量的维度。此外,特征选择方法中信息增益(IG)结合“先随机欠采样后特征选择”模式能够取得最佳的分类效果。  相似文献   

15.
潘锋  王建东  顾其威  牛奔 《计算机工程》2012,38(9):197-198,201
针对数据挖掘与模式识别领域中的高维数据处理问题,通过分析样本类间距离与类内距离,给出一种基于图理论的特征排序框架。根据该框架,提出使用类内-类间和K近邻相似度定义的2种快速特征选择算法,能避免复杂度较高的广义特征分解过程。实验结果表明,该算法具有较高的分类精度。  相似文献   

16.
近年来微博中出现一些炒作账户采用违规手段开展网络公关活动,严重扰乱了正常的互联网秩序,然而传统炒作账户识别方法主要依靠人工分析,其效率低下且不适用于对海量账户进行识别。针对上述问题,提出一种改进的微博炒作账户识别方法,从账户状态、历史微博以及账户邻居3个方面对炒作账户的特征进行分析,构建炒作账户特征集,并利用数据挖掘中的朴素贝叶斯、支持向量机及K最近邻分类等算法对正常账户和炒作账户进行自动分类。实验结果表明,该方法能有效识别微博中的炒作账户,准确率高达95%。  相似文献   

17.
王俊红  赵彬佳 《计算机工程》2021,47(11):100-107
不平衡分类问题广泛存在于医疗、经济等领域,对于不平衡数据集分类,特别是高维数据分类时,有效的特征选择算法至关重要。然而多数特征选择算法未考虑特征协同的影响,导致分类性能下降。对FAST特征选择算法进行改进,并考虑特征的协同作用,提出一种新的特征选择算法FSBS。运用AUC对特征进行评估,以相互增益衡量协同作用大小,选出有效特征,进而对不平衡数据进行分类。实验结果表明,该算法能有效地选择特征,尤其在特征数量较少的情况下可保持较高的分类准确率。  相似文献   

18.
特征选择是文档分类中常见的预处理工作,通过对文档特征空间降维,可以提高文档的分类性能。针对多数特征选择算法不考虑特征词共现关系的问题,该文提出了一种利用关联特征来增强文档分类性能的方法,针对特征扩展后产生的高维向量空间设计了一种快速冗余特征去除和选择算法,以满足实际应用中对增强特征分类性能和执行效率的需要。实验采用朴素贝叶斯网作为分类器,从特征降维效果、分类性能以及算法执行效率等方面与其他算法进行了比较。  相似文献   

19.
本文在基于粗糙集理论的最小差异表MDL上,使用增量方式构造了与MDL相类似的简单差异矩阵SDM,以SDM近似约简集为起点对属性子集空间进行前向搜索,提出了一种基于粗糙集的混合特征选择算法。该算法大大提高了特征选择的效率和准确性,适用于数据挖掘的预处理过程。  相似文献   

20.
特征选择是数据挖掘和机器学习等领域内重要的预处理步骤,近年来得到了广泛的关注。文本数据的高维性往往会影响分类等数据挖掘任务的效率,因此特征选择常被作为文本分类过程中的重要组成部分,以达到降维的目的。随着分类技术的快速发展,类别的日益细化,文本的多类分类问题为特征选择方法提出了更多的挑战。本文面向文本多类分类的应用背景,阐述了目前特征选择方法所面临的主要挑战,给出了多分类特征选择方法的主要种类。本文沿着相关研究的发展路线,由易至难,由浅入深,通过对目前多分类特征选择算法的应用情况进行总结,并进行综述评论,最后对全文进行了概括,提出了未来可能的研究方向。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号