首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
特征选择算法对文本分类系统的精确度有很大影响,传统的信息增益特征选择算法通常会导致在指定类别中很少出现而在其他类别中频繁出现的特征被选择出来。为克服这一缺陷,在对传统算法和相关改进算法深入分析的基础上,引入特征分布差异因子、类内和类间加权因子的改进思路,提出一种基于特征分布加权的信息增益改进算法,并分别采用朴素贝叶斯和支持向量机两种分类算法进行实验。实验结果表明,该算法优于其他改进算法。  相似文献   

2.
信息增益方法从整个训练集角度进行特征赋权,该模式不适合构造类别特征向量.通过改进的朴素贝叶斯方法选择类别特征用于构造类别向量,再利用词频信息改进信息增益模型用于文本特征选择,改善了信息增益模型对于中频词信息利用不足问题,提出一种基于类别的文本特征加权改进模型.随后的文本分类试验表明,提出的加权模型相比较于传统的信息增益方法具有较好的文本分类效果.  相似文献   

3.
提高故障诊断能力对于确保水下机器人系统的稳定运行具有重要意义,故障分类是目前水下机器人故障诊断所面临的一个重要问题。针对水下机器人推进器系统数据特征,提出一种基于信息增益率的加权朴素贝叶斯故障分类算法。首先,计算故障训练样本的先验概率,将各属性的信息增益率作为权值;其次,构建基于增益率加权的朴素贝叶斯分类模型;然后,对检测的故障数据利用分类模型获取具有最大后验概率的故障模式,实现故障分类。与朴素贝叶斯算法和决策树算法相比,仿真实验结果表明基于信息增益率加权的朴素贝叶斯算法的分类成功率更高,能够有效地实现水下机器人的故障分类。  相似文献   

4.
针对物流新闻类别分布不均衡,分类器容易倾向大类别而忽略小类别的问题,提出基于加权补集的朴素贝叶斯分类模型.构建物流新闻语料库,结合卡方检验进行特征选择,基于局部、全局和类内、类间的思想,分析并改进传统特征加权算法,设计适用于类别分布不均衡物流新闻的加权补集朴素贝叶斯模型.实验结果表明,相较传统分类方法,加权补集朴素贝叶...  相似文献   

5.
传统串行贝叶斯算法在对大规模数据进行分类时,性能较低下.为此,在TFIDF(词频-逆向文件频率)特征加权基础上,提出ICF(逆类别因子)类别加权因子,对传统贝叶斯分类模型进行改进.利用MapReduce并行计算框架在处理海量数据方面的优势,设计并实现了一种对TFIDF改进的分布式朴素贝叶斯文本分类算法.实验结果表明,与传统分布式朴素贝叶斯算法和TFIDF加权的分布式朴素贝叶斯算法相比,改进后的分类算法在查准率、查全率、F-measure等方面都有了较大提高.  相似文献   

6.
针对传统朴素贝叶斯分类模型在入侵取证中存在的特征项冗余问题,以及没有考虑入侵行为所涉及的数据属性间的差别问题,提出一种基于改进的属性加权朴素贝叶斯分类方法。用一种改进的基于特征冗余度的信息增益算法对特征项集进行优化,并在此优化结果的基础上,提取出其中的特征冗余度判别函数作为权值引入贝叶斯分类算法中,对不同的条件属性赋予不同的权值。经实验验证,该算法能有效地选择特征向量,降低分类干扰,提高检测精度。  相似文献   

7.
基于类信息的文本特征选择与加权算法研究   总被引:3,自引:1,他引:2  
文本自动分类中特征选择和加权的目的是为了降低文本特征空间维数、去除噪音和提高分类精度。传统的特征选择方案筛选出的特征往往偏爱类分布不均匀文档集中的大类,而常用的TF·IDF特征加权方案仅考虑了特征与文档的关系,缺乏对特征与类别关系的考虑。针对上述问题,提出了基于类别信息的特征选择与加权方法,在两个不同的语料集上进行比较和分析实验,结果显示基于类别信息的特征选择与加权方法比传统方法在处理类分布不均匀的文档集时能有效提高分类精度,并且降维程度有所提高。  相似文献   

8.
朴素贝叶斯分类方法由于其简单快速的特点,被广泛应用于文本分类领域。但是当训练集中各个类别的样本数据分布不均匀时,朴素贝叶斯方法分类精度不太理想。针对此问题,提出一种基于加权补集的朴素贝叶斯文本分类算法,该算法利用某个类别的补集的特征来表示当前类别的特征,且对特征权重进行归一化处理。通过实验对比了该方法与传统的朴素贝叶斯方法对文本分类效果的影响,结果表明,基于加权补集的朴素贝叶斯算法具有较好的文本分类效果。  相似文献   

9.
基于特征加权的朴素贝叶斯分类器   总被引:13,自引:0,他引:13  
程克非  张聪 《计算机仿真》2006,23(10):92-94,150
朴素贝叶斯分类器是一种广泛使用的分类算法,其计算效率和分类效果均十分理想。但是,由于其基础假设“朴素贝叶斯假设”与现实存在一定的差异,因此在某些数据上可能导致较差的分类结果。现在存在多种方法试图通过放松朴素贝叶斯假设来增强贝叶斯分类器的分类效果,但是通常会导致计算代价大幅提高。该文利用特征加权技术来增强朴素贝叶斯分类器。特征加权参数直接从数据导出,可以看作是计算某个类别的后验概率时,某个属性对于该计算的影响程度。数值实验表明,特征加权朴素贝叶斯分类器(FWNB)的效果与其他的一些常用分类算法,例如树扩展朴素贝叶斯(TAN)和朴素贝叶斯树(NBTree)等的分类效果相当,其平均错误率都在17%左右;在计算速度上,FWNB接近于NB,比TAN和NBTree快至少一个数量级。  相似文献   

10.
基于属性加权的朴素贝叶斯分类算法   总被引:3,自引:0,他引:3       下载免费PDF全文
朴素贝叶斯分类是一种简单而高效的方法,但是它的属性独立性假设,影响了它的分类性能。通过放松朴素贝叶斯假设可以增强其分类效果,但通常会导致计算代价大幅提高。提出了属性加权朴素贝叶斯算法,该算法通过属性加权来提高朴素贝叶斯分类器性能,加权参数直接从训练数据中学习得到。权值可以看作是计算某个类的后验概率时,某属性取值对该类别的影响程度。实验结果表明,该算法可行而且有效。  相似文献   

11.
传统朴素贝叶分类算法没有根据特征项的不同对其重要程度进行划分,使得分类结果不准确。针对这一问题,引入Jensen-Shannon(JS)散度,用JS散度来表示特征项所能提供的信息量,并针对JS散度存在的不足,从类别内与类别间的词频、文本频以及用变异系数修正过的逆类别频率这三个方面考虑,对JS散度进行调整修正,最后计算出每一特征项的权值,将权值带入到朴素贝叶斯的公式中。通过与其他算法的对比实验证明,基于JS散度并从词、文本、类别三方面改进后的朴素贝叶斯算法的分类效果最好。因此基于JS散度特征加权的朴素贝叶斯分类算法与其他分类算法相比,其分类性能有很大提高。  相似文献   

12.
基于信息增益的文本特征权重改进算法   总被引:2,自引:0,他引:2       下载免费PDF全文
传统tf.idf算法中的idf函数只能从宏观上评价特征区分不同文档的能力,无法反映特征在训练集各文档以及各类别中分布比例上的差异对特征权重计算结果的影响,降低文本表示的准确性。针对以上问题,提出一种改进的特征权重计算方法tf.igt.igC。该方法从考察特征分布入手,通过引入信息论中信息增益的概念,实现对上述特征分布具体维度的综合考虑,克服传统公式存在的不足。实验结果表明,与tf.idf.ig和tf.idf.igc 2种特征权重计算方法相比,tf.igt.igC在计算特征权重时更加有效。  相似文献   

13.
文本表示是使用分类算法处理文本时必不可少的环节,文本表示方法的选择对最终的分类精度起着至关重要的作用。针对经典的特征权重计算方法TFIDF(Term Frequency and Inverted Document Frequency)中存在的不足,提出了一种基于信息熵理论的特征权重算法ETFIDF(Entropy based TFIDF)。ETFIDF不仅考虑特征项在文档中出现的频率及该特征项在训练集中的集中度,而且还考虑该特征项在各个类别中的分散度。实验结果表明,采用ETFIDF计算特征权重可以有效地提高文本分类性能,对ETFIDF与特征选择的关系进行了较详细的理论分析和实验研究。实验结果表明,在文本表示阶段考虑特征与类别的关系可以更为准确地表示文本;如果综合考虑精度与效率两个方面因素,ETFIDF算法与特征选择算法一起采用能够得到更好的分类效果。  相似文献   

14.
李欣倩  杨哲  任佳 《测控技术》2022,41(2):36-40
根据朴素贝叶斯算法的特征条件独立假设,提出一种基于互信息和层次聚类双重特征选择的改进朴素贝叶斯算法。通过互信息方法剔除不相关的特征,然后依据欧氏距离将删减后的特征进行分层聚类,通过粒子群算法得到聚类簇的数量,最后将每个聚类簇中与类别互信息最高的特征合并为特征子集,并由朴素贝叶斯算法得到分类准确率。根据实验结果可知,该算法可以有效减少特征之间的相关性,提升算法的分类性能。  相似文献   

15.
面对海量数据的管理和分析,文本自动分类技术必不可少。特征权重计算是文本分类过程的基础,一个好的特征权重算法能够明显提升文本分类的性能。本文对比了多种不同的特征权重算法,并针对前人算法的不足,提出了基于文档类密度的特征权重算法(tf-idcd)。该算法不仅包括传统的词频度量,还提出了一个新的概念,文档类密度,它通过计算类内包含特征的文档数和类内总文档数的比值来度量。最后,本文在两个中文常见数据集上对五种算法进行实验对比。实验结果显示,本文提出的算法相比较其他特征权重算法在F1宏平均和F1微平均上都有较大的提升。  相似文献   

16.
高明磊  张钟江  姬波 《计算机科学》2015,42(10):251-255
Pearson相关系数是一种衡量变量间线性关系的方法,广泛用于变压器中油中气体故障诊断(DGA)的范例推理匹配算法。但是,现有方法存在偏袒数据区间较大的特征以及认为所有特征对相关系数判定的贡献相同这两个问题。因此,在深入分析DGA色谱数据的基础上,提出采用对数特征变换方法缩小特征值域来解决偏袒大数据区间特征的问题,采用均方差特征赋权区分特征贡献度的方法进一步提高DGA故障检测效果,并构造了基于特征变换和特征权重的Pearson相关系数DGA诊断(FTW_Pearson)算法。实验结果表明,FTW_Pearson算法的DGA诊断正确率优于业界普遍使用的大卫三角形法、未考虑特征变换和权重的Pearson相关系数法以及贝叶斯算法和神经网络算法。  相似文献   

17.
特征加权是文本分类中的重要环节,通过考察传统的特征选择函数,发现互信息方法在特征加权过程中表现尤为突出。为了提高互信息方法在特征加权时的性能,加入了词频信息、文档频率信息以及类别相关度因子,提出了一种基于改进的互信息特征加权方法。实验结果表明,该方法比传统的特征加权方法具有更好的分类性能。  相似文献   

18.
特征权重学习是基于特征赋权的K近邻算法需要解决的重要问题之一,传统上提出了许多启发式的学习方法。近年来,随着进化计算技术在模式识别及数据挖掘领域的广泛应用,基于进化计算的权重学习和距离学习方法也得到越来越多的重视。本研究针对基于特征赋权的K近邻算法的权重学习问题,提出了一种基于PSO进行权重学习的算法PSOKNN,通过与传统KNN、GAKNN及ReliefKNN的实验比较分析表明,该方法可有效地搜索出合适的特征权重,获得较好的分类精度并淘汰冗余或无关的特征。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号