首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 265 毫秒
1.
在不均衡大数据集情况下,传统特征处理方法偏重大类而忽略小类,影响分类性能。该文提出了一种文本特征基因提取方法。首先,基于样本类别分布不均衡对特征选择的影响,给出了一种结合信息熵的CHI统计矩阵特征选择方法,以强化小类的特征;然后,在探究多维统计数据高阶相关性的基础上,采取独立成分分析手段,设计了文本特征基因提取方法,用以增强特征项的泛化能力;最后,将这两种方法相融合,实现了在不均衡大数据集下的文本特征基因提取新方法。实验结果表明,所提方法具有较好的早熟性及特征降维能力,在小类的分类效果上优于常见特征选择算法。  相似文献   

2.
针对文本训练集中各个类别的样本分布不均衡时,少数类别的特征会被多数类别的特征淹没的问题,提出一种属性加权补集的朴素贝叶斯文本分类算法,该算法使用属性加权改进补集朴素贝叶斯算法,使用TF-IDF算法计算特征词在当前文档中的权重;利用当前类别补集的特征表示当前类别的特征并结合特征词在文档中的权重,解决分类器容易倾向大类别而忽略小类别的问题。与传统的朴素贝叶斯及补集朴素贝叶斯算法进行对比实验,结果表明:在样本集分布不均衡时,改进算法的性能表现最优,分类准确率、召回率及G-mean性能分别可达82.92%、84.6%、88.76%。  相似文献   

3.
对网络流量数据进行分类时,由于网络流量具有多个类别,并且各类样本数量不均衡,故在利用机器学习进行分类时,会导致分类的模型的性能降低,致使样本被误分为样本数量多的类别,进而致使样本数量较少的类别(小类别)的召回率过低。针对该问题,提出一种基于卡方方法及对称不确定性网络流量特征选择方法。该方法首先计算特征与类之间的加权卡方值,选择卡方值较大的特征组成候选特征子集,然后根据特征与所有类之间的对称不确定性进一步筛选特征集。在Moore网络流量数据集上进行实验,得到的实验结果证明,通过该方法选择的特征对网络流量数据进行分类,在保证准确率高的前提下也得到了较高的小类召回率,减轻了数据不均衡问题带来的不良影响。  相似文献   

4.
不均衡问题中的特征选择新算法:Im-IG   总被引:2,自引:2,他引:0  
机器学习中各类别样本数目不等是普遍存在且备受关注的不均衡问题。广泛用于特征选择的信息增益IG(information gain)算法,在这类不均衡问题中的表现却极少被研究。本文在讨论IG算法在不同均衡度数据集上性能的基础上,提出了一种新的解决不均衡问题的特征选择算法Im-IG(imbalanced information gain)。Im-IG通过提高小类分布在信息熵计算中的权重,优先选入有利于小类正确分离的特征。在提升整体分类性能的同时,着眼于提高小类的正确率。在多个不均衡数据集上的实验结果表明,Im-IG算法能较好地解决IG算法在不均衡问题中的不适应性,是一种有效的不均衡问题特征选择算法。  相似文献   

5.
一种新的混合特征选择方法RRK   总被引:2,自引:1,他引:1  
提出一种新的基于包装方法和过滤器方法的混合特征选择算法RRK。该算法主要包括两个方面:①在特征预选阶段,提出一种基于ReliefF算法的特征加权算法NReliefF和降维算法DR,以实现特征加权并去掉不太重要的特征;②在特征选择阶段,把NReliefF算法和KNN算法结合起来,将预选特征作为输入,用分类正确率来选择最优特征。分别采用一个实际的乘员类型数据集和UCI上的imagine标准数据集进行了实验。实验结果表明,采用RRK后分类的效率和正确率都有明显提高。  相似文献   

6.
摘要:为提高处理文本相似度的效果,提出了一种基于相对熵度量文本差异的KNN算法.该算法首先对文本进行预处理(分字与删去停用字)和构建特征字字典; 然后计算训练集中所有文本特征字的概率,并组成训练集(特征字概率矩阵); 最后计算预测文本的特征字概率向量,并通过计算和统计K个预测文本与训练集文本间相对熵最小的文本类别个数后将数目最多的类别作为测试样本的类别.实验结果表明,该算法的分类效果不仅显著优于传统KNN、SVM、Decision Tree、朴素Bayes算法的分类效果,且在小样本数据情况下  相似文献   

7.
针对多源聚合下同时对齐域不变特征较困难而造成分类精度不高的问题, 提出基于自监督任务的多源无监督域适应法. 该方法引入旋转、水平翻转和位置预测3个自监督辅助任务, 通过伪标签性、语义信息的一致性对无标签数据进行自适应的对齐优化. 构建新的优化损失函数, 减少多域公共类别的分类差异. 针对类别不均衡的问题, 基于少样本大权重的原则, 定义动态权重参数, 提高模型的分类性能. 在公开的Office-31、Office-Caltech10 2种基准数据集上, 与现有的主流方法进行实验对比. 实验结果表明, 在类别均衡、不均衡2种情况下, 分类精度最高可以提高6.8%.  相似文献   

8.
针对目前垃圾短信日益猖獗的现象,研究了一种基于内容的垃圾短信过滤策略。对训练语料进行分词和统计,计算信息增益并通过选取信息增益较大的若干特征项实现特征降维。在短信分类器的设计上,依据朴素贝叶斯算法,进行改进,减小了个别特征项对判断结果的直接影响,使得分类策略更能综合所有特征项的影响因素。实验结果表明,该方法对于手机用户能取得较好的垃圾短信过滤效果。  相似文献   

9.
一种类内方差与相关度结合的特征选择算法   总被引:1,自引:0,他引:1  
为了解决现有特征选择算法没有同时考虑特征之间以及特征与类别之间的相关性,且存在计算量大、适用范围窄等问题,从均方误差最小的分类训练准则出发,并借鉴线性鉴别分析的思想,提出了一种类内方差与相关度结合的特征选择算法,并使用核方法将其推广到可以解决非线性分类的特征选择问题.该算法不仅同时考虑了样本特征之间以及特征与分类标号之...  相似文献   

10.
一种基于蚂蚁算法的移动自组网节能路由算法   总被引:1,自引:0,他引:1  
提出一种改进的蚂蚁算法用于移动自组网节能路由问题,以使网络的生存期尽量延长.算法中考虑了节点上电池剩余能量及剩余能量的方差,电池剩余能量方差反映了节点之间能量消耗的均衡程度.算法在蚂蚁选择路由时引入随机小概率变异策略,避免陷入局部最优解.同时算法在运行过程中设置了跳数限制,提供了一定的QoS保证.仿真计算表明,提出的节能路由算法节能效果明显,能进一步延长网络的生存期.  相似文献   

11.
在分析了传统特征选择方法构造的4项基本信息元素的基础上提出一种强类别信息的度量标准,并在此基础上,提出一种适用于不平衡文本的特征选择方法。该方法综合考虑了类别信息因子、词频因子,分别用于提高少数类和多数类类别分类精度。该方法在reuter-21578数据集上进行了实验,实验结果表明,该特征选择方法比IG、CHI方法都更好,不但微平均指标有一定程度的提高,而且宏平均指标也有一定程度的提高。  相似文献   

12.
中文文本分类的特征选取评价   总被引:9,自引:0,他引:9  
在对中文文本分类的特征选取方法进行综合评价的基础上,对目前比较流行的5种特征选取方法(文档频度DF、互信息MI、信息增益IG、x^2统计X^2、术语强度TS)进行评价,选用Naive Bayes作为文本分类器,对一个中文文本分类语料库进行分类评测.实验结果表明,DF和x^2的分类性能十分接近,处于较好水平;而TS分类性能稍差一些;IG和MI的分类性能与其他相比都有较大的差距.特别是在特征数目少的情况下,MI和IG的结果较差.在特征数目为1000时,MI的F1值为64.60%;IG为69.36%,而DF则达到87.01%.  相似文献   

13.
为了避免倾向于高频词的信息增益(information gain,IG)方法忽略各类别间的相似性特点,提出了一种基于特征分布的选择方法对IG进行修正,使真正拥有高类别区分信息的特征项被保留.同时,对最大期望值(expectation maximization,EM)算法的效率低下问题加以改进,将拥有较高后验类别概率的未标注文档逐步从未标注文档集转至已标注文档集,有效减少算法迭代次数.测试结果表明,基于特征分布的半监督学习方法在Reuter-21578和Epinion.com两个不同特点的数据集上都取得了较好的分类效果和性能.  相似文献   

14.
为了提高AdaBoost集成学习算法的数据分类性能,提出基于合群度-隶属度噪声检测及动态特征选择的改进AdaBoost算法. 综合考虑待检测样本与邻居样本的相似度及与不同类别样本集的隶属关系,引入合群度和隶属度的概念,提出新的噪声检测方法. 在此基础上,为了更好地选择那些能够有效区分错分样本的特征,在传统过滤器特征选择方法的基础上提出通用的结合样本权重的动态特征选择方法,以提高AdaBoost算法针对错分样本的分类能力. 以支持向量机作为弱分类器,在8个典型数据集上分别从噪声检测、特征选择及现有方法比较3个方面进行实验. 结果表明,所提算法充分考虑了噪声样本和样本权重对AdaBoost分类结果的影响,相对于传统算法在分类性能上获得显著提升.  相似文献   

15.
提出了一种用于排位特征变量的基于特征矩阵信息增益的无监督特征标注准则(IGC)及直接选择法(DS)、累积最大熵法(CEM)和最大信息增益法(IGM)3种新的特征过滤方法来降低聚类的复杂度.使用经典的QC或K-means聚类算法,在杆状病毒数据集(RSV)、混合血统白血病数据集(MLL)和急性白血病患者数据集(ALP)等3种不同的生物信息数据集上测试并对比了这些特征过滤方法和目前的偏差选择(VS)和基因修剃(GS)过滤方法对聚类结果的影响.试验结果表明,3种特征过滤方法在加速聚类过程及保持初始数据的聚类结构上都具有明显的优势.  相似文献   

16.
基于扩展情感词典及特征加权的情感挖掘方法   总被引:1,自引:1,他引:0  
针对情感分类中采用单一特征分类精度不高的问题,提出多特征加权的分类算法:根据扩展的情感词典计算每个词的情感倾向度,经CHI特征选择后,根据情感词的极性强度调整贝叶斯分类模型中该词的正负后验概率,在原值的基础上加上极性强度影响值。实验将该方法和其他3种单特征选择方法在酒店、影视等语料上的分类精度进行了对比,分类精度得到提升。实验结果表明,将词语的情感倾向度的特征融入到分类器中方法,在有效提高情感倾向性分类精度的同时降低了特征维数。  相似文献   

17.
基于双向匹配法和特征选择算法的中文分词技术研究   总被引:1,自引:0,他引:1  
传统的双向匹配算法虽然能够发现歧义现象,但是却不能解决歧义问题.为了更好地进行歧义消解,提出了一种基于双向匹配法和特征选择算法的中文分词技术,通过积累的语料库,设计并实现了一个基于两种方法的分词系统.该系统的实验结果表明,基于双向匹配法和特征选择算法的中文分词技术比传统方法的效果要好.  相似文献   

18.
深度神经网络在目标检测任务上需要训练大量的标签数据,然而在许多实际应用场景中标签数据难以获取。针对这一问题,提出了一种面向小样本目标检测的多阶段特征重分布算法(MSFR)。该算法通过对特征向量进行重分布变换,解决了小样本任务下源域数据和目标域数据分布不一致的问题;通过多阶段学习策略将源域知识逐步迁移到小样本目标任务中,进一步提高知识迁移效率。在VOC数据集上的大量实验表明,与现有小样本目标检测算法相比,该算法在不同任务上的精度最高提升了9.06%。该算法在大幅提高小样本目标域类别检测性能的同时,较大限度地保持了对源域类别的检测精度,具有较大的实用价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号