首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
基于反馈信息的特征权重调整方法   总被引:2,自引:1,他引:1       下载免费PDF全文
训练集的分布对文本分类质量有重要影响。该文对两类文本分类中的数据集偏斜问题进行研究,提出一种基于反馈信息的特征权重调整方法,该方法综合考虑正确分类和错误分类的文本数来调整词的权重,以降低训练过程中对小类别的不公平待遇。实验结果表明,该方法有效地解决了数据集偏斜对文本分类的影响,分类质量得到提高。  相似文献   

2.
文本分类中数据集的不均衡问题是一个在实际应用中普遍存在的问题。从特征选择优化和分类器性能提升两方面出发,提出了一种组合的不均衡数据集文本分类方法。在特征选择方面,综合考虑特征项与类别的正负相关特性及类别区分强度对传统CHI统计特征选择方法予以改进。在数据层上,采用数据重取样方法对不均衡训练语料的不平衡性过滤减少其对分类性能的影响。实验结果表明该方法对不均衡数据集上文本可达到较好分类效果。  相似文献   

3.
KNN算法在数据挖掘的分支-文本分类中有重要的应用。在分析了传统KNN方法不足的基础上,提出了一种基于关联分析的KNN改进算法。该方法首先针对不同类别的训练文本提取每个类别的频繁特征集及其关联的文本,然后基于对各个类别文本的关联分析结果,为未知类别文本确定适当的近邻数k,并在已知类别的训练文本中快速选取k个近邻,进而根据近邻的类别确定未知文本的类别。相比于基于传统KNN的文本分类方法,改进方法能够较好地确定k值,并能降低时间复杂度。实验结果表明,文中提出的基于改进KNN的文本分类方法提高了文本分类的效率和准确率。  相似文献   

4.
不均衡数据集上文本分类的特征选择研究   总被引:3,自引:0,他引:3  
文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术.文本分类中数据集的不均衡问题是一个在实际应用中普遍存在的问题.如何在不影响整体分类性能的基础上,提高稀有类别的分类效果是解决不均衡数据集问题的基本要求.从特征选择的角度出发,提出选择具有较强类别信息的词条是提高稀有类别分类性能的关键.一般而言,具有较强类别信息的词条不是高频词,甚至有倾向于稀有词的趋势.提出了解决不均衡数据集问题的一个途径--构造形如DFICF的特征选择方法.在Reuters语料上进行实验,实验结果表明该特征选择方法的效果比IG,DF都要好,特别是在微平均指标上.从而表明该方法对稀有类别的分类效果有明显的改进.  相似文献   

5.
朴素贝叶斯分类方法由于其简单快速的特点,被广泛应用于文本分类领域。但是当训练集中各个类别的样本数据分布不均匀时,朴素贝叶斯方法分类精度不太理想。针对此问题,提出一种基于加权补集的朴素贝叶斯文本分类算法,该算法利用某个类别的补集的特征来表示当前类别的特征,且对特征权重进行归一化处理。通过实验对比了该方法与传统的朴素贝叶斯方法对文本分类效果的影响,结果表明,基于加权补集的朴素贝叶斯算法具有较好的文本分类效果。  相似文献   

6.
文本分类领域中,TF-IDF特征权重是一种常用的分类算法。本文介绍了TF-IDF特征权重算法,对于能够表征文本特征的文本特征词,常常按某一方法赋予相应的权重,表示它们对于区分文本类别的重要程度。但是在该算法中将训练集的文档看成一个整体来考虑,不能表示特征项与类别之间的关联特性。针对该弊端本文引进了x2统计量函数计算权重。实验结果表明改进的TF-IDF权重算法是可行的,同时也比较好地提高了分类器的性能。  相似文献   

7.
通过定义类别聚类密度、类别复杂度以及类别清晰度三个指标,从语料库信息度量的角度研究多种代表性的中文分词方法在隐含概率主题模型LDA下对文本分类性能的影响,定量、定性地分析不同分词方法在网页和学术文献等不同类型文本的语料上进行分类的适用性及影响分类性能的原因。结果表明:三项指标可以有效指明分词方法对语料在分类时产生的影响,Ik Analyzer分词法和ICTCLAS分词法分别受类别复杂度和类别聚类密度的影响较大,二元分词法受三个指标的作用相当,使其对于不同语料具有较好的适应性。对于学术文献类型的语料,使用二元分词法时的分类效果较好,F1值均在80%以上;而网页类型的语料对于各种分词法的适应性更强。本文尝试通过对语料进行信息度量而非单纯的实验来选择提高该语料分类性能的最佳分词方法,以期为网页和学术文献等不同类型的文本在基于LDA模型的分类系统中选择合适的中文分词方法提供参考。  相似文献   

8.
针对文本分类中传统特征选择方法卡方统计量和信息增益的不足进行了分析,得出文本分类中的特征选择关键在于选择出集中分布于某类文档并在该类文档中均匀分布且频繁出现的特征词。因此,综合考虑特征词的文档频、词频以及特征词的类间集中度、类内分散度,提出一种基于类内类间文档频和词频统计的特征选择评估函数,并利用该特征选择评估函数在训练集每个类别中选取一定比例的特征词组成该类别的特征词库,而训练集的特征词库则为各类别特征词库的并集。通过基于SVM的中文文本分类实验表明,该方法与传统的卡方统计量和信息增益相比,在一定程度上提高了文本分类的效果。  相似文献   

9.
KNN短文本分类算法通过扩充短文本内容提高短文本分类准确率,却导致短文本分类效率降低。鉴于此,通过卡方统计方法提取训练空间中各类别的类别特征,根据训练空间中各类别样本与该类别特征的相似情况,对已有的训练空间进行拆分细化,将训练空间中的每个类别细化为多个包含部分样本的训练子集;然后针对测试文本,从细化后的训练空间中提取与测试文本相似度较高的类别特征所对应的训练子集的样本来重构该测试文本的训练集合,减少KNN短文本分类算法比较文本对数,从而提高KNN短文本分类算法的效率。实验表明,与基于知网语义的KNN短文本分类算法相比,本算法提高KNN短文本分类算法效率近50%,分类的准确性也有一定的提升。  相似文献   

10.
提出一种基于特征词句子环境的文本分类方法,介绍了创建分类规则的文本句子信息模型,比较详细地给出训练算法和语句聚集算法.该算法依据训练文本集的特征词句子环境,获取识别文本主题类别的特征词集合.最后给出了分类器性能的测试结果.  相似文献   

11.
机车空调逆变电源设计   总被引:1,自引:0,他引:1  
本文讨论的是机车空调逆变电源系统的设计与研究。该电源系统主要是由DC/DC的BOOST升压部分和DC/AC三相逆变部分两部分组成。DC/DC部分所得直流电压通过DC/AC部分逆变成三相交流电,供给空调机组工作。同时,为使电源系统能更可靠的运行,也设计了相应的故障检测、保护等辅助电路。  相似文献   

12.
介绍关于桥梁结构损坏状态评估专家系统,在讨论状态评估方法的基础上,重点介绍损坏状态评估因素关系树的建立及各因素状态的模糊表达式等,最后以桥面诊断过程为例介绍系统的构成及诊断流程图,知识表达方式,系统推理过程及工作流程。  相似文献   

13.
联合收割机脱粒滚筒恒速智能控制器设计   总被引:2,自引:0,他引:2  
研究了轴流式联合收割机的控制问题,给出了联合收割机脱粒滚筒的数学模型,介绍了基于模式识别的智能控制原理,建立了联合收割机脱粒滚筒恒速控制模型,设计了基于模式识别的智能恒速控制器.应用Matlab/Simulink进行了控制器仿真,其结果表明,将基于模式识别的智能控制应用于联合收割机脱粒滚筒的恒速控制,其过渡过程平稳、响应速度快、无超调、无振荡并且无稳态误差.  相似文献   

14.
讨论了几种实用的计算机辅助课表编排技术及在实际编排中的应用。应用分析表明,采用分批与或图搜索和分批优化的匈牙利算法相结合的方法,在计算机辅助课表编排中是行之有效的。  相似文献   

15.
The problem to find a 4-edge-coloring of a 3-regular graph is solvable in polynomial time but an analogous problem for 3-edge-coloring is NP-hard. To make the gap more precise, we study complexity of approximation algorithms for invariants measuring how far is a 3-regular graph from having a 3-edge-coloring. We show that it is an NP-hard problem to approximate such invariants with an error O(n1−ε), where n denotes the order of the graph and 0<ε<1 is a constant.  相似文献   

16.
根据课程表自动编排系统运行过程中的需求变化,应用敏捷软件开发思想重构系统,对系统再分析。  相似文献   

17.
本文介绍了发热量测定仪的结构、工作原理、硬件系统功能,阐述了应用铂电阻进行高精度温度测量的方法,系统用AT89C52单片机作为处理和控制芯片,该发热量测定仪性能符合水泥企业应用要求。  相似文献   

18.
张锐 《自动化应用》2014,(12):113-114
对国网宁夏电力检修公司宁安运维站近2年来一次设备喷涂PRTV用量的统计数据进行分析整理,得出各类一次设备按照标准要求喷涂PRTV时的用量估算值,并针对现存作业中存在的问题,提出相应解决方案。  相似文献   

19.
张政武 《图学学报》2011,32(2):132-137
利用图像坐标计算交比,就可能出现计算故障或者引起计算精度的下降,采用N矢量表示视平面上的点和直线,建立交比的N矢量计算公式;在此基础上,研究了纯平移运动汇集点的N矢量计算方法,该公式只需要知道纯平移运动一个空间点在3个时刻t1、t2、t3的投影点或者该点的N矢量m、N速度 ()tm 以及加速度 ()tm ,都可求出动点的汇集点。最后,通过举例分析和实验验证,证明该算法实用、可靠。  相似文献   

20.
用一种新的信息离散性量度法分析DNA序列的相似性。该法用DNA序列的子序列分布来描述DNA序列,从而充分考虑了DNA序列的信息。对不同的子序列长度,分析了11类不同生物的β-globin基因的第一个外显子的编码序列的相似性,结果表明,该法是分析DNA序列相似性的简单而有效的工具。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号