首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 51 毫秒
1.
传统卷积神经网络文本分类模型全连接层参数过多易引发过拟合问题,为此,将图像分割中的全卷积思想首次引入字符级文本分类任务中,不仅避免了过拟合问题,而且通过卷积层替换全连接层减少了参数数量,从而加快了模型收敛速度。文本分类问题中单词、短语等层面的处理方式存在获取文本信息不充分的问题。使用字符级全卷积神经网络进行文本分类,充分获取文本信息,并在卷积池化层后添加局部响应归一化层(LRN),提高了模型的总体性能。通过使用多指标在测试数据集中进行模型评估,充分验证了该模型的有效性,与其他模型相比,提出的模型在二分类与多分类任务中具有更好的分类性能。  相似文献   

2.
由于短文本具有长度短、特征稀疏以及上下文依赖性强等特点,传统方法对其直接进行分类精度有限。针对该问题,提出了一种基于字符级嵌入的卷积神经网络(CNN)和长短时记忆网络(LSTM)相结合的神经网络模型进行短文本的分类。该模型同时包括了高速公路网络(Highway networks)框架,用于缓解深度神经网络训练时的困难,提高分类的准确性。通过对几种数据集的测试,结果表明提出的模型在短文本分类任务中优于传统模型和其他基于CNN的分类模型。  相似文献   

3.
文本分类中特征提取方法的比较与分析   总被引:4,自引:0,他引:4  
研究了在文本分类中,各种特征提取方法对分类效果的影响,比较了特征提取方法交叉熵(CE)、信息增益(IG)、互信息(MI)、及X2对文本分类器性能的影响,分析了这几种特征提取方法对SVM和KNN分类器性能的影响.  相似文献   

4.
特征的提取是文本分类中的关键技术,该文着重介绍了文本特征提取方法中的文档频率(DF)、信息增益(IG)、x2统计(CHI),该文通过实验对于以上三种特征提取方法进行了研究和比较,该结论对于今后研究特征选择方法对于英文作文自动评分的影响奠定了理论和实践基础。  相似文献   

5.
新的CDF文本分类特征提取方法   总被引:3,自引:0,他引:3  
对高维的特征集进行降维是文本分类过程中的一个重要环节.在研究了现有的特征降维技术的基础上.对部分常用的特征提取方法做了简要的分析,之后结合类间集中度、类内分散度和类内平均频度,提出了一个新的特征提取方法,即CDF方法.实验采用K-最近邻分类算法(KNN)来考查CDF方法的有效性.结果表明该方法简单有效,能够取得比传统特征提取方法更优的降维效果.  相似文献   

6.
随着信息技术的发展,文本信息数据正在爆炸式增长,从众多的文本数据中有效地获取有用信息是一个值得研究的问题。针对该任务提出基于层次特征提取的文本分类模型,考虑文本中句子级别的语义内容以及文本级别的语义内容,依次使用两种神经网络模型建模句子级的语义内容和文本级的语义内容,从而得到关于文本的全面特征,进而基于此特征对文本进行分类。实验结果表明,该方法能够更加准确地提取文本的特征,具有更高的分类准确度。  相似文献   

7.
文本分类的特征提取方法比较与改进   总被引:12,自引:0,他引:12  
文本的特征提取是文本分类过程中的一个重要环节,它的好坏将直接影响文本分类的准确率。该文介绍了词条的χ2统计方法(CHI)、词条与类别的互信息(MI)、信息增益(IG)、词条的期望交叉熵(CE)等文本特征提取方法,并对其取词策略进行了改进。为了对这些特征提取方法进行系统地比较,选择了三种代表性的分类器对《读卖新闻》文本数据库进行了分类实验。实验结果表明χ2统计方法具有最好的准确率,各种改进的特征提取方法都能提高文本分类的准确率。  相似文献   

8.
姜鹤  陈丽亚 《微机发展》2010,(3):17-19,23
随着互联网的迅速发展,面向重要网络媒体海量发布信息实现智能分类,对于网络信息监管、舆论引导工作有着深远的意义。文中针对在文本分类中的特征选取问题,描述了一种基于法矢量权重的特征评价和选取方法。将此方法与SVM学习算法进行结合,在路透社标准文本测试集上进行了对比评估。实验结果显示,此特征选取方法相对于传统的特征选取方法可以产生更优的分类性能。此特征提取方法提供一种有效的途径,在基本保持分类器性能的前提下显著地减少特征空间的维数,进而提升系统的资源利用效率。  相似文献   

9.
SVM文本分类中一种新的特征提取方法   总被引:1,自引:0,他引:1  
随着互联网的迅速发展,面向重要网络媒体海量发布信息实现智能分类,对于网络信息监管、舆论引导工作有着深远的意义。文中针对在文本分类中的特征选取问题,描述了一种基于法矢量权重的特征评价和选取方法。将此方法与SVM学习算法进行结合,在路透社标准文本测试集上进行了对比评估。实验结果显示,此特征选取方法相对于传统的特征选取方法可以产生更优的分类性能。此特征提取方法提供一种有效的途径,在基本保持分类器性能的前提下显著地减少特征空间的维数,进而提升系统的资源利用效率。  相似文献   

10.
针对单标签特征提取方法不能有效解决多标签文本分类的问题,文中提出融合主题模型(LDA)与长短时记忆网络(LSTM)的双通道深度主题特征提取模型(DTFEM).LDA与LSTM分别作为两个通道,通过LDA为文本的全局特征建模,利用LSTM为文本的局部特征建模,使模型能同时表达文本的全局特征和局部特征,实现有监督学习与无监督学习的有效结合,得到文本不同层次的特征提取.实验表明,相比文本特征提取模型,文中模型在多标签分类结果上的多项指标均有明显提升.  相似文献   

11.
二值文本分类中基于Bayes推理的特征选择方法   总被引:7,自引:0,他引:7  
针对二值文本分类算法中的特征选择问题,本文提出了基于贝叶斯推理的评估函数算法来替代常用的、以IG或MI为评估函数的算法;同时,提出了以评估函数值的累计贡献率表示置信度,并以此确定特征选择维度的可量化的方法.对比实验显示,本文提出的新方法具有简便易行、高效实用的优点,此算法不仅对文本分类问题,对其它各类二值分类问题中的特征选择方法研究也都具有很好的参考、借鉴价值.  相似文献   

12.
特征选择是文本分类技术中重要的处理步骤,特征词选择的优劣直接关系到后续文本分类结果的准确率。使用传统特征选择方法如互信息(MI)、信息增益(IG)、χ2统计量(CHI)等提取的特征词仍存在冗余。针对这一问题,通过结合词频-逆文档率(TF_IDF)和最大相关最小冗余标准(MRMR),提出了一种基于MRMR的特征词二次选取方法TFIDF_MRMR。实验结果表明,该方法可以较好地减少特征词之间的冗余,提高文本分类的准确率。  相似文献   

13.
提出一种针对层次分类的文本特征选择方法。先给出类别层次相关度的概念,并利用分类树和训练数据在不同层次上的概率分布进行计算,进而得到分类树中不同类别的重要性。最后基于前面的计算结果,计算每个特征对类别的识别能力,并选择识别能力大的特征组成用于分类的特征集合。实验表明该方法在选取的特征质量以及在accuracy、F1和micro-Precision等分类测度上均优于传统方法。  相似文献   

14.
特征选择在文本分类中是非常必要的,这是由于它可以使分类更加有效与准确。本文根据特征选择方法χ2统计方法的不足,对χ2统计进行改进,并在支持向量机分类算法上进行实验。实验结果表明改进的方法可以提高分类的准确度。  相似文献   

15.
中文特征词的选取是中文信息预处理内容之一,对文档分类有重要影响。中文分词处理后,采用特征词构建的向量模型表示文档时,导致特征词的稀疏性和高维性,从而影响文档分类的性能和精度。在分析、总结多种经典文本特征选取方法基础上,以文档频为主,实现文档集中的特征词频及其分布为修正的特征词选取方法(DC)。采用宏F值和微F值为评价指标,通过实验对比证明,该方法的特征选取效果好于经典文本特征选取方法。  相似文献   

16.
本文讨论了一种基于正交变换的文本特征降维方法.分析了基于特征选择和特征抽取的特征降维方法各自特点,借助矩阵的分解论证了基于Fisher准则函数的特征降维模式的原理与理论基础,讨论了PCA与SVD两种模式的相互关系.实验结果表明这种特征降维模式在文本分类的准确性方面效果较好.  相似文献   

17.
姜芳  李国和  岳翔 《计算机科学》2016,43(2):254-258
中文文本特征词选取是文本处理的重要方面,对文本分类有重要影响。现有的文本特征提取方法存在生成特征向量维数高、依赖训练集、忽略低频关键词等不足。利用《同义词词林》计算词语之间的语义距离,通过聚类算法筛选类别的主题相关词,最后通过信息增益算法从主题相关词中选取特征词。以宏F值和微F值为评价指标,通过有效性实验和对比实验表明,该方法的文本特征选取效果优于其他经典算法。  相似文献   

18.
基于相对词频的文本特征抽取方法   总被引:5,自引:0,他引:5  
评估函数对已定义类别以外的语料区分度相对较低的问题出发, 结合常用的停用词表功能, 提出了基于与统计量相关的相对词频作评估函数的改进模型。该模型结合了现代汉语词频统计结果, 使用相对词频选择特征词, 较好地区分了特定类别与类别外文本。实验结果验证了这种方法的可行性, 并且取得了较好的分类效果。  相似文献   

19.
文本分类中一种混合型特征降维方法   总被引:5,自引:1,他引:4       下载免费PDF全文
提出一种基于特征选择和特征抽取的混合型文本特征降维方法,分析基于选择和抽取的特征降维方法各自的特点,借助特征项的类别分布差异信息对特征集进行初步选择。使用一种新的基于PCA的特征抽取方法对剩余特征集进行二次抽取,在最大限度减少信息损失的前提下实现了文本特征的有效降维。对文本的分类实验结果表明,该特征降维方法具有良好的分类效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号