首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
随着互联网的不断发展,网络上的文本数据日益增多,如果能对这些数据进行有效分类,那么更有利于从中挖掘出有价值的信息,因此文本数据的管理和整合显得十分重要。文本分类是自然语言处理任务中的一项基础性工作,主要应用于舆情检测及新闻文本分类等领域,目的是对文本资源进行整理和归类。基于深度学习的文本分类,在对文本数据处理中,表现出较好的分类效果。本文对用于文本分类的深度学习算法进行详细阐述,按照深度学习的不同算法进行分类,并分析各种算法的特点,最后对深度学习算法在文本分类领域的未来研究方向进行总结。  相似文献   

2.
情感分析是自然语言处理领域的重要研究问题。现有方法往往难以克服样本偏置与领域依赖问题,严重制约了情感分析的发展和应用。为此,该文提出了一种基于深度表示学习和高斯过程知识迁移学习的情感分析方法。该方法首先利用深度神经网络获得文本样本的分布式表示,而后基于深度高斯过程,从辅助数据中迁移与测试集数据分布相符的高质量样例扩充训练数据集用于分类器训练,以此提高文本情感分类系统性能。在COAE2014文本情感分类数据集上进行的实验结果显示,该文提出的方法可以有效提高文本情感分类性能,同时可以有效缓解训练数据的样本偏置以及领域依赖问题的影响。  相似文献   

3.
随着深度学习技术的快速发展,许多研究者尝试利用深度学习来解决文本分类问题,特别是在卷积神经网络和循环神经网络方面,出现了许多新颖且有效的分类方法。对基于深度神经网络的文本分类问题进行分析,介绍卷积神经网络、循环神经网络、注意力机制等方法在文本分类中的应用和发展,分析多种典型分类方法的特点和性能,从准确率和运行时间方面对基础网络结构进行比较,表明深度神经网络较传统机器学习方法在用于文本分类时更具优势,其中卷积神经网络具有优秀的分类性能和泛化能力。在此基础上,指出当前深度文本分类模型存在的不足,并对未来的研究方向进行展望。  相似文献   

4.
文本分类作为自然语言处理中一个基本任务,在20世纪50年代就已经对其算法进行了研究,现在单标签文本分类算法已经趋向成熟,但是对于多标签文本分类的研究还有很大的提升空间。介绍了多标签文本分类的基本概念以及基本流程,包括数据集获取、文本预处理、模型训练和预测结果。介绍了多标签文本分类的方法。这些方法主要分为两大类:传统机器学习方法和基于深度学习的方法。传统机器学习方法主要包括问题转换方法和算法自适应方法。基于深度学习的方法是利用各种神经网络模型来处理多标签文本分类问题,根据模型结构,将其分为基于CNN结构、基于RNN结构和基于Transfomer结构的多标签文本分类方法。对多标签文本分类常用的数据集进行了梳理总结。对未来的发展趋势进行了分析与展望。  相似文献   

5.
近年来,机器学习被逐渐运用到基于社交媒体文本数据的抑郁症检测中并凸显重要应用价值。为梳理其应用现状和发展方向,对用于抑郁症检测的社交媒体文本数据集、数据预处理和机器学习方法进行整理分类。在数据特征表示方面,对比分析了基础特征表示、静态词嵌入和语境词嵌入。全面分析了利用不同基础特征和不同算法类型的传统机器学习以及深度学习进行抑郁症检测的性能和特点。总结并建议未来在中文数据集的创建、模型的可解释性、基于隐喻的检测和轻量级预训练模型方面做进一步的探索。  相似文献   

6.
为提升中文文本的分类效率,改善梯度消失、梯度爆炸以及语义信息提取不准确等问题,提出基于深度学习的中文文本分类模型ResCNN-LSTMA.对残差网络和卷积神经网络的组合方式进行研究,发现二者组合能够避免梯度消失和梯度爆炸的情况.分析注意力机制与长短期记忆网络组合的形式对文本分类的效果,二者组合能够在保留上下文语义信息的同时对语义信息进行提取,改善特征提取不全面的问题.通过使用搜狐新闻数据集训练模型,验证了该模型分类效果的准确性和有效性.  相似文献   

7.
文本分类是自然语言处理领域中常见的任务,机器学习和深度学习在该任务中已有较多研究并取得了很大进展,然而,这些传统方法只能处理欧氏空间的数据,不能完全有效地表达出文本的语义信息。为了打破传统的学习模式,诸多研究开始尝试用图表示文本中各实体间的丰富关系,并利用图卷积神经网络学习文本表示。文中对基于图卷积神经网络的文本分类方法进行了综述,首先概述了图卷积神经网络的背景与原理;其次,利用不同类型的图网络详细阐述了基于图卷积神经网络的文本分类方法,同时分析了图卷积神经网络在网络深度上的局限性,并介绍了深层网络在文本分类任务上的最新进展;最后,通过实验比较了各模型的分类性能,并探讨了该领域的难点与未来的发展方向。  相似文献   

8.
自然语言处理技术在文本分类、文本纠错等任务中表现出强大性能,但容易受到对抗样本的影响,导致深度学习模型的分类准确性下降。防御对抗性攻击是对模型进行对抗性训练,然而对抗性训练需要大量高质量的对抗样本数据。针对目前中文对抗样本相对缺乏的现状,提出一种可探测黑盒的对抗样本生成方法 WordIllusion。在数据处理与计算模块中,数据在删除标点符号后输入文本分类模型得到分类置信度,再将分类置信度输入CKSFM计算函数,通过计算比较cksf值选出句子中的关键词。在关键词替换模块中,利用字形嵌入空间和同音字库中的相似词语替换关键词并构建对抗样本候选序列,再将序列重新输入数据处理与计算模块计算cksf值,最终选择cksf值最高的数据作为最终生成的对抗样本。实验结果表明,WordIllusion方法生成的对抗样本在多数深度学习模型上的攻击成功率高于基线方法,在新闻分类场景的DPCNN模型上相比于CWordAttack方法最多高出41.73个百分点,且生成的对抗样本与原始文本相似度很高,具有较强的欺骗性与泛化性。  相似文献   

9.
文本分类技术是自然语言处理领域的研究热点,其主要应用于舆情检测、新闻文本分类等领域。近年来,人工神经网络技术在自然语言处理的许多任务中有着很好的表现,将神经网络技术应用于文本分类取得了许多成果。在基于深度学习的文本分类领域,文本分类的数值化表示技术和基于深度学习的文本分类技术是两个重要的研究方向。对目前文本表示的有关词向量的重要技术和应用于文本分类的深度学习方法的实现原理和研究现状进行了系统的分析和总结,并针对当前的技术发展,分析了文本分类方法的不足和发展趋势。  相似文献   

10.
文本语言的情感分析历来是自然语言处理领域的热点研究课题,尤其是在当下互联网迈入web2.0时代,多样的社交网络平台呈现出巨量而丰富的文本情感信息,因此挖掘网络数据文本信息并作情感倾向判断对人机交互与人工智能具有重大的现实意义。传统的解决文本情感分析问题的方法主要是浅层学习算法,利用回归、分类等方案实现特征的提取及分类。以这类方法为起点,本文探索采用深度学习的方法对网络文本进行细粒度的情感分析,以期达到即时获取依附于网络世界的社会人的情感,甚至是让机器达到对人类情感表达的深度理解。对于深度学习的具体实现,本文采用的是降噪自编码器来对文本进行无标记特征学习并进行情感分类,后文中利用实验训练获得最佳的参数设置,并通过对实验结果的分析和评估论证深度学习对于情感信息的强大解析能力。  相似文献   

11.
文本情感倾向性分析是自然语言处理研究领域的一个基础问题。基于深度学习的模型是处理此问题的常用模型。而当前的多数深度学习模型在中文文本情感倾向性分析方面的应用存在两个问题: 一是未能充分考虑到文本的层次化结构对情感倾向性判定的重要作用,二是传统的分词技术在处理文本时会产生歧义。该文针对这些问题基于卷积神经网络与层次化注意力网络的优点提出了一种深度学习模型C-HAN(Convolutional Neural Network-based and Hierarchical Attention Network-based Chinese Sentiment Classification Model),先用并行化卷积层学习词向量间的联系与组合形式,再将其结果输入到基本单元为双向循环神经网络的层次化注意力网络中判定情感倾向。实验表明: 模型在中文评论数据集上倾向性分类准确率达到92.34%,和现有多个情感分析模型相比有所提升;此外,对于中文文本,选择使用字级别词向量作为原始特征会优于词级别词向量作为原始特征。  相似文献   

12.
针对当前医院护理不良事件上报的内容多为非结构化文本数据,缺乏合理明确的分类,人工分析难度大、人为因素多、存在漏报瞒报、人为降低事件级别等问题,提出一种基于字符卷积神经网络CNN与支持向量机SVM的中文护理不良事件文本分类模型。该模型通过构建字符级文本词汇表对文本进行向量化,利用CNN对文本进行抽象的特征提取,并用SVM分类器实现中文文本分类。与传统基于TF-IDF的SVM、随机森林等多组分类模型进行对比实验,来验证该模型在中文护理不良事件文本分类中的分类效果。  相似文献   

13.
伴随着文本信息量爆炸式的增长,在海量文本资源中准确判断文本类别显得尤为重要。基于卷积神经网络模型进行理论研究和实验分析,设计并实现了一个可视化的文本分类预测系统。系统首先对文本数据进行预处理,其次搭建CNN模型并将该模型用于文本分类,最后利用前端技术实现分类结果的展示。为了证明本文系统所用模型的优越性,分别与经典机器学习和深度学习分类模型进行了对比实验,实验结果表明,本文系统在实现文本分类时取得了较好的分类效果。  相似文献   

14.
国际疾病分类(ICD)是用于临床目的和健康管理的分类工具,是卫生统计数据的建立基础,在其庞大的分类体系中,含有与疾病健康问题和临床治疗相关的分类和对应的代码。针对在国际疾病分类的庞大标签空间中的多标签分类问题,提出一种端到端的深度学习方法。采用改进的图注意力网络对标签空间进行建模,基于注意力重构的多标签分类器进行分类。在标签空间建模中,结合国际疾病分类中手术与操作分类的层次结构,构建出三种不同的图结构,利用图注意力网络将标签空间的结构信息融入到模型中,从而利用标签之间的依赖关系进行多标签文本分类。所提出的方法与实际应用场景有着紧密联系。实验表明,在临床国际疾病分类数据集上,相比于传统文本分类和其他标签空间建模方法,所提方法在分类性能上有明显的提升。  相似文献   

15.
针对中文短文本内容稀疏、上下文信息跨度大的问题,为进行有效的短文本情感分类,基于评论性短文本特征,使用预训练字向量,以字为单位输入模型来提高数据集的泛化性。使用多种经典深度学习分类模型验证基于字的短文本在外卖评论数据下的分类情况。实验结果表明,各模型均能准确判断短文本的情感倾向,检验了字向量的可行性及模型在情感分析方面的效果。各模型在基于字的评论短文本中的泛化性也为将来迁移学习和更深入的研究提供了价值参考。  相似文献   

16.
王英杰  谢彬  李宁波 《计算机工程》2020,46(2):48-52,58
深度学习模型应用于自然语言处理任务时依赖大型、高质量的人工标注数据集。为降低深度学习模型对大型数据集的依赖,提出一种基于BERT的中文科技自然语言处理预训练模型ALICE。通过对遮罩语言模型进行改进并将其与命名实体级遮罩相结合,改善基础模型在下游任务中的表现,使其学习到的语言表征更贴合中文的语言特性。实验结果表明,与BERT模型相比,ALICE模型对于中文科技文本的分类准确率和命名实体识别的F1值分别提高1.2%和0.8%。  相似文献   

17.
本文研究商品评论的正负评价分类系统,目的在于分析社区网络中海量的商品评论信息,找出实际有用的信息并以正负评价作为分类。本研究使用结巴分词作为中文断词工具,并使用word2vec训练词向量模型及文本的特征提取,再使用PCA降低维度,最后使用MLP深度学习方法,进行评论的正负评价分类,在实验过程中尝试调整各项参数值进行多次训练,以训练出更有效的深度学习模型。  相似文献   

18.
目前采用短文本分类的方法几乎都使用词向量,不管是机器学习还是深度学习本质上都是对数字的处理.将文本汉字转换成计算机可识别的数字信息是词向量的作用.ERNIE是百度提出主要针对中文设计的词向量模型.将ERNIE词向量与深金字塔卷积神经网络相融合,对中文类新闻文本标题进行文本分类处理.通过实验比较,ERNIE词向量与深金字塔卷积神经网络相结合的短文本分类模型具有较高的分类精度.  相似文献   

19.
介绍中文文本分类的流程及相关技术。在分析传统的文本特征选择不足的基础上,提出了基于粗糙集与集成学习结合的文本分类方法,通过粗糙集进行文本的特征选择,采用一种集成学习算法AdaBoost.M1来提高弱分类器的分类性能,对中文文本进行分类。实验证明,这种算法分类结果的F1值比C4.5、kNN分类器都高,具有更加优良的分类性能。  相似文献   

20.
朱引  黄海燕 《计算机科学》2018,45(12):142-147
中文文本情感分析旨在发现用户对事物、事件的情感倾向,然而现有研究往往忽视了文本之间的相互联系。提出一种基于主题增强的递归自编码情感分类模型,通过将文本的主题信息融入到递归自编码模型中,使得该模型可以更深层次地考虑文本的内容信息,提高其对文本情感的理解和泛化能力。在COAE2014数据集上的实验结果表明,将所提分类模型用于情感分类任务时可获得更优的分类效果,证实了其在实际问题中的适用性与可行性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号