首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
文本分类任务通常依赖足量的标注数据,针对低资源场景下的分类模型在小样本上的过拟合问题,提出一种基于提示学习的小样本文本分类方法 BERT-P-Tuning。首先,利用预训练模型BERT(Bidirectional Encoder Representations from Transformers)在标注样本上学习到最优的提示模板;然后,在每条样本中补充提示模板和空缺,将文本分类任务转化为完形填空任务;最后,通过预测空缺位置概率最高的词并结合它与标签之间的映射关系得到最终的标签。在公开数据集FewCLUE上的短文本分类任务上进行实验,实验结果表明,所提方法相较于基于BERT微调的方法在评价指标上有显著提高。所提方法在二分类任务上的准确率与F1值分别提升了25.2和26.7个百分点,在多分类任务上的准确率与F1值分别提升了6.6和8.0个百分点。相较于手动构建模板的PET(Pattern Exploiting Training)方法,所提方法在两个任务上的准确率分别提升了2.9和2.8个百分点,F1值分别提升了4.4和4.2个百分点,验证了预训练模型应用在小样本任务的有效性。  相似文献   

2.
藏文文本分类是藏文自然语言处理中的基础任务,具有基础性和重要性。大规模预训练模型加微调的方式是当前的主流文本分类方法。然而藏文缺少开源的大规模文本和预训练语言模型,未能在藏文文本分类任务上进行验证。针对上述问题,该文抓取了一个较大规模的藏文文本数据集,并在该数据集的基础上训练一个藏文预训练语言模型(BERT-base-Tibetan)。将该方法应用到多种基于神经网络的文本分类模型上的实验结果表明,预训练语言模型能够显著提升藏文文本分类的性能(F1值平均提升9.3%),验证了预训练语言模型在藏文文本分类任务中的价值。  相似文献   

3.
张博旭  蒲智  程曦 《计算机工程》2023,(6):292-299+313
维吾尔语属于低资源语言和黏着性语言,现有维吾尔语文本分类方法缺少足够的语料来训练维吾尔语预训练模型。因此,维吾尔语无法基于预训练模型提取有效的句向量信息。现有的文本分类方法利用深度学习模型提取词向量,然而,维吾尔语具有特征稀疏且维度偏高的特点,使得其在文本分类上的效果较差。为此,提出基于提示学习的维吾尔语文本分类方法。基于提示学习,采用多语言预训练模型Cino构造不同的模板,利用模型的掩码预测能力对不同的掩码位置进行预测。为避免掩码预测的词汇信息具有多样性,将模板掩盖掉的词向量代替整体的句向量,利用掩码模型的预测能力,以有限大小的向量表示当前句子的语义信息,将下游任务靠近模型的预训练任务,减少在微调阶段两者不同所造成的影响。在爬取维吾尔语网站所构建新闻数据集上进行的文本分类实验结果表明,相比Cino微调预训练模型,融合提示学习的Cino模型的F1值最高可达到92.53%,精准率和召回率分别提升了1.79、1.04个百分点,具有更优的维吾尔语文本分类效果。  相似文献   

4.
该文提出了一种简单、快速的藏文网页文本分类方法。该方法利用网页栏目中词条的类别特征,结合网页文本提取技术,实现了快速、精确地将藏文网页文本归于预定义类别中。实验表明,该方法具有很高的网页文本分类正确率,对构建高质量多类别藏文语料库有重要作用。  相似文献   

5.
该文介绍了藏文文本分类技术的研究与进展.首先对现阶段常用的文本表示以及文本特征选择方法进行了分析和比较,接着回顾了藏文在机器学习方面的分类算法特点,深入讨论了不同算法应用在藏文文本分类技术上的研究情况,最后指出了当前藏文文本分类所面临的问题和挑战,并对未来的研究提出了建议.  相似文献   

6.
文本分类是指根据预先定义的主题类别,按照一定的规则将文档集合中未知类别的文档按内容自动确定某种类别的技术,是自然语言处理中最基本、最重要的研究内容之一,在信息检索、智能推荐、舆情分析、新闻分类等领域具有极高的应用价值。现阶段,藏文文本分类的主要研究集中在借用英汉等语言文本分类技术构建分类器,英汉等语言以词做分类特征基元构建分类器。由于受藏文分词技术制约,直接以词做藏文文本分类特征基元,其性能有较大的影响。该文在分析文本分类流程及藏文文本构成的基础上,研究了藏文文本分类特征基元选择方法,提出了一种融合词和音节的藏文文本分类特征基元选择方法,并以CNN模型构建的分类器验证了该方法的有效性。  相似文献   

7.
文本分类是信息处理领域的核心研究内容,在自动检索和文本过滤等研究领域中被广泛使用。本次研究主要是基于Logistic回归模型分类器对藏文文本进行分类,其核心思想是首先对藏文语料进行收集和预处理,且利用信息增益算法和欧式距离分别对文本特征进行选择与提取;其次构造Logistic回归模型分类器;最后测试和分析分类的准确率、召回率和F1值,同时,对Logistic算法和Gaussian NB算法进行分类性能对比,结果显示Logistic算法具有较好的分类效果。  相似文献   

8.
近年来,随着提示学习方法在自然语言处理领域被提出,其日益受到研究人员广泛关注.它通过将各类下游任务重构成预训练任务的形式,以参数高效和数据高效的方式将大规模预训练模型应用在各类自然语言相关下游任务中.其中以GPT系列为代表的模型通过提示学习在对话生成和多模态图文理解等任务上取得了巨大的成功.然而,这类模型及方法还不能解决视觉中的稠密任务.受此启发,一些研究人员逐渐将提示学习广泛应用到视觉相关的各类任务当中,如图像识别、目标检测、图像分割、领域适应、持续学习等.由于目前还没有提示学习应用在视觉相关领域中的综述,本文将对视觉单模态领域以及视觉语言多模态领域的提示学习方法展开全面论述和分析.作为回顾,我们首先简要介绍自然语言处理领域的预训练模型,并对提示学习的基本概念、下游应用形式以及提示模板类型进行阐述和分类.其次,我们分别介绍视觉单模态领域以及视觉语言多模态领域里提示学习方法适配的预训练模型和任务.再次,我们分别介绍视觉单模态领域以及视觉语言多模态领域的提示学习方法.在自然语言处理领域,提示学习方法以继承预训练形式实现多任务统一为主要目的;与此不同,在视觉相关领域,提示学习方法侧重于面向...  相似文献   

9.
小样本文本分类任务同时面临两个主要问题:①样本量少,易过拟合;②在元学习框架的任务形式下,监督信息被进一步稀疏化.近期工作中,利用图神经网络建模样本的全局信息表示(full context embedding)成为小样本学习领域中一种行之有效的方法,但将其迁移至小样本文本分类任务,由于文本多噪声,且特征易混淆,图神经网...  相似文献   

10.
由于建筑领域问题包含复杂多样的领域专有术语,常见的文本分类算法在建筑领域问题分类上难度较大。为提高建筑领域问题的分类性能,提出一种基于融合RoBERTa和Word2Vec的建筑文本分类算法。实验结果表明:在建筑领域问题数据集上,准确率达到91.59%,分类性能较好;在通用数据集上,准确率均高于SVM、CNN等模型。  相似文献   

11.
将深度神经网络模型应用于藏文文本情感分类中,虽然取得不错的分类效果,但仍然存在因藏文评论文本长度较短引起的特征稀疏的问题,使得深度学习模型不能够提取到更为全面的藏文文本语义特征。该文提出一种以藏文音节和藏文词条同时作为文本基本表示对象,采用CNN、BiLSTM和Multi-Headed Self-Attention机制等深度学习模型完成对藏文评论文本情感分类的研究方法。实验首先对音节和词条进行向量化表示,然后分别采用多核卷积神经网络、BiLSTM和Multi-Headed Self-Attention机制获取藏文文本中多维度的内部特征,最后通过特征拼接,再经激活函数为Softmax的全连接神经网络完成文本情感分类。研究结果表明,在该文的实验测试语料集上,融合音节和词条特征模型的分类准确率要优于基于音节的模型和基于词条的模型。  相似文献   

12.
随着互联网技术的飞速发展,即时通信、在线论坛等应用广泛普及,网络上产生了了大量非结构化或半结构化的网络对话论辩文本,对这些文本进行论辩挖掘研究具有重要的学术价值与现实意义。该文首先构建了中文网络对话论辩语料库,以子句作为标注的粒度;然后,基于此语料库使用预训练语言模型微调和提示方法分别进行论辩元素及其关系的识别,分别使用了目前受到广泛认可的BERT、XLNet、RoBERTa及其衍生的预训练语言模型,通过预训练微调的方式进行实验。在GPT、BERT、RoBERTa预训练模型上进行提示学习,通过P-tuning自动构建连续模板,进行论辩挖掘。实验结果显示,提示学习用于论辩挖掘任务是可行的,且准确率与现今取得很好效果的预训练微调方法相近,有时准确率甚至更高,同时在小样本或零样本数据集上有着更好的效果。实验还显示GPT与Prompt结合可以较好地完成论辩关系识别任务。  相似文献   

13.
从新闻报道中识别企业的风险可以快速定位企业所涉及的风险类别,从而帮助企业及时地做出应对措施。一般而言,新闻舆情风险识别是一种风险标签的多分类任务。以BERT为代表的深度学习方法采用预训练+微调的模式在文本分类任务当中表现突出。然而新闻舆情领域标记数据偏少,构成了小样本的机器学习问题。以提示学习为代表的新范式为小样本分类性能的提升提供了一种新的途径和手段,现有的研究表明该范式在很多任务上优于预训练+微调的方式。受现有研究工作的启发,提出了基于提示学习的新闻舆情风险识别方法,在BERT预训练模型基础之上根据提示学习的思想设计新闻舆情风险提示模板,通过MLM(masked language model)模型训练之后,将预测出来的标签通过答案工程映射到已有的风险标签。实验结果表明在新闻舆情数据集的不同数量小样本上,提示学习的训练方法均优于微调的训练方法。  相似文献   

14.
林子洛 《软件》2023,(7):112-118
文本分类技术能够帮助心理咨询对话系统自动判别用户的心理状态,以便在聊天过程中正确对用户进行心理治疗及心理健康干预,在心理学领域中具有良好的应用前景。本文在近年提出的Emotional First Aid Dataset心理咨询语料库上依次构建了烦恼类型、心理疾病、伤害身体倾向三个文本多分类任务,提出了该语料库的数据预处理方案,同时研究了BERT、Ro BERTa等6个深度学习语言模型在这些多分类任务上的性能,并以这些模型作为基学习器构建了集成模型。实验结果表明,XLNet、RoBERTa、ERNIE模型在多个任务上的表现较为突出,同时集成学习能显著地提高分类模型的预测准确率,整体取得了良好的效果。  相似文献   

15.
将知识图谱中的辅助知识应用于推荐系统中,在一定程度上可以缓解数据稀疏问题。但现有基于知识图谱的推荐方法大多只利用实体间的显式关系建模用户行为,而用户和推荐物品之间可能存在无法显式表达的关系。因此,该文提出了一种融合知识图谱传播特征和提示学习范式的推荐模型。首先,以用户与物品的历史交互为起点,利用知识图谱传播用户偏好,获得用户的动态行为信息;然后,将用户静态属性特征信息作为输入,利用提示学习技术,引入预训练语言模型中的隐式知识,挖掘出用户的潜在兴趣,作为对知识图谱显式知识的补充;最后,根据模板词在预训练语言模型词汇表中的概率完成对用户的推荐。实验表明,该方法在MovieLens-1M、Book-Crossing和Last.FM三个数据集上与其他模型相比具有良好的推荐性能,在AUC评价指标上平均分别提升6.4%、4.0%和3.6%,在F1评价指标上平均分别提升了6.0%、1.8%和3.2%。  相似文献   

16.
在小样本文本分类领域中,查询集和支持集的特征提取是影响分类结果的关键之一,但以往的研究大多忽略了两者之间存在匹配信息且在各自的信息提取中忽略了特征间的重要性程度不同,因此提出了一种新的小样本分类模型.模型结合GRU的全局信息提取能力和注意力机制的局部细节学习能力对文本特征进行建模,同时采用双向注意力机制来获取支持样本与查询样本间的交互信息,并创新性的提出“类生成器”用以区分同类样本间的不同重要性同时生成更具判别性的类别表示.此外,为了获得更为清晰的分类界限,还设计了一个原型感知的正则化项来优化原型学习.模型在2个小样本分类数据集上进行了实验,均取得了比目前最优基线模型更好的分类效果.  相似文献   

17.
藏文命名实体识别是藏文自然语言处理领域的一项关键技术,其目的是识别文本中的人名、地名及组织机构名。在目前的研究中,深度学习方法需要大量的标注数据是制约模型性能的主要因素,因此本文提出基于小样本学习的藏文命名实体识别方法。针对小样本数据量少导致模型无法充分学习实体特征的问题,本文提出实体特征信息融合方法,在训练过程中将实体位置信息、分词信息与藏文音节信息以维度拼接的方式进行特征融合,通过辅助信息增强实体特征,使得模型可以较好地学习藏文长实体的边界信息,并设计消融实验探究不同特征信息对模型效果的影响。实验结果表明,本文提出的方法有效提高了藏文小样本命名实体识别模型的准确率,相较于基线实验F1值总体提升了22.22~38个百分点。  相似文献   

18.
陈洁 《计算机时代》2023,(5):136-139+144
预训练语言模型具有强大的特征表达能力但无法直接应用于长文本。为此,提出分层特征提取方法。在BERT允许的最大序列长度范围内按句子的自然边界分割文本,应用自注意力机制获得首块和尾块的增强特征,再利用PCA算法进行压缩获取主要特征成分。在THUCNews和Sogou数据集上进行5折交叉验证,分类准确率和加权F1-score的均值分别达到95.29%、95.28%和89.68%、89.69%。该方法能够提取与主题最相关的特征,提高长文本分类效果,PCA压缩特征向量能够降低分类模型的复杂度,提高时间效率。  相似文献   

19.
文本表示学习作为自然语言处理的一项重要基础性工作, 在经历了向量空间模型、词向量模型以及上下文分布式表示的一系列发展后, 其语义表示能力已经取得了较大突破, 并直接促进模型在机器阅读、文本检索等下游任务上的表现不断提升. 然而, 预训练语言模型作为当前最先进的文本表示学习方法, 在训练阶段和预测阶段的时空复杂度较高, 造成了较高的使用门槛. 为此, 本文提出了一种基于深度哈希和预训练的新的文本表示学习方法, 旨在以更低的计算量实现尽可能高的文本表示能力. 实验结果表明, 在牺牲有限性能的情况下, 本文所提出的方法可以大幅降低模型在预测阶段的计算复杂度, 在很大程度上提升了模型在预测阶段的使用效率.  相似文献   

20.
随着互联网的不断发展,网络上的文本数据日益增多,如果能对这些数据进行有效分类,那么更有利于从中挖掘出有价值的信息,因此文本数据的管理和整合显得十分重要.文本分类是自然语言处理任务中的一项基础性工作,主要应用于舆情检测及新闻文本分类等领域,目的是对文本资源进行整理和归类.基于深度学习的文本分类,在对文本数据处理中,表现出...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号