首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 781 毫秒
1.
针对基于文本的需求跟踪方法严重依赖文本质量的问题,提出了一种利用命名实体识别技术标注制品文档关键词的需求跟踪方法。该方法通过代码实体上下文构建命名实体识别模型,解决了抽象语法树和正则表达式无法解析非源代码形式的软件制品的问题。利用命名实体识别模型标识出软件制品中的代码实体之后,方法将软件制品转换为文档集合并进行语义聚类,最后再通过映射算法创建制品间的需求跟踪关系。实验结果表明,与基于所有词项和基于高权重词项的需求跟踪方法相比,该方法能够有效提高需求跟踪结果的质量。  相似文献   

2.
该文提出了一种在低资源条件下,只利用无标注文档资源进行电力领域命名实体识别的无监督方法。该方法收集电力领域相关语料,利用串频统计技术更新电力领域词典,同时根据结构化电力数据解析出实体词及其类型,并通过表示学习获得每种实体类型的代表词表示。同时利用BERT全词遮盖技术对文本中的词语进行预测,计算文本词语和实体类型代表词之间的语义相似度,进而完成命名实体识别及类型判断。实验表明,该方法对数据条件要求低,具有很强的实用性,且易于复用到其他领域。  相似文献   

3.
为增强文本匹配模型的文本语义捕捉能力并提高语义匹配准确度,提出一种基于词嵌入与依存关系的文本匹配模型。构建融合词语义和词间依存关系的语义表示,通过余弦均值卷积和K-Max池化操作获得描述两段文本各部分语义匹配程度的矩阵,并采用长短期记忆网络学习匹配程度矩阵与真实匹配程度之间的映射关系。实验结果表明,该模型的F1值为0.927 4,相比BM25及深度文本匹配模型准确度更高。  相似文献   

4.
怀宝兴  宝腾飞  祝恒书  刘淇 《软件学报》2014,25(9):2076-2087
命名实体链接(named entity linking,简称NEL)是把文档中给定的命名实体链接到知识库中一个无歧义实体的过程,包括同义实体的合并、歧义实体的消歧等.该技术可以提升在线推荐系统、互联网搜索引擎等实际应用的信息过滤能力.然而,实体数量的激增给实体消歧等带来了巨大挑战,使得当前的命名实体链接技术越来越难以满足人们对链接准确率的要求.考虑到文档中的词和实体往往具有不同的语义主题(如“苹果”既能表示水果又可以是某电子品牌),而同一文档中的词与实体应当具有相似的主题,因此提出在语义层面对文档进行建模和实体消歧的思想.基于此设计一种完整的、基于概率主题模型的命名实体链接方法.首先,利用维基百科(Wikipedia)构建知识库;然后,利用概率主题模型将词和命名实体映射到同一个主题空间,并根据实体在主题空间中的位置向量,把给定文本中的命名实体链接到知识库中一个无歧义的命名实体;最后,在真实的数据集上进行大量实验,并与标准方法进行对比.实验结果表明:所提出的框架能够较好地解决了实体歧义问题,取得了更高的实体链接准确度.  相似文献   

5.
基于ALBERT-BGRU-CRF的中文命名实体识别方法   总被引:1,自引:0,他引:1  
命名实体识别是知识图谱构建、搜索引擎、推荐系统等上层自然语言处理任务的重要基础,中文命名实体识别是对一段文本序列中的专有名词或特定命名实体进行标注分类。针对现有中文命名实体识别方法无法有效提取长距离语义信息及解决一词多义的问题,提出一种基于ALBERT-双向门控循环单元(BGRU)-条件随机场(CRF)模型的中文命名实体识别方法。使用ALBERT预训练语言模型对输入文本进行词嵌入获取动态词向量,有效解决了一词多义的问题。采用BGRU提取上下文语义特征进一步理解语义,获取长距离词之间的语义特征。将拼接后的向量输入至CRF层并利用维特比算法解码,降低错误标签输出概率。最终得到实体标注信息,实现中文命名实体识别。实验结果表明,ALBERT-BGRU-CRF模型在MSRA语料库上的中文命名实体识别准确率和召回率分别达到95.16%和94.58%,同时相比于片段神经网络模型和CNN-BiLSTM-CRF模型的F1值提升了4.43和3.78个百分点。  相似文献   

6.
通过评议文档与专家库的专家学术专长匹配,可以输出领域相关的候选专家列表,是同行评议中专家遴选和专家推荐的重要参考依据.针对学术专长匹配存在语义鸿沟、无法反映专家和评议文档多源信息间语义关联的问题,首先对专家信息和评议文档的多源信息进行语义特征抽取,融合多类特征进行表示学习,利用卷积神经网络设计专家特征抽取器ExpFeat和评议特征抽取器RevFeat,采用词嵌入方法和注意力机制对专家专长标签、评议文档关键词、学科分类树语义特征进行抽取和融合,生成具有“小同行”特征的专家和评议文档语义特征向量表示,解决多类信息源间不同学术分类标准造成的语义差异,反映内在语义联系,利用低维稠密向量表达语义信息,降低匹配复杂度.然后,根据专家语义特征表示和评议文档语义特征表示进行学术专长语义匹配,将专家和评议文档特征向量映射到相同语义空间,计算向量间余弦相似度衡量语义相似性,引入负例专家进行模型训练,通过softmax函数计算最大化正例专家概率优化特征提取器参数,进一步提升语义差异的捕捉能力,解决专家信息和评议文档之间的语义鸿沟问题,提升专家匹配效果.最后,在开源的论文评审数据集和项目评审数据集上进行了实验...  相似文献   

7.
文本表示需要解决文本词语的歧义性问题,并能够准确界定词语在特定上下文语境中的语义特征。针对词语的多义性及语境特征问题,提出了一种文本语义消歧的SCDVAB模型。其基于分区平均技术,将场景语料库转换为文档嵌入,并引入各向异性,改进了软聚类的稀疏复合文档向量(SCDV)算法,以提高BERT的语境化表示能力;将调整各向异性后的BERT词语嵌入,作为静态词语向量的文档嵌入,以提升文本语义消歧的能力。通过大量实验进一步证明,SCDVAB模型的效果明显优于传统的文本消歧算法,可有效提高文本语义消歧的综合性能。  相似文献   

8.
针对以往句子在文本编码后不能获得高效的特征信息,提出一种基于双流特征互补的嵌套命名实体识别模型。句子在嵌入时以单词的字级别和字符级别两种方式嵌入,分别通过神经网络Bi-LSTM获取句子上下文信息,两个向量进入低层级与高层级的特征互补模块,实体词识别模块和细粒度划分模块对实体词区间进行细粒度划分,获取内部实体。实验结果表明,模型相较于经典模型在特征提取上有较大的提升。  相似文献   

9.
对于法律文书中证据名、证实内容和卷宗号等实体的正确提取,可以有效提升法官的办案效率。然而,这些实体与一般实体不同,具有字符长度较长和相互关联性较强的特点。因此,该文提出了一种基于JCWA-DLSTM(join character word and attention-dual long short-term memory)的法律文书命名实体识别方法。该方法利用字级语言模型获取词语的表示,同时,利用自注意力机制获得句子的内部表示。在此基础上,采用双向LSTM将句子内部表示和基于字级语言模型词语表示分别与词向量拼接编码,再将两种语义表示拼接融合,获得最终的句子语义表示。最后利用CRF将句子的语义表示解码,得到最优标记序列。实验结果表明,该文提出的方法可对法律文书中的证据名、证实内容和卷宗号等实体边界进行有效的确定,提升了命名实体识别的结果。  相似文献   

10.
丁建立  李洋  王家亮 《计算机应用》2019,39(12):3476-3481
针对当前生成式文本摘要方法存在的语义信息利用不充分、摘要精度不够等问题,提出一种基于双编码器的文本摘要方法。首先,通过双编码器为序列映射(Seq2Seq)架构提供更丰富的语义信息,并对融入双通道语义的注意力机制和伴随经验分布的解码器进行了优化研究;然后,在词嵌入生成技术中融合位置嵌入和词嵌入,并新增词频-逆文档频率(TF-IDF)、词性(POS)、关键性得分(Soc),优化词嵌入维度。所提方法对传统序列映射Seq2Seq和词特征表示进行优化,在增强模型对语义的理解的同时,提高了摘要的质量。实验结果表明,该方法在Rouge评价体系中的表现相比传统伴随自注意力机制的递归神经网络方法(RNN+atten)和多层双向伴随自注意力机制的递归神经网络方法(Bi-MulRNN+atten)提高10~13个百分点,其文本摘要语义理解更加准确、生成效果更好,拥有更好的应用前景。  相似文献   

11.
张玉帅  赵欢  李博 《计算机科学》2021,48(1):247-252
语义槽填充是对话系统中一项非常重要的任务,旨在为输入句子的每个单词标注正确的标签,其性能的好坏极大地影响着后续的对话管理模块。目前,使用深度学习方法解决该任务时,一般利用随机词向量或者预训练词向量作为模型的初始化词向量。但是,随机词向量存在不具备语义和语法信息的缺点;预训练词向量存在“一词一义”的缺点,无法为模型提供具备上下文依赖的词向量。针对该问题,提出了一种基于预训练模型BERT和长短期记忆网络的深度学习模型。该模型使用基于Transformer的双向编码表征模型(Bidirectional Encoder Representations from Transformers,BERT)产生具备上下文依赖的词向量,并将其作为双向长短期记忆网络(Bidirectional Long Short-Term Memory,BiLSTM)的输入,最后利用Softmax函数和条件随机场进行解码。将预训练模型BERT和BiLSTM网络作为整体进行训练,达到了提升语义槽填充任务性能的目的。在MIT Restaurant Corpus,MIT Movie Corpus和MIT Movie trivial Corpus 3个数据集上,所提模型得出了良好的结果,最大F1值分别为78.74%,87.60%和71.54%。实验结果表明,所提模型显著提升了语义槽填充任务的F1值。  相似文献   

12.
Biomedical event extraction is one of the most significant and challenging tasks in biome- dical text information extraction, which has attracted more attentions in recent years. The two most important subtasks in biomedical event extraction are trigger recognition and argument detection. Most of the preceding methods consider trigger recognition as a classification task but ignore the sentence-level tag information. Therefore, a sequence labeling model based on bidirectional long short-term memory (Bi-LSTM) and conditional random field (CRF) is constructed for trigger recognition, which separately uses the static pre-trained word embedding combined with character-level word representation and the dynamic contextual word representation based on the pre-trained language model as model inputs. Meanwhile, for the event argument detection task, a self-attention based multi-classification model is proposed to make full use of the entity and entity type features. The F1-scores of trigger recognition and overall event extraction are 81.65% and 60.04% respectively, and the experimental results show that the proposed method is effective for biomedical event extraction.  相似文献   

13.
琚生根  李天宁  孙界平 《软件学报》2021,32(8):2545-2556
细粒度命名实体识别是对文本中的实体进行定位,并将其分类至预定义的细粒度类别中.目前,中文细粒度命名实体识别仅使用预训练语言模型对句子中的字符进行上下文编码,并没有考虑到类别的标签信息具有区分实体类别的能力.由于预测句子不带有实体标签,使用关联记忆网络来捕获训练集句子的实体标签信息,并将标签信息融入预测句子的字符表示中.该方法将训练集中带实体标签的句子作为记忆单元,利用预训练语言模型获取原句子和记忆单元句子的上下文表示,再通过注意力机制将记忆单元句子的标签信息与原句子的表示结合,从而提升识别效果.在CLUENER 2020中文细粒度命名实体识别任务上,该方法对比基线方法获得了提升.  相似文献   

14.
在基于条件随机场的中文命名实体识别任务中,现有表示学习方法学习到的特征存在语义表示偏差,给中文命名实体识别带来噪音。针对此问题,提出了一种基于位置敏感Embedding的中文命名实体识别方法。该方法将上下文位置信息融入到现有的Embedding模型中,采用多尺度聚类方法抽取不同粒度的Embedding特征,通过条件随机场来识别中文命名实体。实验证明,该方法学习到的特征缓解了语义表示偏差,进一步提高了现有系统的性能,与传统方法进行相比,F值提高了2.85%。  相似文献   

15.
姜克鑫  赵亚慧  崔荣一 《计算机应用研究》2022,39(4):1060-1063+1098
针对目前自然语言句子匹配方法未能融合公共语义信息以及难以捕获深层次语义信息的问题,提出了一种融合高低层语义信息的自然语言句子匹配算法。该算法首先采用预训练词向量GloVe和字符级别的词向量获取句子P和句子Q的词嵌入表示;其次,使用双向LSTM(long-short term memory)对P和Q进行编码,再初步融合P和Q获取低层语义信息;然后,计算P与Q的双向注意力,拼接得到语义表征,再计算其自注意力获取高层语义信息;最后,采用启发式的融合函数将低层语义信息和高层语义信息进行融合,得到最终的语义表征,使用卷积神经网络预测得到答案。在文本蕴涵识别和释义识别两个任务上评估了该模型。在文本蕴涵识别任务SNLI数据集和释义识别任务Quora数据集上进行了实验,实验结果表明该算法在SNLI测试集上的准确率为87.1%,在Quora测试集上的准确率为86.8%,验证了算法在自然语言句子匹配任务上的有效性。  相似文献   

16.
Only humans can understand and comprehend the actual meaning that underlies natural written language, whereas machines can form semantic relationships only after humans have provided the parameters that are necessary to model the meaning. To enable computer models to access the underlying meaning in written language, accurate and sufficient document representation is crucial. Recently, word embedding approaches have drawn much attention in text mining research. One of the main benefits of such approaches is the use of global corpuses with the generation of pre-trained word vectors. Although very effective, these approaches have their disadvantages. Relying only on pre-trained word vectors may neglect the local context and increase word ambiguity. In this study, a new approach, Content Tree Word Embedding (CTWE), is introduced to mitigate the risk of word ambiguity and inject a local context into globally pre-trained word vectors. CTWE is basically a framework for document representation while using word embedding feature learning. The CTWE structure is locally learned from training data and ultimately represents the local context. While CTWE is constructed, each word vector is updated based on its location in the content tree. For the task of classification, the results show an improvement in F-score and accuracy measures when using two deep learning-based word embedding approaches, namely GloVe and Word2Vec.  相似文献   

17.
微博情感分析旨在挖掘网民对特定事件的观点和看法,是网络舆情监测的重要内容.目前的微博情感分析模型一般使用Word2Vector或GloVe等静态词向量方法,不能很好地解决一词多义问题;另外,使用的单一词语层Attention机制未能充分考虑文本层次结构的重要性,对句间关系捕获不足.针对这些问题,提出一种基于BERT和层...  相似文献   

18.
在电力生产的过程中, 往往会产生大量电力相关的文本数据, 但这些数据大多是非结构化数据且体量庞大繁杂, 实现对电力相关数据有效的组织管理可以促进电力企业实现数字资产商品化, 以此为电力企业发掘新的利润增长点. 本文针对将电力行业中的相关规章制度文本进行结构化处理这一问题, 提出了基于字符和二元词组特征的命名实体识别的模型. 在该模型中, 通过使用融合多特征的BERT预训练语言模型得到词嵌入表示, 并使用引入相对位置编码的Transformer模型和条件随机场作为编码层和解码层, 本文提出的模型在实体类型识别的准确率为92.64%, 取得了有效的识别效果.  相似文献   

19.
刘金硕  张智 《计算机科学》2016,43(12):277-280
针对因中文食品安全文本特征表达困难,而造成语义信息缺失进而导致分类器准确率低下的问题,提出一种基于深度神经网络的跨文本粒度情感分类模型。以食品安全新闻报道为目标语料,采用无监督的浅层神经网络初始化文本的词语级词向量。引入递归神经网络,将预训练好的词向量作为下层递归神经网络(Recursive Neural Network)的输入层,计算得到具备词语间语义关联性的句子特征向量及句子级的情感倾向输出,同时动态反馈调节词向量特征,使其更加接近食品安全特定领域内真实的语义表达。然后,将递归神经网络输出的句子向量以时序逻辑作为上层循环神经网络(Recurrent Neural Network)的输入,进一步捕获句子结构的上下文语义关联信息,实现篇章级的情感倾向性分析任务。实验结果表明,联合深度模型在食品安全新闻报道的情感分类任务中具有良好的效果,其分类准确率和F1值分别达到了86.7%和85.9%,较基于词袋思想的SVM模型有显著的提升。  相似文献   

20.
同义词挖掘是自然语言处理领域中的一个基础任务,而同义词对的判别是该任务的一个重要部分。传统两大类方法,基于分布式表示和基于模板的方法,分别利用了语料的全局统计信息和局部统计信息,只能在精确率和召回率中权衡。随着预训练词向量技术的发展,基于分布式表示的方法存在一种简单高效的方案,即直接对预训练好的词向量计算相似度,将此表示为语义相似度。然而,这样的思路并没有利用到现有的同义词对这一外部知识。该文提出基于《同义词词林》的词向量微调方法,利用同义词对信息,增强预训练词向量的语义表示。经过实验,该微调方法能很好地完成同义词对的判别。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号