首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
杨飘  董文永 《计算机工程》2020,46(4):40-45,52
在基于神经网络的中文命名实体识别过程中,字的向量化表示是重要步骤,而传统的词向量表示方法只是将字映射为单一向量,无法表征字的多义性.针对该问题,通过嵌入BERT预训练语言模型,构建BERT-BiGRU-CRF模型用于表征语句特征.利用具有双向Transformer结构的BERT预训练语言模型增强字的语义表示,根据其上下文动态生成语义向量.在此基础上,将字向量序列输入BiGRU-CRF模型中进行训练,包括训练整个模型和固定BERT只训练BiGRU-CRF2种方式.在MSRA语料上的实验结果表明,该模型2种训练方式的F1值分别达到95.43%和94.18%,优于BiGRU-CRF、Radical-BiLSTM-CRF和Lattice-LSTM-CRF模型.  相似文献   

2.
针对传统模型在处理电子病历文本命名实体识别问题时,存在的无法表征字的多义性和分词错误传递最终识别效果等问题,提出一种基于BERT(Bidirectional Encoder Representations from Transformers)的命名实体识别模型,该方法引入BERT预训练语言模型增强词向量的语义表示;使用...  相似文献   

3.
大多数中文命名实体识别模型中, 语言预处理只关注单个词和字符的向量表示, 忽略了它们之间的语义关系, 无法解决一词多义问题; Transformer特征抽取模型的并行计算和长距离建模优势提升了许多自然语言理解任务的效果, 但全连接结构使得计算复杂度为输入长度的平方, 导致其在中文命名实体识别的效果不佳. 针对这些问题,...  相似文献   

4.
针对命名实体识别方法中语义分析不足及准确率较低的问题,提出一种基于BERT模型的混合神经网络实体识别方法.对命名实体识别研究现状进行了调查与分析,发现现有命名实体识别研究中存在数据分析与特征提取不充分导致准确率较低的问题.利用BERT预训练语言模型动态生成字的语义向量,丰富其文本特征.使用卷积神经网络(convolut...  相似文献   

5.
法律文书命名实体识别是智慧司法领域的关键性和基础性任务。在目前法律文书命名实体识别方法中,存在实体定义与司法业务结合不紧密、传统词向量无法解决一词多义等问题。针对以上问题,该文提出一种新的法律文本命名实体定义方案,构建了基于起诉意见书的法律文本命名实体语料集LegalCorpus;提出一种基于BERT-ON-LSTM-CRF(Bidirectional Encoder Representations from Transformers-Ordered Neuron-Long Short Term Memory Networks-Conditional Random Field)的法律文书命名实体识别方法,该方法首先利用预训练语言模型BERT根据字的上下文动态生成语义向量作为模型输入,然后运用ON-LSTM对输入进行序列和层级建模以提取文本特征,最后利用CRF获取最优标记序列。在LegalCorpus上进行实验,该文提出的方法F1值达到86.09%,相比基线模型lattice LSTM F1值提升了7.8%。实验结果表明,该方法可以有效对法律文书的命名实体进行识别。  相似文献   

6.
基于BERT+BiLSTM+CRF的中文景点命名实体识别   总被引:1,自引:0,他引:1  
为解决旅游文本在特征表示时的一词多义问题,针对旅游游记文本景点实体识别中景点别名的问题,研究了一种融合语言模型的中文景点实体识别模型.首先使用BERT语言模型进行文本特征提取获取字粒度向量矩阵,BiLSTM用于上下文信息的提取,同时结合CRF模型提取全局最优序列,最终得到景点命名实体.实验表明,提出的模型性能提升显著,在实际旅游领域内景点识别的测试中,与以往研究者方法比较下准确率,召回率分别提升了8.33%, 1.71%.  相似文献   

7.
针对电机领域实体识别精度较低的问题,提出一种融合B E RT预训练语言模型的中文命名实体识别方法.利用B E RT预训练语言模型增强字的语义表示并按照上下文特征动态生成字向量,将字向量序列输入双向长短期记忆神经网络进行双向编码,同时通过条件随机场算法标注出实体识别结果.根据电机文本特点对自建数据集进行标注,并将电机领域...  相似文献   

8.
胡为  刘伟  石玉敬 《计算机时代》2022,(9):119-122+135
中医医案蕴含着丰富的中医经验知识,研究如何有效的从中医医案文本中挖掘有用实体信息具有重要意义。基于中国现代名医医案数据集,提出一种基于BERT-BiLSTM-CRF模型的中医医案命名实体识别方法。首先使用BERT语言模型进行文本特征提取,然后通过BiLSTM算法来获取上下文的信息,最后通过CRF算法来获取全局最优解并最终输出中医医案命名实体结果。实验表明,该方法相比于以往的中医医案命名实体方法的准确率、召回率、F1值有明显提升。  相似文献   

9.
10.
基于BERT和对抗训练的食品领域命名实体识别   总被引:1,自引:0,他引:1  
为了在食品领域从非结构化语料中抽取出有效的实体信息,提出了一种基于BERT(Bidirectional Encoder Representa-tions from Transformers)和对抗训练的命名实体识别(Named Entity Recognition,NER)的方法.命名实体识别是一种典型的序列标注问题....  相似文献   

11.
为了充分发掘中文简历数据中所蕴含的信息,提高构建社交网络知识图谱和档案知识图谱的实体丰富度,提出了基于BERT的中文简历命名实体识别技术.该技术模型首先通过BERT网络将大规模未标注文本生成具有语义特征的字符向量,接着通过嵌入条件随机场(CRF)的双向长短时记忆(BiLSTM)神经网络模型获取输入文本序列的上下文特征,...  相似文献   

12.
命名实体识别作为实现自然语言理解的关键步骤被广泛研究。传统机器算法需要大量特征工程而且领域自适应能力弱,准确率低。针对该问题,提出一种基于BERT(Bidirectional Encoder Representations from Transformers)模型和深度卷积注意力网络DeepCAN(Deep Convolutional Attention Network)进行中文实体识别。该模型首先通过BERT预训练语言模型得到字的动态嵌入表示;然后,将得到的向量序列输入DeepCAN来获取序列化文本的上下文抽象特征;最后,通过CRF(Conditional Random Field)进行命名实体标注。实验表明,该模型在SIGHAN2006数据集上能够达到93.37%F1值,对比当前在该数据集上最好的实验结果提高了2.73%。  相似文献   

13.
在初等数学领域的命名实体识别(NER)中,针对传统命名实体识别方法中词嵌入无法表征一词多义以及特征提取过程中忽略部分局部特征的问题,提出一种基于BERT的初等数学文本命名实体识别方法——BERT-BiLSTM-IDCNN-CRF.首先,采用BERT进行预训练,然后将训练得到的词向量输入到双向长短期记忆(BiLSTM)网...  相似文献   

14.
命名实体识别任务常常因训练数据类别不平衡,导致模型泛化能力较差。该文提出了一种新的机器阅读理解(Machine Reading Comprehension, MRC)模型框架,使其可以同时识别多个首尾索引以提取多个实体文段,并在此MRC模型基础上,针对数据不平衡问题,提出动态数据生成方法(Dynamic Data Generation method, DDG),使用MRC模型动态地生成用于训练和预测的数据,以辅助序列标注(Sequence Labeling)模型进行命名实体识别。该文分别在中英文数据集上进行了实验,并且在Weibo数据集上取得优于当前SOTA模型+1.93%F1值的结果。  相似文献   

15.
在电力生产的过程中, 往往会产生大量电力相关的文本数据, 但这些数据大多是非结构化数据且体量庞大繁杂, 实现对电力相关数据有效的组织管理可以促进电力企业实现数字资产商品化, 以此为电力企业发掘新的利润增长点. 本文针对将电力行业中的相关规章制度文本进行结构化处理这一问题, 提出了基于字符和二元词组特征的命名实体识别的模型. 在该模型中, 通过使用融合多特征的BERT预训练语言模型得到词嵌入表示, 并使用引入相对位置编码的Transformer模型和条件随机场作为编码层和解码层, 本文提出的模型在实体类型识别的准确率为92.64%, 取得了有效的识别效果.  相似文献   

16.
裁判文书中的命名实体识别是自动化审判的关键一步,如何能够有效的分辨出案件的关键命名实体是本文的研究重点.因此本文针对财产纠纷审判案件,提出了一种基于SVM-BiLSTM-CRF的神经网络模型.首先利用SVM筛选出包含关键命名实体的句子,然后将正确包含此类实体的句子转化为字符级向量作为输入,构建适合财产纠纷裁判文书命名实体识别的BiLSTM-CRF深层神经网络模型.通过构建训练数据进行验证和对比,该模型比其他相关模型表现出更高的召回率和准确率.  相似文献   

17.
中文微博命名实体识别   总被引:3,自引:2,他引:3  
微博这一媒体形式的迅速发展为命名实体识别提供了一个新的载体.根据微博文本的特点,提出针对中文微博的命名实体识别方法.首先,对微博文本做规范化处理,消除由于微博表达不规范造成的干扰;在建立中文人名库、常用地点库等知识库的基础上,选取适合微博的特征模板,使用条件随机场方法进行实体识别;同时,将正确的识别结果添加到知识库中以提升识别效果.在真实微博数据上的实验表明,该方法能够有效地完成中文微博的命名实体识别任务.  相似文献   

18.
针对电机领域命名实体识别困难、精度不高的问题,提出了一种基于BERT和多窗口门控CNN的电机领域命名实体识别模型。该模型首先利用BERT预训练模型生成句子的字向量序列,根据电机领域文本的上下文动态微调字向量,增强字向量的语义表达;其次,构建具有全局时序特征感知单元和多窗口门控CNN单元的双分支特征提取层,形成句子的多级语义特征表示;最后,通过CRF对字符序列进行解码,得到每个字符对应的标签。在小规模的自建电机领域数据集与多组模型进行的对比实验结果表明,该模型命名实体识别性能均优于其他模型,macro-F1值达到了90.16%,验证了该方法对电机领域实体识别的有效性。  相似文献   

19.
目前在中文命名实体识别的任务中经常采用有监督的字序列标注模型。我们在实际应用中发现,基于字序列标注模型的中文命名实体识别模型对于词语边界的识别错误是影响识别效果的主要因素之一,边界错误平均占错误结果中的47.5%。该文通过在平均感知机模型中引入全局的词语边界特征,使得人名、地名、机构名识别的F值平均提升了0.04并降低了边界错误占错误结果的比例。  相似文献   

20.
命名实体识别作为信息抽取领域的一个基础任务,能为机器翻译、关系抽取等下游任务提供有效支撑,具有重要的研究意义。针对中文命名实体识别方法中存在的实体边界模糊的问题,提出了一种结合实体边界线索的命名实体识别模型,模型由边界检测、线索生成、实体分类三个模块组成。利用边界检测模块识别实体边界。在线索生成模块中依据边界信息生成实体跨度,得到带边界线索标签的文本序列,使模型通过边界线索标签感知句子中的实体边界,学习实体边界和上下文的语义依赖特征。将带有边界线索标签的文本序列作为实体分类模块的输入,使用双仿射机制增强标签之间的语义交互,并结合双仿射机制与多层感知机的共同预测作为实体识别的结果。该模型在ACE2005中文数据集和Weibo数据集上的F1值分别达到了90.47%和73.54%,验证了模型对中文命名实体识别的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号