首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 592 毫秒
1.
当前中文命名实体识别方法仅采用字级别或词级别特征方法进行识别,不能兼顾字和词级别的优点,难以获取足够的字形或者词义信息。针对此问题,该文提出一种基于多级别特征感知网络的中文命名实体识别方法。首先提出一种双通道门控卷积神经网络,通过感知字级别特征,在减少了未登录词的同时,也表示了字的字形信息。同时,为了获取词语的词义信息,该文在词级别的特征中嵌入对应位置信息。为了赋予实体更多的权重,该文利用自注意力机制感知带有位置信息的词级别特征。进一步,将上述得到的字级别和词级别信息融合,全面表示句子的语义信息。由于采用字词结合的方法容易产生冗余信息,该文设计一种门控机制的Highway网络,来过滤冗余信息,减少冗余信息对命名实体识别的影响,再结合条件随机场学习到句子中的约束条件实现中文命名实体的识别。实验结果表明,该文所提出的方法总体上优于目前主流的中文命名实体识别方法。  相似文献   

2.
基于ALBERT-BGRU-CRF的中文命名实体识别方法   总被引:1,自引:0,他引:1  
命名实体识别是知识图谱构建、搜索引擎、推荐系统等上层自然语言处理任务的重要基础,中文命名实体识别是对一段文本序列中的专有名词或特定命名实体进行标注分类。针对现有中文命名实体识别方法无法有效提取长距离语义信息及解决一词多义的问题,提出一种基于ALBERT-双向门控循环单元(BGRU)-条件随机场(CRF)模型的中文命名实体识别方法。使用ALBERT预训练语言模型对输入文本进行词嵌入获取动态词向量,有效解决了一词多义的问题。采用BGRU提取上下文语义特征进一步理解语义,获取长距离词之间的语义特征。将拼接后的向量输入至CRF层并利用维特比算法解码,降低错误标签输出概率。最终得到实体标注信息,实现中文命名实体识别。实验结果表明,ALBERT-BGRU-CRF模型在MSRA语料库上的中文命名实体识别准确率和召回率分别达到95.16%和94.58%,同时相比于片段神经网络模型和CNN-BiLSTM-CRF模型的F1值提升了4.43和3.78个百分点。  相似文献   

3.
植物属性文本的命名实体识别对林业领域的信息抽取和知识图谱的构建起着重要的作用,针对该问题,提出了一种基于双向长短时记忆网络(BiLSTM)、卷积神经网络(CNN)和条件随机场(CRF)模型的植物属性文本命名实体识别方法 BCC-P。分析了植物属性文本的特点,并进行预处理和标注,完成数据集的构建。BCC-P方法通过BiLSTM模型对植物属性文本进行建模,有效捕捉植物属性文本中的上下文语义特征。将获得的特征传递到CNN模型,进一步提取深度特征。最后使用了CRF模型进行植物属性文本的标注,输出在句子序列上最优的标注结果。在植物属性文本语料上的实验表明,该方法的准确率达到了91.8%,因此能够有效应用于植物属性文本的命名实体识别任务。  相似文献   

4.
铁路事故的相关信息以事故概况文本的形式存在, 对于铁路安全工作有重要意义. 但由于缺乏有效的信息抽取手段, 导致分散在文本中的铁路事故知识没有得到充分的利用. 命名实体识别是信息抽取的重要子任务, 目前关于事故领域的命名实体识别问题研究较少. 针对铁路事故命名实体识别问题, 提出一种融合字位置特征的命名实体识别模型, 该模型通过全连接神经网络获取字的位置特征, 并与语义层面的字向量合并作为字的最终向量表示输入BiLSTM-CRF模型获取最优标签序列. 实验结果表明, 模型在铁路事故文本命名实体识别问题上的准确率、召回率和F1值分别为93.29%、94.77%和94.02%, 相比于传统模型, 取得了更好的效果, 为铁路事故知识图谱的构建奠定基础.  相似文献   

5.
药用植物文本的命名实体识别对中医药领域的信息抽取和知识图谱构建起着重要作用。针对药用植物属性文本存在长序列语义稀疏的问题,提出一种基于注意力机制的双向长短时记忆网络(BiLSTM)和条件随机场(CRF)模型相结合的疾病实体识别方法(BiLSTM+ATT-CRF,BAC)。首先对药用植物属性文本进行预处理和半自动化标注构建数据集,并进行预训练得到低维词向量;然后将这些低维词向量输入BiLSTM网络中,得到双向语义依赖的特征向量;Attention层把注意力集中到与当前输出特征高度相关的信息上;最后通过条件随机场(CRF)算法获取最优的标签序列并解码输出。实验结果表明,BAC方法针对药用植物属性文本的长序列语义稀疏问题,疾病命名实体识别效果较传统方法更优。利用BAC方法训练好的模型从1680条文本句子中识别疾病命名实体,共抽取出1422个疾病实体。与药用植物名称进行匹配,共抽取出4316个药用植物治疗疾病的三元组数据。  相似文献   

6.
王宇晖    杜军平    邵蓥侠   《智能系统学报》2023,18(1):186-193
专利文本中包含了大量实体信息,通过命名实体识别可以从中抽取包含关键信息的知识产权实体信息,帮助研究人员更快了解专利内容。现有的命名实体提取方法难以充分利用专业词汇变化带来的词层面的语义信息。本文提出基于Transformer和技术词信息的知识产权实体提取方法,结合BERT语言方法提供精准的字向量表示,并在字向量生成过程中,加入利用字向量经迭代膨胀卷积网络提取的技术词信息,提高对知识产权实体的表征能力。最后使用引入相对位置编码的Transformer编码器,从字向量序列中学习文本的深层语义信息,并实现实体标签预测。在公开数据集和标注的专利数据集的实验结果表明,该方法提升了实体识别的准确性。  相似文献   

7.
旅游领域命名实体识别是旅游知识图谱构建过程中的关键步骤,与通用领域的实体相比,旅游文本的实体具有长度长、一词多义、嵌套严重的特点,导致命名实体识别准确率低。提出一种融合词典信息的有向图神经网络(L-CGNN)模型,用于旅游领域中的命名实体识别。将预训练词向量通过卷积神经网络提取丰富的字特征,利用词典构造句子的有向图,以生成邻接矩阵并融合字词信息,通过将包含局部特征的词向量和邻接矩阵输入图神经网络(GNN)中,提取全局语义信息,并引入条件随机场(CRF)得到最优的标签序列。实验结果表明,相比Lattice LSTM、ID-CNN+CRF、CRF等模型,L-CGNN模型在旅游和简历数据集上具有较高的识别准确率,其F1值分别达到86.86%和95.02%。  相似文献   

8.
互联网敏感实体识别是命名实体识别(NER)在特定领域的应用,主要任务是在互联网场景下识别文本数据中的不同类型的敏感实体。本文提出了一种基于CNN和BiGRU-attention并行,并辅以人工特征的针对互联网敏感实体的识别方法。使用卷积神经网络自动提取英文或符号文字字符的特征,再通过BiGRU分别前后向分析文本的字符序列,得到文本的全局特征。再考虑到互联网敏感实体本身的复杂性,加入人工特征作为判别辅助。经实验与现有的几种模型进行对比,本文提出的方法在模型结构更为简洁的同时,在面对中英文混合的互联网敏感实体识别时,精准度更高。  相似文献   

9.
中文命名实体识别是中文信息处理领域中的一项基本任务,能够为关系抽取、实体链接和知识图谱提供技术支持。与传统命名实体识别方法相比,基于双向长短期记忆(BiLSTM)神经网络模型在中文命名实体识别任务中获得了较好的效果。针对基于字词联合的BiLSTM-CRF模型存在特征提取不够准确的缺陷,在其基础上,引入Gated去噪机制,对输入字向量进行微调,自动学习过滤或者减少文本中不重要的字信息,保留对命名实体识别任务更有用的信息,进而提高命名实体的识别率。在Resume和Weibo数据集上的测试结果表明,该方法有效地提高了中文命名实体识别的效果。  相似文献   

10.
针对中文电子病历命名实体识别过程中实体特征利用率低,语义表示不充分等问题,提出一种基于BERT语言模型的命名实体识别方法。运用Char-CNN学习字符的多种特征,将特征加入BERT预训练生成的词向量中,获得融合领域信息和汉字特征的词向量表示,将词向量输入迭代扩张卷积神经网络中进行特征抽取,引入注意力机制加强实体特征的关注度,通过CRF解码标注命名实体。实验结果表明,该方法在CCKS17中取得91.64%的F1值,识别性能优于现有方法。  相似文献   

11.
军事命名实体识别能够为情报分析、指挥决策等环节提供自动化辅助支持,是提升指挥信息系统智能化程度的关键技术手段。由于中文文化和英文文化的不同,中国语言文字中实体识别第1步是对文章字句进行分词,分词的不准确则会直接造成命名实体识别上的精度损失。此外,一段字句中命名实体的识别是与上下文信息相关的,不同字词对实体识别的贡献度不一定是正向的,多余的字词信息只会对命名实体识别起到负面作用。针对上述挑战,提出了 Lattice长短时记忆神经网络 (LSTM) 结合自注意力机制(self-attention) 的融合网络模型。Lattice-LSTM 结构可以实现对字句中特殊字词的识别,并将深层的字词信息聚合到基于字符的 LSTM-CRF 模型中。Self-attention结构可以发现同一句子中词之间的关系特征或语义特征。使用人工标注的小规模样本集进行实验,结果表明该模型相较于几种基线模型取得了更理想的效果。  相似文献   

12.
针对网购评论命名实体识别中重要词汇被忽略的问题,在评论短文本处理基础上,借鉴多头注意力机制、词汇贡献度和双向长短时记忆条件随机场提出一种基于MA-BiLSTM-CRF模型的网购评论命名实体识别方法。首先,用词向量和词性向量的组合来表示评论文本语义信息;其次,用BiLSTM提取文本特征;然后,引入多头注意力机制从多层面、多角度提升模型性能;最后,用条件随机场(CRF)识别命名实体。实验结果表明,该方法能提升网购评论实体识别效果。  相似文献   

13.
命名实体识别是构建知识图谱的重要阶段。基于国军标及软件测试文档,完成了实体类型分类以及数据集的构建和标注。在软件测试领域,针对字词联合实体识别方法准确率不高的问题,进行字符级特征提取方法的改进,提出了CWA-BiLSTM-CRF识别框架。该框架包含两部分:第一部分构建预训练的字词融合字典,将字词一起输入给双向长短期记忆网络进行训练,并加入注意力机制衡量词内各字对特征的语义贡献,提取出字符级特征;第二部分将字符级特征与词向量等特征进行拼接,输入给双向长短期记忆网络进行训练,再通过条件随机场解决标签结果序列不合理的问题,识别出文中的实体。实验结果分别与三种常用的深度学习字符级特征提取方法进行比较,准确率和召回率均有提升,最优F1值为88.93%。实验表明,改进后的方法适用于军用软件测试领域命名实体识别任务,为下一步知识图谱的构建打下了基础。  相似文献   

14.
武国亮  徐继宁 《计算机应用》2021,41(7):1891-1896
针对基于双向长短期记忆网络-条件随机场(BiLSTM-CRF)的事件抽取模型仅能获取字粒度语义信息,可学习特征维度较低致使模型上限低的问题,以开放领域的中文公共突发事件数据为研究对象,提出了一种基于命名实体识别任务反馈增强的中文突发事件抽取方法FB-Latiice-BiLSTM-CRF。首先,将Lattice(点阵)机制融合双向长短期记忆(BiLSTM)网络作为模型的共享层,获取句子中的词语语义特征;其次,增加命名实体识别辅助任务,以联合学习和挖掘实体语义信息,同时将命名实体识别任务的输出反馈到输入端,提取其中实体对应的分词结果作为Lattice机制的外输入,以减少该机制自组词数量大带来的运算负荷并进一步强化对实体语义特征的提取;最后,通过最大化同方差不确定性的最大高斯似然估计方法计算模型总损失,从而解决多任务联合学习产生的损失不平衡问题。实验结果表明,FB-Latiice-BiLSTM-CRF在测试集上的准确率达到81.25%,召回率达到76.50%,F1值达到78.80%,较基准模型分别提升7.63、4.41和5.95个百分点,验证了该方法对基准模型改进的有效性。  相似文献   

15.
语言模型的建立对挖掘句子内部语义信息有着直接的影响,为了提高中文命名实体识别率,字的语义表示是关键所在。针对传统的中文命名实体识别算法没有充分挖掘到句子内部的隐藏信息问题,该文利用LSTM提取经过大规模语料预训练生成的字向量特征,同时将词向量预测矩阵传入到字向量特征提取阶段,通过矩阵运算融合为词向量特征,并进一步利用CNN提取词语之间的空间信息,将其与得到的词向量特征整合到一起输入语言模型XLnet(Generalized autoregressive pretraining for language understanding)中,然后经过BiGRU-CRF输出最优标签序列,提出了CAW-XLnet-BiGRU-CRF网络框架。并与其他的语言模型作了对比分析,实验结果表明,该框架解决了挖掘内部隐藏信息不充分问题,在《人民日报》1998年1月份数据集上的F1值达到了95.73%,能够较好地应用于中文命名实体识别任务。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号