首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
裁判文书中的证据是法官量刑的基础。通过证据抽取可以对案件审判质量进行评估,从而支撑“智慧法院”建设。裁判文书中的证据大多数都比较长且存在嵌套现象,例如,“张X的身份证复印件”中的 “身份证复印件”,而传统的命名实体识别模型BiLSTM-CRF对较长实体和嵌套实体的识别性能较低。为了解决因裁判文书中的证据长度较长和嵌套现象而导致证据抽取性能较低的问题,该文提出了一种基于边界识别与组合的证据抽取模型。该模型首先使用BiLSTM-CRF模型识别证据的开始边界和结束边界;然后组合开始边界和结束边界,形成携带大量丰富细粒度边界信息的候选证据;最后使用基于三通道的多核CNN模型,融合细粒度的边界信息特征,对候选证据进行筛选,识别候选证据中正确的证据。实验结果表明,该文提出的模型能有效地抽取裁判文书中的证据。  相似文献   

2.
曾兰兰  王以松  陈攀峰 《计算机应用》2022,42(10):3011-3017
正确识别裁判文书中的实体是构建法律知识图谱和实现智慧法院的重要基础。然而常用的命名实体识别(NER)模型并不能很好地解决裁判文书中的多义词表示和实体边界识别错误的问题。为了有效提升裁判文书中各类实体的识别效果,提出了一种基于联合学习和BERT的BiLSTM-CRF(JLB-BiLSTM-CRF)模型。首先,利用BERT对输入字符序列进行编码以增强词向量的表征能力;然后,使用双向长短期记忆(BiLSTM)网络建模长文本信息,并将NER任务和中文分词(CWS)任务进行联合训练以提升实体的边界识别率。实验结果表明,所提模型在测试集上的精确率达到了94.36%,召回率达到了94.94%,F1值达到了94.65%,相较于BERT-BiLSTM-CRF模型分别提升了1.05个百分点、0.48个百分点和0.77个百分点,验证了JLB-BiLSTM-CRF模型在裁判文书NER任务上的有效性。  相似文献   

3.
旅游领域命名实体识别是旅游知识图谱构建过程中的关键步骤,与通用领域的实体相比,旅游文本的实体具有长度长、一词多义、嵌套严重的特点,导致命名实体识别准确率低。提出一种融合词典信息的有向图神经网络(L-CGNN)模型,用于旅游领域中的命名实体识别。将预训练词向量通过卷积神经网络提取丰富的字特征,利用词典构造句子的有向图,以生成邻接矩阵并融合字词信息,通过将包含局部特征的词向量和邻接矩阵输入图神经网络(GNN)中,提取全局语义信息,并引入条件随机场(CRF)得到最优的标签序列。实验结果表明,相比Lattice LSTM、ID-CNN+CRF、CRF等模型,L-CGNN模型在旅游和简历数据集上具有较高的识别准确率,其F1值分别达到86.86%和95.02%。  相似文献   

4.
裁判文书中判决结果的倾向性分析是指判断裁判文书中的判决结果是否支持原告的诉讼请求。判决结果的倾向性分析对于裁判文书的规范化、推荐诉讼律师等后续工作有重大的意义,但是缺少有效的分析模型。为了充分利用海量数据的裁判文书,提出了一个判决结果倾向性分析的模型。从半结构化的裁判文书中抽取出关键特征,利用模糊匹配的方式对判决结果中的多重实体进行识别和清洗,将处理结果交由基于LSTM的深度学习神经网络进行倾向性判断。通过对三种案由的数据集进行实验,该模型的准确率最高可达98.3%,验证了该模型在判决结果的倾向性分析任务中具有很高的有效性。  相似文献   

5.
此文研究涉恐类刑事案件法律文本的中文命名实体识别任务,对涉恐类案件的实体识别对后续的公安对于涉恐类刑事案件信息提取、案情辅助研判、构建公安领域犯罪侦查知识图谱等一系列应用具有重要意义。此文提出了一种基于深度学习的模型来自动识别涉恐刑事案件法律文书中的实体。此文使用从互联网获取的涉恐类刑事案件的裁判文书作为数据集对该模型进行训练,验证,测试。在文中还加入了对比实验,将该模型的实验结果与CRF模型的实验结果进行对比。实验表明,BiLSTM-CRF模型在数据集上能够取得最优的结果,准确率为0.9541,召回率为0.9550,F1值为0.9543。实验结果证明BiLSTM-CRF模型在涉恐类案件法律文书实体识别上的可行性。  相似文献   

6.
行业人物命名实体识别旨在从行业人物语料中抽取出有效的实体信息,是深度挖掘行业人物信息资源的基础性和关键性任务。由于主流的命名实体识别模型未充分利用词信息特征,导致在对具有特色的行业人物实体进行识别时语义、实体边界识别不准确。提出一种基于字词融合与对抗训练的行业人物实体识别模型。利用RoBERTa-wwm-ext预训练模型提取句子的字特征,并融合词典构造出句子的词特征。在字词融合的向量表示上添加扰动生成对抗样本,将融合向量表示与对抗样本作为训练数据输入双向长短期记忆神经网络(BiLSTM)学习上下文信息,并通过条件随机场(CRF)推理最优的序列标注结果。根据行业人物文本特点设计命名实体标注方案,构建数据集进行实验验证。实验结果表明,该模型在测试集上的精确率、召回率、F1值分别达到92.94%、94.35%、93.64%,相较于BERT-BiLSTM-CRF模型分别提升3.68、1.24、2.39个百分点。  相似文献   

7.
面向工艺文本中的命名实体,该文提出一种融入领域知识的神经网络命名实体识别方法,旨在对零件、工程图纸、参考标准、属性等12类命名实体进行识别.该方法针对工艺实体的特点,利用领域词典及规则预识别出部分实体,形成预识别实体特征,将预识别实体特征加入CNN-BiLSTM-CRF神经网络模型,指导训练与预测.实验结果表明,该方法...  相似文献   

8.
琚生根  李天宁  孙界平 《软件学报》2021,32(8):2545-2556
细粒度命名实体识别是对文本中的实体进行定位,并将其分类至预定义的细粒度类别中.目前,中文细粒度命名实体识别仅使用预训练语言模型对句子中的字符进行上下文编码,并没有考虑到类别的标签信息具有区分实体类别的能力.由于预测句子不带有实体标签,使用关联记忆网络来捕获训练集句子的实体标签信息,并将标签信息融入预测句子的字符表示中.该方法将训练集中带实体标签的句子作为记忆单元,利用预训练语言模型获取原句子和记忆单元句子的上下文表示,再通过注意力机制将记忆单元句子的标签信息与原句子的表示结合,从而提升识别效果.在CLUENER 2020中文细粒度命名实体识别任务上,该方法对比基线方法获得了提升.  相似文献   

9.
基于CNN-BLSTM-CRF模型的生物医学命名实体识别   总被引:3,自引:0,他引:3  
命名实体识别是自然语言处理任务的重要步骤。近年来,不依赖人工特征的神经网络在新闻等通用领域命名实体识别方面表现出了很好的性能。然而在生物医学领域,许多实验表明基于领域知识的人工特征对于神经网络模型的结果影响很大。因此,如何在不依赖人工特征的情况下获得较好的生物医学命名实体识别性能是有待解决的问题。该文提出一种基于CNN-BLSTM-CRF的神经网络模型。首先利用卷积神经网络(CNN)训练出单词的具有形态特征的字符级向量,并从大规模背景语料训练中得到具有语义特征信息的词向量,然后将二者进行组合作为输入,再构建适合生物医学命名实体识别的BLSTM-CRF深层神经网络模型。实验结果表明,不依赖任何人工特征,该文方法在Biocreative Ⅱ GM和JNLPBA2004生物医学语料上都达到了目前最好的结果,F-值分别为89.09%和74.40%。  相似文献   

10.
实体嵌套是自然语言中一种常见现象,提高嵌套命名实体识别的准确性对自然语言处理各项任务具有重要作用。针对现有嵌套命名实体识别方法在识别实体边界时不够准确、未能有效利用实体边界信息等问题,提出一种嵌套命名实体识别的边界强化分类模型。采用卷积神经网络提取邻接词的特征,通过加入多头注意力的序列标注模型获取实体中的边界特征,提高实体边界检测的准确性。在此基础上,计算实体中各词语对实体类型的贡献度,将实体关键字与实体边界词相结合来表示实体,使实体表示中包含实体关键信息和边界信息,最后进行实体类型检测。实验结果表明,通过加入多头注意力机制能够有效提升对嵌套命名实体的检测和识别性能,该模型在GENIA和GermEval 2014数据集上准确率有较好表现,并且召回率和F1值较对比模型达到最优。  相似文献   

11.
针对中文金融文本领域的命名实体识别,该文从汉字自身特点出发,设计了结合字形特征、迭代学习以及双向长短时记忆网络和条件随机场的神经网络模型。该模型是一种完全端到端且不涉及任何特征工程的模型,其将汉字的五笔表示进行编码以进行信息增强,同时利用迭代学习的策略不断对模型整体预测结果进行改进。由于现有的命名实体识别研究在金融领域缺乏高质量的有标注的语料库资源,所以该文构建了一个大规模的金融领域命名实体语料库HITSZ-Finance,共计31 210个文本句,包含4类实体。该文在语料库HITSZ-Finance上进行了一系列实验,实验结果均表明模型的有效性。  相似文献   

12.
王宇晖    杜军平    邵蓥侠   《智能系统学报》2023,18(1):186-193
专利文本中包含了大量实体信息,通过命名实体识别可以从中抽取包含关键信息的知识产权实体信息,帮助研究人员更快了解专利内容。现有的命名实体提取方法难以充分利用专业词汇变化带来的词层面的语义信息。本文提出基于Transformer和技术词信息的知识产权实体提取方法,结合BERT语言方法提供精准的字向量表示,并在字向量生成过程中,加入利用字向量经迭代膨胀卷积网络提取的技术词信息,提高对知识产权实体的表征能力。最后使用引入相对位置编码的Transformer编码器,从字向量序列中学习文本的深层语义信息,并实现实体标签预测。在公开数据集和标注的专利数据集的实验结果表明,该方法提升了实体识别的准确性。  相似文献   

13.
命名实体识别技术是信息抽取、机器翻译、问答系统等多种自然语言处理技术中一项重要的基本任务。近年来,基于深度学习的命名实体识别技术成为一大研究热点。为了方便研究者们了解基于深度学习的命名实体识别研究进展及未来发展趋势,对当前基于卷积神经网络、循环神经网络、transformer模型以及其他一些命名实体识别方法展开综述性介绍,对四类方法进行了深入分析和对比。同时对命名实体识别应用领域以及所涉及到的数据集和评测方法进行了介绍,并对未来的研究方向进行了展望。  相似文献   

14.
医疗命名实体识别指从海量的非结构化的医疗数据中提取关键信息,为医学研究的发展和智慧医疗系统的普及提供了基础.深度学习运用深层非线性的神经网络结构能够学习到复杂、抽象的特征,可实现对数据更本质的表征.医疗命名实体识别采用深度学习模型可明显提升效果.首先,本文综述了医疗命名实体识别特有的难点以及传统的识别方法;其次,总结了基于深度学习方法的模型并介绍了较为流行的模型改进方法,包括针对特征向量的改进,针对数据匮乏、复杂命名实体识别等问题的改进;最后,通过综合论述对未来的研究方向进行展望.  相似文献   

15.
传统的命名实体识别方法是将大量手工制定的特征输入到统计学习模型中以实现对词语的标记,能够取得较好的效果,但其手工特征制定的方式增加了模型建立的难度。为了减轻传统方法中手工特征制定的工作量,首先对神经网络语言模型进行无监督训练以得到词语特征的分布式表示,然后将分布式的特征输入到深度信念网络中以发现词语的深层特征,最后进行命名实体识别。该方法在前人研究的基础上利用深度信念网络对神经网络语言模型进行了扩展,提出了一种可用于命名实体识别的深层架构。实验表明,在仅使用词特征和词性特征的条件下,该方法用于命名实体识别的性能略优于基于条件随机场模型的方法,具有一定的使用价值。  相似文献   

16.
传统的命名实体识别方法可以凭借充足的监督数据实现较好的识别效果.而在针对电力文本的命名实体识别中,由于对专业知识的依赖,往往很难获取足够的监督数据,即存在少样本场景.同时,由于电力行业的精确性要求,相比于一般的开放领域任务,电力领域的实体类型更多,因此难度更大.针对这些挑战,本文提出了一个基于主题提示的命名实体识别方法.该方法将每个实体类型视为一个主题,并使用主题模型从训练语料中获取与类型相关的主题词.通过枚举实体跨度、实体类型、主题词以填充模板并构建提示句.使用生成式预训练语言模型对提示句排序,最终识别出实体与对应类型标签.实验结果表明,在中文电力命名实体识别数据集上,相比于几种传统命名实体方法,基于主题提示的方法取得了更好的效果.  相似文献   

17.
命名实体识别是自然语言处理中的一项基础任务,传统的识别方法往往需要外部知识和人工筛选特征,需要较高的人力成本和时间成本;针对传统方法的局限性,提出一种基于GRU (Gated Recurrent Unit)的命名实体识别模型,该模型以字向量作为输入单位,通过双向GRU层提取特征,并通过输出层得到标签序列.在传统命名实体和会议名称这种特定领域命名实体上对该模型进行了测试.实验结果表明,本文设计的循环神经网络模型能有效的识别命名实体,省去了人工设计特征的繁琐工作,提供了一种端到端的识别方法.  相似文献   

18.
铁路事故的相关信息以事故概况文本的形式存在,对于铁路安全工作有重要意义.但由于缺乏有效的信息抽取手段,导致分散在文本中的铁路事故知识没有得到充分的利用.命名实体识别是信息抽取的重要子任务,目前关于事故领域的命名实体识别问题研究较少.针对铁路事故命名实体识别问题,提出一种融合字位置特征的命名实体识别模型,该模型通过全连接神经网络获取字的位置特征,并与语义层面的字向量合并作为字的最终向量表示输入BiLSTM-CRF模型获取最优标签序列.实验结果表明,模型在铁路事故文本命名实体识别问题上的准确率、召回率和F1值分别为93.29%、94.77%和94.02%,相比于传统模型,取得了更好的效果,为铁路事故知识图谱的构建奠定基础.  相似文献   

19.
由于中文文本之间没有分隔符,难以识别中文命名实体的边界.此外,在垂直领域中难以获取充足的标记完整的语料,例如医疗领域和金融领域等垂直领域.为解决上述不足,提出一种动态迁移实体块信息的跨领域中文实体识别模型(TES-NER),将跨领域共享的实体块信息(entity span)通过基于门机制(gate mechanism)的动态融合层,从语料充足的通用领域(源领域)动态迁移到垂直领域(目标领域)上的中文命名实体模型,其中,实体块信息用于表示中文命名实体的范围.TES-NER模型首先通过双向长短期记忆神经网络(BiLSTM)和全连接网络(FCN)构建跨领域共享实体块识别模块,用于识别跨领域共享的实体块信息以确定中文命名实体的边界;然后,通过独立的基于字的双向长短期记忆神经网络和条件随机场(BiLSTM-CRF)构建中文命名实体识别模块,用于识别领域指定的中文命名实体;最后构建动态融合层,将实体块识别模块抽取得到的跨领域共享实体块信息通过门机制动态决定迁移到领域指定的命名实体识别模型上的量.设置通用领域(源领域)数据集为标记语料充足的新闻领域数据集(MSRA),垂直领域(目标领域)数据集为混合领域(OntoNotes 5.0)、金融领域(Resume)和医学领域(CCKS 2017)这3个数据集,其中,混合领域数据集(OntoNotes 5.0)是融合了6个不同垂直领域的数据集.实验结果表明,提出的模型在OntoNotes 5.0、Resume和CCKS 2017这3个垂直领域数据集上的F1值相比于双向长短期记忆和条件随机场模型(BiLSTM-CRF)分别高出2.18%、1.68%和0.99%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号