首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
凌广明  徐爱萍  王伟 《电子学报》2000,48(11):2081-2091
文本序列的自动标注能够解决深度学习普遍面临的人工标注成本过高的问题.本文针对地址信息的实体表述特征,构建基于实体边界矩阵(Entity Boundary Matrix,EBM)的表示模型,在此基础上提出了一种基于深度学习和KNN标签修正算法(K-Nearest Neighbours Correction Algorithm,KNN-CA)的不需要任何人工标注训练集的自动标注算法.首先获取预置小区数据集并构建离线特征库和初始化在线特征库;接着通过匹配算法求解EBM并利用KNN-CA进行优化,再通过数据增广得到自动标注的训练集;然后训练BiLSTM-CRF深度学习模型并预测所有未曾标注的地址信息的序列标注;最后再次利用KNN-CA优化可求解EBM的序列标注,由此构建适用于中文地理命名实体(Chinese Geospatial Named Entities,CGSNE)识别及相关研究的序列标注语料库.实验表明,标注数据的F1值达到了95.35%.  相似文献   

2.
本文使用大规模预训练汉语模型的BERT-BiLSTM-CRF方法,从运营商的非结构化文本数据中联合提取命名实体与关系。首先,通过运营商非结构化文本数据建立运营商文本语料库,对语料进行文本标签标注;然后,提出一种基于运营商文本命名实体与关系提取的BERT-BiLSTM-CRF模型方法。实验结果表明,该技术在运营商文本命名实体与关系联合提取中适用性较强,在运营商文本的命名实体与关系联合提取中,F1值高达93.2%,可以将该方法应用到实际问题解决中。  相似文献   

3.
针对医疗护理领域知识复杂性强、数据量大以及对准确度要求较高的问题,该研究提出一种基于卷积神经网络的医疗护理学实体关系抽取方法,实现对护理学语义关系的细粒度文本挖掘。该研究构建了医疗护理学语料标注系统,通过将医疗语料转化为向量特征矩阵,实现了对医疗语料的自动过滤和标注。通过向神经网络模型嵌入所构建的医疗关系语料库,一定程度上提高了模型疾病分类的准确度。在医疗护理学数据集上的实验表明,基于卷积神经网络的模型在指标精确度、召回率、F1值可达到89.78%、87.59%、89.77%。综上所述,该研究提出的基于卷积神经网络的医疗护理学实体关系抽取方法能够有效地抽取医疗语料数据中的实体关系,优于传统的实体关系抽取模型。  相似文献   

4.
随着生物医学研究与信息化技术的迅速发展,临床医学文献数量呈指数级增长,利用文本挖掘技术自动提取医学知识逐渐成为当前研究热点。针对目前新型冠状病毒肺炎(Corona Virus Disease 2019,COVID-19)临床文本研究匮乏、语料不足与标注质量不高等问题,本文结合UMLS医学语义网络和专家定义方式,制定医学实体标注规则,建立命名实体识别语料库,明确实体识别任务。其次,提出了一种基于MPNet与BiLSTM的COVID-19临床文本命名实体识别模型。通过预训练语言模型获得文本的向量化表示,解决了一词多义问题;采用双向长短期记忆网络,捕捉文本的长距离依赖;最后引入条件随机场,实现句子级序列注释,输出完整的最优标签序列。实验结果表明,MPNet-BiLSTM-CRF模型在COVID-19临床命名实体识别数据集上取得了较好的表现。  相似文献   

5.
在诸如电力客户问题等此类专业技术领域的自然语言问题命名实体识别任务中,由于专业性及用语的地域性导致难以实现大规模标注数据。而采用传统基于有监督学习模型的命名实体识别方法,则较易陷入过拟合。针对上述问题,文中对关系网络中的嵌入模块和关系模块及样本采样、元训练集构建等方面进行了面向命名实体识别任务特点的设计,提出了一种基于关系网络小样本学习方法的实体识别模型。在电力客户问题实体识别数据集上的实验结果表明,该模型的F1等重要指标比常用的有监督识别模型提高了大约10%~40%。  相似文献   

6.
为解决传统施工安全管理中对事故报告信息分析效率低的问题,利用自然语言处理(Natural Language Processing,NLP)技术,提出基于双向编码器表示(Bidirectional Encoder Representations from Transformers,BERT)的施工安全事故文本命名实体识别方法。以自建的施工安全事故领域实体标注语料数据集为研究对象,首先利用BERT预训练模型获取动态字向量,然后采用双向长短时记忆网络-注意力机制-条件随机场(BiLSTM-Attention-CRF)对前一层输出的语义编码进行序列标注和解码以获取最优文本标签序列。实验结果表明,该模型在自建数据集上的F1值分数为92.58%,较基准模型BiLSTM-CRF提升了4.19%;该方法对事故时间等5类实体识别F1值均可达到91%以上,验证了该方法对施工安全事故实体识别的有效性,说明模型可用于实际施工知识管理中并指导建筑安全管理的安全培训。  相似文献   

7.
自然语言理解任务的主要目标是运用自然语言处理的相关方法,对用户发出的语句进行解析,转化成结构化的语义表示.本文重点研究了基于语义槽抽取的自然语言理解方法.在基于语义槽抽取的自然语言理解任务中,任务的输入是用户的指令型语句,输出为指令的语义槽实体标注序列,如出发日期、出发地点等,故可将语义槽抽取任务看作类似于命名实体识别任务,以序列标注任务的方法解决.本文研究提出了基于Bi-LSTM-CRF模型的语义槽抽取方法,在英文语料ATIS上进行了实验.实验结果表明,基于Bi-LSTM-CRF网络的方法相比于传统机器学习的基准方法,结果得到了大幅度的提升.对于模型识别的结果,研究中采用F1值进行评价.  相似文献   

8.
通过对知网上252篇有关新工科的典型教育研究文献进行实体关系人工标注,建立了高等教育领域新工科视角下实验数据集NEDS(New Engineering Data Set),设计了一种层叠指针网络模型。实验结果表明,在高等教育领域NEDS上该模型表现突出,其精确率、召回率和F1值分别达到了83.56、76.25和79.74,很好地解决了关系重叠问题。  相似文献   

9.
针对高级可持续威胁(APT)分析报告未被有效利用,缺乏自动化方法生成结构化知识并形成黑客组织特征画像问题,提出一种融合实体识别和实体对齐的APT攻击知识自动抽取方法。首先,结合APT攻击特点设计12种实体类别;其次,构建融合Bert、双向长短期记忆(BiLSTM)网络和条件随机场(CRF)的APT攻击实体识别模型,利用Bert预训练标注语料,BiLSTM学习上下文语义信息,注意力机制突出关键特征,再由CRF识别实体;最后,结合实体对齐方法来生成不同APT组织的结构化知识。实验结果表明,所提方法能有效识别APT攻击实体,其精确率、召回率和F1值分别为0.929 6、0.873 3和0.900 6,均优于现有模型。此外,所提方法能在少量样本标注的情况下自动抽取高级可持续威胁知识,通过实体对齐能生成常见APT组织的结构化特征画像,从而为后续APT攻击知识图谱构建和攻击溯源提供支撑。  相似文献   

10.
近年来,全民考编成为时代趋势,大量政府机构职位如公务员、军队文职等启动线上报考招聘工作。但大量繁杂的岗位信息也为求职者选岗带来了困难。针对选岗慢、选岗难等问题,基于少量人工标注的岗位文本信息,提出了一种新型的精准岗位推荐算法。通过特征构建,明确不同招考信息的匹配规则;通过基于文本分类的ERNIE-BiLSTM-CRF训练实体识别模型,实现长文本岗位描述信息的隐含条件抽取;提出改进的基于动态词向量的加权余弦相似度算法,解决文本相似度计算中无关信息噪音问题。在自标注的数据集上的实验结果表明,上述条件抽取模型的F1值较最优算法提升14.97%,相似度匹配命中率和DCG值分别提升20.5%和22.9%,可有效实现基于小样本的人岗模糊匹配,为求职者提供准确、鲁棒的文职岗位推荐服务。  相似文献   

11.
从医疗文本中抽取知识对构建医疗辅助诊断系统等应用具有重要意义.实体识别是其中的核心步骤.现有的实体识别模型大都是基于标注数据的深度学习模型,非常依赖高质量大规模的标注数据.为了充分利用已有的医疗领域词典和预训练语言模型,本文提出了融合知识的中文医疗实体识别模型.一方面基于领域词典提取领域知识,另一方面,引入预训练语言模型BERT作为通用知识,然后将领域知识和通用知识融入到模型中.此外,本文引入了卷积神经网络来提高模型的上下文建模能力.本文在多个数据集上进行实验,实验结果表明,将知识融合到模型中能够有效提高中文医疗实体识别的效果.  相似文献   

12.
从非结构化文本中抽取实体关系三元组是自然语言处理中的主要任务形式之一。目前主流的方法是采用联合式抽取,能够在训练过程中自动捕捉到实体与关系间的依赖知识,提高了实体和关系的抽取效果。但这些方法忽略了实体的类型知识,导致大量的冗余计算和错误结果的产生。鉴于此,文中提出一种融合注意力和实体类型知识的实体关系联合抽取方法。首先,采用预训练模型BERT作为编码器得到句子中各字符的向量表示,再经双向LSTM层处理得到最终的语义表示;其次,基于表示层的结果完成头、尾实体的识别;接着,通过融合不同头实体的语义信息到句子表示中,实现头实体类型约束下的潜在语义关系发现;最后,将头实体和关系分别输入自注意力模块识别出对应尾实体,得到实体关系三元组。通过在公开数据集NYT和WebNLG上的大量实验表明:文中所提模型在实体关系联合抽取任务中的F1值达到了93.2%和93.3%,与当前主流模型相比提升显著。  相似文献   

13.
<正>本文基于国网客服中心95598语音转文本数据,采用Ro BERTa语言模型对语句进行向量表示与特征提取,通过添加机制,模型可以关注与当前输出相关的信息,并获得文本中的潜在语义信息。通过对照组实验,本文构造的模型能够有效提高实体识别精准程度,且该模型在文本数据集上的抽取效果明显优于其他模型。命名实体识别(Named Entity Recognition,NER)获取有关子任务的信息,搜索分配给文本的对象,并将其分类到预定义的类别中。命名实体识别是自然语言处理中的热点研究方向之一,用于识别和分类文本中的相关实体的类别。命名实体识别的准确度,  相似文献   

14.
为提高中文电子病历中命名实体识别模型鲁棒性和准确性,为此提出一种基于BERT模型融入对抗网络的中文电子命名实体识别模型,该方法使用BERT预训练模型动态生成字向量,通过对抗训练生成扰动,将字向量与扰动相加生成对抗样本,再通过膨胀卷积网络(IDCNN)捕捉句子单词间的依赖,最后通过条件随机场(CRF)得到最终预测结果。在CCKS2019数据集上的实验表明,模型的F1值达到83.19%,证明该模型的有效性。  相似文献   

15.
文中针对生物医学实体识别中存在的边界识别不准确和鲁棒性差的问题,提出了一种融合了预训练语言模型BERT与跨度标签网络的命名实体识别模型。该模型利用BERT获取文本的上下文信息,并结合跨度标签网络进行实体分类及边界判定,显著提升了实体识别的准确性。为增强模型的鲁棒性,引入对抗训练策略,通过迭代训练正常样本与对抗样本,以优化模型参数。基于CCKS2019评测数据集的实验表明,应用对抗训练方法后,其精准率、召回率及F1值均有所提升,验证了对抗训练能对提高模型的预测能力和鲁棒性的有效性。  相似文献   

16.
基于层叠隐马尔可夫模型的中文命名实体识别   总被引:29,自引:0,他引:29  
提出了一种基于层叠隐马尔可夫模型的中文命名实体一体化识别方法,旨在将人名识别、地名识别以及机构名识别等命名实体识别融合到一个相对统一的理论模型中。首先在词语粗切分的结果集上采用底层隐马尔可夫模型识别出普通无嵌套的人名、地名和机构名等,然后依次采取高层隐马尔可夫模型识别出嵌套了人名、地名的复杂地名和机构名。在对大规模真实语料库的封闭测试中,人名、地名和机构识别的F-1值分别达到92.55%、94.53%、86.51%。采用该方法的系统ICTCLAS在2003年5月SIGHAN举办的第一届汉语分词大赛中名列前茅。  相似文献   

17.
命名实体识别在自然语言处理实践中具有高度重要的作用,而且也是信息提取等各种自然语言方式的基础工具.本文采用条件随机场模型(Conditional Random Fields,CRF)对维吾尔语音乐实体识别进行初步的探讨.首先维吾尔语网站上收集数据,进行一系列预处理后得到纯文本,然后制定语料标注规则对实体进行人工标注,再利用上下文、关键字、词典等一系列特征进行训练,制定一个适合的模板来进行音乐实体的识别.实验结果证明,此方法在维吾尔语音乐领域不仅可行、而且有效.  相似文献   

18.
针对中文电子病历报告中专业词汇较多导致的边界识别困难问题,文章提出了一种增强实体边界检测方法来更好地识别医学命名实体,即以实体边界预测为辅助任务,增强模型对实体边界的检测能力,提高模型性能。该文从两个方面增强了实体边界,一是通过在BERT与训练语言模型底层添加自制医学词典,增强模型对词汇边界信息的学习;二是以实体头尾预测作为辅助任务,进一步增强模型对实体边界的识别能力。在1个医学领域的公共数据集上进行了实验,相较于基线模型,F1值得到了1.96%的提升,说明该方法能有效检测实体边界,提升模型性能,验证了该模型的在医学领域的适用性。  相似文献   

19.
文中研究了知识图谱中关于实体关系联合抽取方式,解决流水线抽取方式的误差传播、效率低下及关系重叠的问题,设计了网络安全本体模型,提出基于深度学习的Seq2Seq联合抽取模型,编码层通过BERT-WWM和双向长短期记忆网络(Bi-directional Long Short-Term Memory, BiLSTM)模型获取上下文语义表示,并融合多头注意力机制突显文本中的重要单词,解码层通过指针网络输出序列标注,从而获取头实体、关系及尾实体。以自标注的数据集为语料,通过TensorFlow框架建模,对实体和关系抽取的质量进行评估。结果表明,模型的精确率、召回率和F1值均较高,验证了联合抽取模型的有效性,最后通过Neo4j图数据库构建并可视化知识图谱。  相似文献   

20.
基于最大熵模型的语义角色标注   总被引:1,自引:0,他引:1  
提出了基于最大熵模型的语义角色标注方法,该方法以浅层句法分析为基础,把短语或命名实体作为标注的基本单元,将最大熵模型用于句子中谓词的语义角色标注.该方法的关键在于模型参数估计和特征选择.具体应用中采用IIS算法学习模型参数,并选择基于句法成分的、基于谓词的、句法成分一谓词关系、语义四类特征作为模型特征集.将该方法用于信息抽取中事件表述语句的语义角色标注,对"职务变动"和"会见"两类事件的表述语句进行事件要素的语义角色标注,在各自的测试集上分别获得了76.3%和72.2%的综合指标F值.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号