首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 296 毫秒
1.
凌广明  徐爱萍  王伟 《电子学报》2000,48(11):2081-2091
文本序列的自动标注能够解决深度学习普遍面临的人工标注成本过高的问题.本文针对地址信息的实体表述特征,构建基于实体边界矩阵(Entity Boundary Matrix,EBM)的表示模型,在此基础上提出了一种基于深度学习和KNN标签修正算法(K-Nearest Neighbours Correction Algorithm,KNN-CA)的不需要任何人工标注训练集的自动标注算法.首先获取预置小区数据集并构建离线特征库和初始化在线特征库;接着通过匹配算法求解EBM并利用KNN-CA进行优化,再通过数据增广得到自动标注的训练集;然后训练BiLSTM-CRF深度学习模型并预测所有未曾标注的地址信息的序列标注;最后再次利用KNN-CA优化可求解EBM的序列标注,由此构建适用于中文地理命名实体(Chinese Geospatial Named Entities,CGSNE)识别及相关研究的序列标注语料库.实验表明,标注数据的F1值达到了95.35%.  相似文献   

2.
本文使用大规模预训练汉语模型的BERT-BiLSTM-CRF方法,从运营商的非结构化文本数据中联合提取命名实体与关系。首先,通过运营商非结构化文本数据建立运营商文本语料库,对语料进行文本标签标注;然后,提出一种基于运营商文本命名实体与关系提取的BERT-BiLSTM-CRF模型方法。实验结果表明,该技术在运营商文本命名实体与关系联合提取中适用性较强,在运营商文本的命名实体与关系联合提取中,F1值高达93.2%,可以将该方法应用到实际问题解决中。  相似文献   

3.
针对医疗护理领域知识复杂性强、数据量大以及对准确度要求较高的问题,该研究提出一种基于卷积神经网络的医疗护理学实体关系抽取方法,实现对护理学语义关系的细粒度文本挖掘。该研究构建了医疗护理学语料标注系统,通过将医疗语料转化为向量特征矩阵,实现了对医疗语料的自动过滤和标注。通过向神经网络模型嵌入所构建的医疗关系语料库,一定程度上提高了模型疾病分类的准确度。在医疗护理学数据集上的实验表明,基于卷积神经网络的模型在指标精确度、召回率、F1值可达到89.78%、87.59%、89.77%。综上所述,该研究提出的基于卷积神经网络的医疗护理学实体关系抽取方法能够有效地抽取医疗语料数据中的实体关系,优于传统的实体关系抽取模型。  相似文献   

4.
为解决传统施工安全管理中对事故报告信息分析效率低的问题,利用自然语言处理(Natural Language Processing,NLP)技术,提出基于双向编码器表示(Bidirectional Encoder Representations from Transformers,BERT)的施工安全事故文本命名实体识别方法。以自建的施工安全事故领域实体标注语料数据集为研究对象,首先利用BERT预训练模型获取动态字向量,然后采用双向长短时记忆网络-注意力机制-条件随机场(BiLSTM-Attention-CRF)对前一层输出的语义编码进行序列标注和解码以获取最优文本标签序列。实验结果表明,该模型在自建数据集上的F1值分数为92.58%,较基准模型BiLSTM-CRF提升了4.19%;该方法对事故时间等5类实体识别F1值均可达到91%以上,验证了该方法对施工安全事故实体识别的有效性,说明模型可用于实际施工知识管理中并指导建筑安全管理的安全培训。  相似文献   

5.
自然语言理解任务的主要目标是运用自然语言处理的相关方法,对用户发出的语句进行解析,转化成结构化的语义表示.本文重点研究了基于语义槽抽取的自然语言理解方法.在基于语义槽抽取的自然语言理解任务中,任务的输入是用户的指令型语句,输出为指令的语义槽实体标注序列,如出发日期、出发地点等,故可将语义槽抽取任务看作类似于命名实体识别任务,以序列标注任务的方法解决.本文研究提出了基于Bi-LSTM-CRF模型的语义槽抽取方法,在英文语料ATIS上进行了实验.实验结果表明,基于Bi-LSTM-CRF网络的方法相比于传统机器学习的基准方法,结果得到了大幅度的提升.对于模型识别的结果,研究中采用F1值进行评价.  相似文献   

6.
针对高级可持续威胁(APT)分析报告未被有效利用,缺乏自动化方法生成结构化知识并形成黑客组织特征画像问题,提出一种融合实体识别和实体对齐的APT攻击知识自动抽取方法。首先,结合APT攻击特点设计12种实体类别;其次,构建融合Bert、双向长短期记忆(BiLSTM)网络和条件随机场(CRF)的APT攻击实体识别模型,利用Bert预训练标注语料,BiLSTM学习上下文语义信息,注意力机制突出关键特征,再由CRF识别实体;最后,结合实体对齐方法来生成不同APT组织的结构化知识。实验结果表明,所提方法能有效识别APT攻击实体,其精确率、召回率和F1值分别为0.929 6、0.873 3和0.900 6,均优于现有模型。此外,所提方法能在少量样本标注的情况下自动抽取高级可持续威胁知识,通过实体对齐能生成常见APT组织的结构化特征画像,从而为后续APT攻击知识图谱构建和攻击溯源提供支撑。  相似文献   

7.
从医疗文本中抽取知识对构建医疗辅助诊断系统等应用具有重要意义.实体识别是其中的核心步骤.现有的实体识别模型大都是基于标注数据的深度学习模型,非常依赖高质量大规模的标注数据.为了充分利用已有的医疗领域词典和预训练语言模型,本文提出了融合知识的中文医疗实体识别模型.一方面基于领域词典提取领域知识,另一方面,引入预训练语言模型BERT作为通用知识,然后将领域知识和通用知识融入到模型中.此外,本文引入了卷积神经网络来提高模型的上下文建模能力.本文在多个数据集上进行实验,实验结果表明,将知识融合到模型中能够有效提高中文医疗实体识别的效果.  相似文献   

8.
从非结构化文本中抽取实体关系三元组是自然语言处理中的主要任务形式之一。目前主流的方法是采用联合式抽取,能够在训练过程中自动捕捉到实体与关系间的依赖知识,提高了实体和关系的抽取效果。但这些方法忽略了实体的类型知识,导致大量的冗余计算和错误结果的产生。鉴于此,文中提出一种融合注意力和实体类型知识的实体关系联合抽取方法。首先,采用预训练模型BERT作为编码器得到句子中各字符的向量表示,再经双向LSTM层处理得到最终的语义表示;其次,基于表示层的结果完成头、尾实体的识别;接着,通过融合不同头实体的语义信息到句子表示中,实现头实体类型约束下的潜在语义关系发现;最后,将头实体和关系分别输入自注意力模块识别出对应尾实体,得到实体关系三元组。通过在公开数据集NYT和WebNLG上的大量实验表明:文中所提模型在实体关系联合抽取任务中的F1值达到了93.2%和93.3%,与当前主流模型相比提升显著。  相似文献   

9.
<正>本文基于国网客服中心95598语音转文本数据,采用Ro BERTa语言模型对语句进行向量表示与特征提取,通过添加机制,模型可以关注与当前输出相关的信息,并获得文本中的潜在语义信息。通过对照组实验,本文构造的模型能够有效提高实体识别精准程度,且该模型在文本数据集上的抽取效果明显优于其他模型。命名实体识别(Named Entity Recognition,NER)获取有关子任务的信息,搜索分配给文本的对象,并将其分类到预定义的类别中。命名实体识别是自然语言处理中的热点研究方向之一,用于识别和分类文本中的相关实体的类别。命名实体识别的准确度,  相似文献   

10.
文中针对生物医学实体识别中存在的边界识别不准确和鲁棒性差的问题,提出了一种融合了预训练语言模型BERT与跨度标签网络的命名实体识别模型。该模型利用BERT获取文本的上下文信息,并结合跨度标签网络进行实体分类及边界判定,显著提升了实体识别的准确性。为增强模型的鲁棒性,引入对抗训练策略,通过迭代训练正常样本与对抗样本,以优化模型参数。基于CCKS2019评测数据集的实验表明,应用对抗训练方法后,其精准率、召回率及F1值均有所提升,验证了对抗训练能对提高模型的预测能力和鲁棒性的有效性。  相似文献   

11.
基于层叠隐马尔可夫模型的中文命名实体识别   总被引:29,自引:0,他引:29  
提出了一种基于层叠隐马尔可夫模型的中文命名实体一体化识别方法,旨在将人名识别、地名识别以及机构名识别等命名实体识别融合到一个相对统一的理论模型中。首先在词语粗切分的结果集上采用底层隐马尔可夫模型识别出普通无嵌套的人名、地名和机构名等,然后依次采取高层隐马尔可夫模型识别出嵌套了人名、地名的复杂地名和机构名。在对大规模真实语料库的封闭测试中,人名、地名和机构识别的F-1值分别达到92.55%、94.53%、86.51%。采用该方法的系统ICTCLAS在2003年5月SIGHAN举办的第一届汉语分词大赛中名列前茅。  相似文献   

12.
命名实体识别在自然语言处理实践中具有高度重要的作用,而且也是信息提取等各种自然语言方式的基础工具.本文采用条件随机场模型(Conditional Random Fields,CRF)对维吾尔语音乐实体识别进行初步的探讨.首先维吾尔语网站上收集数据,进行一系列预处理后得到纯文本,然后制定语料标注规则对实体进行人工标注,再利用上下文、关键字、词典等一系列特征进行训练,制定一个适合的模板来进行音乐实体的识别.实验结果证明,此方法在维吾尔语音乐领域不仅可行、而且有效.  相似文献   

13.
针对中文电子病历报告中专业词汇较多导致的边界识别困难问题,文章提出了一种增强实体边界检测方法来更好地识别医学命名实体,即以实体边界预测为辅助任务,增强模型对实体边界的检测能力,提高模型性能。该文从两个方面增强了实体边界,一是通过在BERT与训练语言模型底层添加自制医学词典,增强模型对词汇边界信息的学习;二是以实体头尾预测作为辅助任务,进一步增强模型对实体边界的识别能力。在1个医学领域的公共数据集上进行了实验,相较于基线模型,F1值得到了1.96%的提升,说明该方法能有效检测实体边界,提升模型性能,验证了该模型的在医学领域的适用性。  相似文献   

14.
文中研究了知识图谱中关于实体关系联合抽取方式,解决流水线抽取方式的误差传播、效率低下及关系重叠的问题,设计了网络安全本体模型,提出基于深度学习的Seq2Seq联合抽取模型,编码层通过BERT-WWM和双向长短期记忆网络(Bi-directional Long Short-Term Memory, BiLSTM)模型获取上下文语义表示,并融合多头注意力机制突显文本中的重要单词,解码层通过指针网络输出序列标注,从而获取头实体、关系及尾实体。以自标注的数据集为语料,通过TensorFlow框架建模,对实体和关系抽取的质量进行评估。结果表明,模型的精确率、召回率和F1值均较高,验证了联合抽取模型的有效性,最后通过Neo4j图数据库构建并可视化知识图谱。  相似文献   

15.
基于最大熵模型的语义角色标注   总被引:1,自引:0,他引:1  
提出了基于最大熵模型的语义角色标注方法,该方法以浅层句法分析为基础,把短语或命名实体作为标注的基本单元,将最大熵模型用于句子中谓词的语义角色标注.该方法的关键在于模型参数估计和特征选择.具体应用中采用IIS算法学习模型参数,并选择基于句法成分的、基于谓词的、句法成分一谓词关系、语义四类特征作为模型特征集.将该方法用于信息抽取中事件表述语句的语义角色标注,对"职务变动"和"会见"两类事件的表述语句进行事件要素的语义角色标注,在各自的测试集上分别获得了76.3%和72.2%的综合指标F值.  相似文献   

16.
袁里驰 《电子学报》2017,45(10):2533-2539
语义角色标注是一种浅层语义分析.现有的汉语语义分析方法和语义角色标注体系没有结合汉语的特点并有效刻画出汉语的本质特性,导致目前汉语语义角色标注性能与英语相比相差较大.在汉语中,配价结构可以较好地刻画汉语句子的句法结构和语义构成关系,因此,我们在考察配价语法的基础上适当修改了语义角色标注体系并将谓词本身的配价信息融入语义角色标注.实验结果表明,配价信息的使用能够较大幅度提高动名词性谓词的语义角色标注性能:基于正确句法树和正确谓词识别,动词性谓词的SRL性能F1值达到93.69%;名词性谓词的SRL性能F1值达到79.23%;均优于目前国内外的同类系统.  相似文献   

17.
针对大规模知识库问答的特点,构建了1个包含3个主要步骤的问答系统:问句中的命名实体识别、问句与属性的映射和答案选择.使用基于别名词典的排序方法进行命名实体识别,使用结合注意力机制的双向LSTM进行属性映射,最后综合前2步的结果从知识库中选择答案.该系统在NLPCC-ICCPOL 2016 KBQA任务提供的测试数据集上的平均F1值为0.8097,接近已发表的最好水平.  相似文献   

18.
结合维吾尔语的语音特征和语义信息,在大量电话语音语料库的基础上,以建立维吾尔语连续音素识别平台为目标,通过构建隐马尔科夫模型工具HTK(Hidden Markov Model Toolkit)工具实现了维吾尔语连续音素识别算法:首先根据具体技术指标完成了较大规模电话语音语料库的录制和标注工作;确定音素为基元,通过训练获得了每个音素的HMM(Hidden Markov Model)声学模型,随后对输入的语音进行识别,声学模型在不同的高斯混合数目下,得出了识别结果;统计了32个音素的识别率并对它进行分析,为了进一步提高识别率奠定了基础。  相似文献   

19.
去隐私化是2014 i2b2/UTHealth中的一个任务,目的在于识别并移除电子病历中的隐私信息.本文提出了一种基于支持向量机(SVMs)和条件随机场(CRFs)双层分类模型的去隐私化方法,经过预处理将病历文本进行词切分(tokenize)处理,并在此基础上抽取4类特征,训练SVM模型对隐私信息实体边界进行划分并将结果作为特征添加到特征集中,通过CRF训练多分类器,并通过该分类器对各个类别的隐私信息进行识别.实验表明双层分类模型对于隐私信息识别是有效的,结果F值达到0.9110.  相似文献   

20.
三元组抽取的目的是从非结构化的文本中获取实体与实体间的关系,并应用于下游任务。嵌入机制对三元组抽取模型的性能有很大影响,嵌入向量应包含与关系抽取任务密切相关的丰富语义信息。在中文数据集中,字词之间包含的信息有很大区别,为了改进由分词错误产生的语义信息丢失问题,设计了融合混合嵌入与关系标签嵌入的三元组联合抽取方法(HEPA),提出了采用字嵌入与词嵌入结合的混合嵌入方法,降低由分词错误产生的误差;在实体抽取层中添加关系标签嵌入机制,融合文本与关系标签,利用注意力机制来区分句子中实体与不同关系标签的相关性,由此提高匹配精度;采用指针标注的方法匹配实体,提高了对关系重叠三元组的抽取效果。在公开的Du IE数据集上进行了对比实验,相较于表现最好的基线模型(Cas Rel),HEPA的F1值提升了2.8%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号