首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
行业人物命名实体识别旨在从行业人物语料中抽取出有效的实体信息,是深度挖掘行业人物信息资源的基础性和关键性任务。由于主流的命名实体识别模型未充分利用词信息特征,导致在对具有特色的行业人物实体进行识别时语义、实体边界识别不准确。提出一种基于字词融合与对抗训练的行业人物实体识别模型。利用RoBERTa-wwm-ext预训练模型提取句子的字特征,并融合词典构造出句子的词特征。在字词融合的向量表示上添加扰动生成对抗样本,将融合向量表示与对抗样本作为训练数据输入双向长短期记忆神经网络(BiLSTM)学习上下文信息,并通过条件随机场(CRF)推理最优的序列标注结果。根据行业人物文本特点设计命名实体标注方案,构建数据集进行实验验证。实验结果表明,该模型在测试集上的精确率、召回率、F1值分别达到92.94%、94.35%、93.64%,相较于BERT-BiLSTM-CRF模型分别提升3.68、1.24、2.39个百分点。  相似文献   

2.
现有的人员简历信息抽取方法无法针对金融公告中非结构化人员简历进行人员属性以及事件的抽取,无法发现金融公告中跨文档的人员之间关系。针对以上问题,将非结构化的人员简历抽取成结构化的人员信息模板,提出一种金融领域人物关系图谱构建方法。通过对BERT预训练语言模型进行训练,抽取出非结构化人员简历文本中的人员属性实体,利用训练好的BERT预训练模型获取事件实例向量,对事件实例向量进行准确的分类,填充层次化的人员信息模板,准确地关联人员属性。进一步地,通过填充好的人员信息模板,提取人员关系,构建人物关系图谱。通过构建人工标注的数据集,进行实验验证。实验表明所提出的方法可以有效解决非结构化金融人员简历文本信息提取问题,有效地构建金融领域人物关系图谱。  相似文献   

3.
命名实体识别是构建时钟领域知识图谱的关键步骤,然而目前时钟领域存在标注样本数量少等问题,导致面向时钟领域的命名实体识别精度不高。为此,利用预训练语言模型BERT进行时钟领域文本的特征提取,利用线性链条件随机场(Linear-CRF)方法进行序列标注,提出了一种BERT-LCRF的命名实体识别模型。对比实验结果表明,该模型能够充分学习时钟领域的特征信息,提升序列标注精度,进而提升时钟领域的命名实体识别效果  相似文献   

4.
电子病历是诊疗过程中记录患者健康状况的档案, 文本中分布着大量的医学实体, 其中蕴含着丰富的医学信息. 目前医学领域的关系抽取模型主要是通过关系分类的方法识别两个给定医学实体之间的语义关系. 中文电子病历具有实体高密度分布的特点. 针对这个问题, 本文提出了一种基于条件提示与序列标注的关系三元组识别方法, 将关系三元组识别任务转换为序列标注任务. 关系三元组中的头实体和关系类型作为条件提示信息, 通过序列标注方法识别电子病历文本中与条件提示信息有关联的尾实体. 在中文电子病历数据集上的实验证明本文方法能有效识别中文电子病历中的关系三元组.  相似文献   

5.
为了充分发掘中文简历数据中所蕴含的信息,提高构建社交网络知识图谱和档案知识图谱的实体丰富度,提出了基于BERT的中文简历命名实体识别技术.该技术模型首先通过BERT网络将大规模未标注文本生成具有语义特征的字符向量,接着通过嵌入条件随机场(CRF)的双向长短时记忆(BiLSTM)神经网络模型获取输入文本序列的上下文特征,解码标注提取出相应的8个实体类型.实验结果表明,该网络模型在个人中文简历数据集上取得了97.07%的平均F1值,可以运用于中文简历数据的实体识别任务.  相似文献   

6.
新能源汽车命名实体存在实体边界模糊,多为未登录词,现存标注样本较少等问题,识别精确率和召回率较低。据此,提出了一种基于多通道神经网络(Multiple Channel Neural Network,MCNN)的新能源汽车实体识别模型,该模型融合了字词特征和片段特征,不再将实体识别当作传统的序列标注任务,利用半马尔科夫条件随机场(Semi-Markov CRF,SCRF)针对片段特征建模,对输入的句子切分片段并对片段整体分配标记,同时完成实体边界的识别和实体分类,弥补了传统字词序列标注模型采用局部标记区分实体边界的不足。为解决现存标注样本较少的问题,在训练模型的过程中,引入了一种基于不确定性和相似度相结合的主动学习(Active Learning,AL)。通过多组对比实验表明,该模型在大幅度减少人工标注量的同时,能够提高识别精确率和召回率。  相似文献   

7.
信息抽取技术用于从非结构化文本数据中提取关注度较高的信息。事件抽取技术是信息抽取研究领域中具有挑战的研究方向。事件抽取的目的是从非结构化文本数据中抽取描述事件的关键元素,并以结构化的方式呈现。事件抽取被看作序列标注任务,首先采用ALBERT预训练模型学习特征,其次引入条件随机场CRF模型提高序列标注性能,最后完成事件类型以及事件要素的识别分类。在ACE2005标准语料库上的实验结果表明,与现有模型相比,ALBERT-CRF模型在触发词识别和分类任务上的召回率和F值均有所提高。  相似文献   

8.
微博是信息共享的重要平台,同时,也成为虚假消息产生和推广的重要平台,虚假消息的传播严重扰乱了社会秩序。为了快速、有效地识别微博虚假消息,提出一种基于梯度提升决策树(GBDT)的虚假消息检测方法。首先,从评论的角度分析微博虚假消息和真实消息之间存在的差异,在此基础上提取评论中的文本内容、用户属性,信息传播和时间特性的分类特征;然后,基于分类特征,采用GBDT算法实现微博虚假消息识别模型;最后,在两个真实的微博数据集上进行验证。实验结果表明,基于GBDT的识别模型能有效提高微博虚假消息检测的准确率。  相似文献   

9.
随着网络应用服务类型的多样化以及网络流量加密技术的不断发展,加密流量识别已经成为网络安全领域的一个重大挑战。传统的流量识别技术如深度包检测无法有效地识别加密流量,而基于机器学习理论的加密流量识别技术则表现出很好的效果。因此,本文提出一种融合梯度提升决策树算法(GBDT)与逻辑回归(LR)算法的加密流量分类模型,使用贝叶斯优化(BO)算法进行超参数调整,利用与时间相关的流特征对普通加密流量与VPN加密流量进行识别,实现了整体高于90%的流量识别准确度,与其他常用分类模型相比拥有更好的识别效果。  相似文献   

10.
受限于标注语料的领域和规模以及类别不均衡,中文人名识别性能偏低。相比人名识别训练语料,人名词典获取较为容易,利用词典提升人名识别性能有待进一步研究。该文提取人名词典特征,融入到双向长短期记忆(Bi-LSTM)网络模型中,在损失函数中提高人名标签权重,设计加权条件随机场(WCRF)。从人名词典中获取姓和名相关的特征信息,Bi-LSTM网络捕获句子中上下文信息,WCRF提高人名识别的召回率。在《人民日报》语料和工程法律领域语料上进行实验,结果表明: 在领域测试语料上,与基于隐马尔可夫模型的方法相比,人名识别的F1值提高18.34%,与传统Bi-LSTM-CRF模型相比,召回率提高15.53%,F1提高8.83%。WCRF还可以应用到其他类别不均衡的序列标注或分类问题中。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号