首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
命名实体识别与共指消解均依赖于对实体相邻文本信息的学习,本文提出一种基于混合神经网络的命名实体识别与共指消解联合模型,共用双向长短时记忆模型LSTM编码层对输入序列中每个词前后方向上下文信息进行编码,并通过训练学习得到上下文信息传递到前馈神经网络FFNN模型以提高共指消解精度,通过将领域文档及篇章语义向量加入FFNN,改进共指消解算法并优化共指消解模型.基于领域文本数据集进行联合模型训练,实验结果表明该联合模型可以有效地提高共指消解精度.  相似文献   

2.
去隐私化是2014 i2b2/UTHealth中的一个任务,目的在于识别并移除电子病历中的隐私信息.本文提出了一种基于支持向量机(SVMs)和条件随机场(CRFs)双层分类模型的去隐私化方法,经过预处理将病历文本进行词切分(tokenize)处理,并在此基础上抽取4类特征,训练SVM模型对隐私信息实体边界进行划分并将结果作为特征添加到特征集中,通过CRF训练多分类器,并通过该分类器对各个类别的隐私信息进行识别.实验表明双层分类模型对于隐私信息识别是有效的,结果F值达到0.9110.  相似文献   

3.
命名实体识别是自然语言处理中的热点研究方向之一,目的是识别文本中的命名实体并将其归纳到相应的实体类型中。首先阐述了命名实体识别任务的定义、目标和意义,分析提出了命名实体识别的主要难点在于领域命名实体识别局限性、命名实体表述多样性和歧义性、命名实体的复杂性和开放性;然后介绍了命名实体识别研究的发展进程,从最初的规则和字典方法到传统的统计学习方法再到现在的深度学习方法,不断地将新技术应用到命名实体识别研究中以提高性能;接着系统梳理了当下命名实体识别任务中的若干热门研究点,分别是匮乏资源下的命名实体识别、细粒度命名实体识别、嵌套命名实体识别以及命名实体链接;最后针对评判命名实体识别模型的好坏,总结了常用的若干数据集和实验测评指标,并给出了未来的研究建议。  相似文献   

4.
随着生物医学研究与信息化技术的迅速发展,临床医学文献数量呈指数级增长,利用文本挖掘技术自动提取医学知识逐渐成为当前研究热点。针对目前新型冠状病毒肺炎(Corona Virus Disease 2019,COVID-19)临床文本研究匮乏、语料不足与标注质量不高等问题,本文结合UMLS医学语义网络和专家定义方式,制定医学实体标注规则,建立命名实体识别语料库,明确实体识别任务。其次,提出了一种基于MPNet与BiLSTM的COVID-19临床文本命名实体识别模型。通过预训练语言模型获得文本的向量化表示,解决了一词多义问题;采用双向长短期记忆网络,捕捉文本的长距离依赖;最后引入条件随机场,实现句子级序列注释,输出完整的最优标签序列。实验结果表明,MPNet-BiLSTM-CRF模型在COVID-19临床命名实体识别数据集上取得了较好的表现。  相似文献   

5.
王强  关毅  王晓龙 《电子与信息学报》2007,29(12):2885-2890
本文提出了一种基于标题类别语义识别的文本分类算法。算法利用基于类别信息的特征选择策略构造分类的特征空间,通过识别文本标题中的特征词的类别语义来预测文本的候选类别,最后在候选类别空间中用分类器执行分类操作。实验表明该算法在有效降低分类候选数目的基础上可显著提高文本分类的精度,通过对类别空间表示效率指标的验证,进一步表明该算法有效地提高了文本表示空间的性能。  相似文献   

6.
<正>近年来,基于神经网络的序列模型已成功应用到命名实体识别任务当中,但其局限性也十分明显,如对大规模人工标注数据的依赖。本文以“丝绸之路”专题文献为例,通过网络爬虫获取该专题的相关文献和论文摘要作为语料库,并采用无监督方法自动标注语料库中的未标记文本。然后基于模型BERT-Bi LSTM-CRF识别语料库中的各类实体。为了验证模型的性能,在“丝绸之路”专题语料库和不同的公共语料库上进行了多组实验,与不同的基线模型进行对比。实验结果表明,与其他常用模型相比,BERT-Bi LSTM-CRF模型在这些语料库上都获得了最高的F1值,在“丝绸之路”语料库上的F1值为88.89%。  相似文献   

7.
命名实体识别是自然语言处理领域的一项关键任务,其目的在于从自然语言文本中识别出具有特定含义的实体,如人名、地名、机构名和专有名词等。在命名实体识别任务中,研究人员提出过多种方法,包括基于知识和有监督的机器学习方法。近年来,随着互联网文本数据规模的快速扩大和深度学习技术的快速发展,深度学习模型已成为命名实体识别的研究热点,并在该领域取得显著进展。文中全面回顾现有的命名实体识别深度学习技术,主要分为四类:基于卷积神经网络模型、基于循环神经网络模型、基于Transformer模型和基于图神经网络模型的命名实体识别。此外,对深度学习的命名实体识别架构进行了介绍。最后,探讨命名实体识别所面临的挑战以及未来可能的研究方向,以期推动命名实体识别领域的进一步发展。  相似文献   

8.
本文使用大规模预训练汉语模型的BERT-BiLSTM-CRF方法,从运营商的非结构化文本数据中联合提取命名实体与关系。首先,通过运营商非结构化文本数据建立运营商文本语料库,对语料进行文本标签标注;然后,提出一种基于运营商文本命名实体与关系提取的BERT-BiLSTM-CRF模型方法。实验结果表明,该技术在运营商文本命名实体与关系联合提取中适用性较强,在运营商文本的命名实体与关系联合提取中,F1值高达93.2%,可以将该方法应用到实际问题解决中。  相似文献   

9.
曲晓东  李佳昊 《移动信息》2023,45(6):234-236
作为众多任务的子任务,命名实体识别的发展较为迅速,但在中文命名实体识别领域,还存在不少问题,嵌套实体就是其中一个难点。文中根据结点的传入和传出,使用了图卷积神经网络提取图特征,改善了嵌套实体的准确度,并通过使用图神经网络处理中文命名实体识别的问题,更好地融合了词典信息。另外,文中分别对两类数据集进行了实验验证,结果显示,相比其他模型,该模型有所提高。  相似文献   

10.
中文临床电子病历命名实体识别是实现智慧医疗的基本任务之一.本文针对传统的词向量模型文本语义表示不充分,以及循环神经网络(RNN)模型无法解决长时间依赖等问题,提出一个基于XLNet的中文临床电子病历命名实体识别模型XLNet-BiLSTM-MHA-CRF,将XLNet预训练语言模型作为嵌入层,对病历文本进行向量化表示,解决一词多义等问题;利用双向长短时记忆网络(BiLSTM)门控制单元获取句子的前向和后向语义特征信息,将特征序列输入到多头注意力层(multi-head attention,MHA);利用MHA获得特征序列不同子空间表示的信息,增强上下文语义的关联性,同时剔除噪声;最后输入条件随机场CRF识别全局最优序列.实验结果表明,XLNet-BiLSTM-Attention-CRF模型在CCKS-2017命名实体识别数据集上取得了良好的效果.  相似文献   

11.
文中针对生物医学实体识别中存在的边界识别不准确和鲁棒性差的问题,提出了一种融合了预训练语言模型BERT与跨度标签网络的命名实体识别模型。该模型利用BERT获取文本的上下文信息,并结合跨度标签网络进行实体分类及边界判定,显著提升了实体识别的准确性。为增强模型的鲁棒性,引入对抗训练策略,通过迭代训练正常样本与对抗样本,以优化模型参数。基于CCKS2019评测数据集的实验表明,应用对抗训练方法后,其精准率、召回率及F1值均有所提升,验证了对抗训练能对提高模型的预测能力和鲁棒性的有效性。  相似文献   

12.
《现代电子技术》2017,(4):61-65
传统的信息挖掘方法挖掘面窄,扩展性差,无法有效挖掘出网络中的不安全信息。因此,设计并实现了网络信息安全防范与Web数据挖掘系统,其由Web文本采集模块、文本分类模块和类别判断模块构成。Web文本采集模块从网络Web网页中采集文本信息,并将信息反馈给文本分类模块。文本分类模块由训练模块、分类模块和分类器构成。训练模块采用完成分类的文本对文本分类模型进行训练,获取不同类别特征词间的关联性,塑造向量空间模型。分类模块对将要进行分类的Web文本进行分词处理,通过向量描述文本特征词。分类器运算待分类文本特征向量同各类中心向量间的相似度,确保Web文本被划分到具有最高相似度的文本类型中。类别判断模块辨识待分析的网络文本信息是否属于不安全信息类,并通过报警模块对不安全信息进行报警。软件部分给出了系统的功能结构以及文本分类模块的程序实现代码。实验结果表明,所设计系统具有较高的查全率、查准率和较高的检测性能。  相似文献   

13.
针对公安领域大数据分析业务的需求,尝试为公安警情文本建立专业语料库,并以此作为NER(命名实体识别)等任务的基础性工作.结合公安警情领域专家的指导建议,制定命名实体和实体关系的标注体系及详细标注规范.搜集整合国标及公安部标准相关标准资源,并利用标注工具对接处警文本进行多轮标注.通过构建特征要素库汇总实体信息,进而对公安...  相似文献   

14.
凌广明  徐爱萍  王伟 《电子学报》2000,48(11):2081-2091
文本序列的自动标注能够解决深度学习普遍面临的人工标注成本过高的问题.本文针对地址信息的实体表述特征,构建基于实体边界矩阵(Entity Boundary Matrix,EBM)的表示模型,在此基础上提出了一种基于深度学习和KNN标签修正算法(K-Nearest Neighbours Correction Algorithm,KNN-CA)的不需要任何人工标注训练集的自动标注算法.首先获取预置小区数据集并构建离线特征库和初始化在线特征库;接着通过匹配算法求解EBM并利用KNN-CA进行优化,再通过数据增广得到自动标注的训练集;然后训练BiLSTM-CRF深度学习模型并预测所有未曾标注的地址信息的序列标注;最后再次利用KNN-CA优化可求解EBM的序列标注,由此构建适用于中文地理命名实体(Chinese Geospatial Named Entities,CGSNE)识别及相关研究的序列标注语料库.实验表明,标注数据的F1值达到了95.35%.  相似文献   

15.
张扬  陈磊  刘钦  韩春雷 《现代导航》2019,10(2):119-124
为了有效处理模式分类中的不确定信息,将证据推理的 Dempster 和 Yager 规则与 K-NN 分类相结合,设计了一种新的证据 K-NN 分类器。然后针对目标样本数据缺失且类别数目未知的识别问题,又提出了一种基于证据推理的自适应聚类算法。随机给定各分类对象的初始置信度和类别数目,通过所设计的证据 K 近邻分类器对目标数据类别属性和类别数目进行迭代更新, 实现目标数据的完全自适应聚类。通过仿真和真实数据集实验,将新算法与目前聚类识别中应用最为广泛的 FCM 进行了对比分析,结果显示新算法能够有效提高目标数据的识别正确率。  相似文献   

16.
震后快速确定地震影响场的分布对地震应急救援工作部署具有非常重要的意义。近年来信息技术的快速发展,微博新闻评论等信息随着地震发生海量增长,也包括很多灾情位置信息,为快速绘制地震影响场提供了可能。但是以上信息存在震感信息量较少、位置信息不精确、文本篇幅短、表述口语化、语义模糊等问题。为了解决以上问题,首先采用震感信息关键词在爬取微博数据时进行筛选,并使用二分类算法提取震感信息。然后采取命名实体识别技术,将震感信息中的地理位置信息进行精准识别。最后选用CNN算法对短文本数据进行分析,使用BIGRU算法解决表述口语化的问题,采用ALBERT模型对语义模糊的文本进行分析,提出一种ALBERT+BIGRU+CNN短文本分类模型,充分提取震感信息的语义特征,结合《中国地震烈度表》作为分类标准,快速准确获取地震影响场数据,并采用Vue+SpringBoot技术构建可视化平台将其绘制到三维地图中,为震后应急救援提供辅助参考。  相似文献   

17.
陈培新  郭武 《信号处理》2017,33(8):1090-1096
经典的概率主题模型通过词与词的共现挖掘文本的潜在主题信息,在文本聚类与分类任务上被广泛应用。近几年来,随着词向量和各种神经网络模型在自然语言处理上的成功应用,基于神经网络的文本分类方法开始成为研究主流。本文通过卷积神经网络(Convolutional Neural Network,CNN)和概率主题模型在文本主题分类上的效果对比,展示了CNN在此任务上的优越性。在此基础上,本文利用CNN模型提取文本的特征向量并将其命名为卷积语义特征。为了更好地刻画文本的主题信息,本文在卷积语义特征上加入文本的潜在主题分布信息,从而得到一种更有效的文本特征表示。实验结果表明,相比于单独的概率主题模型或CNN模型,新的特征表示显著地提升了主题分类任务的F1值。   相似文献   

18.
为有效解决Deep Web数据库中数据纠错、消重和整合问题,优化Deep Web数据库实体查询性能.提出一种基于智能语义自相关特征的Deep Web数据库优化识别查询模型.模型由文本匹配模型、语义自相关特征分析模型和分组统计模型构成,设计语义自相关特征提取算法,定义语义信息约束规则,优化逼近数据库实体识别结果,使用语义自相关特征建立表象关联知识库,实现数据查询过程中的纠错、消重、整合.最后用数学推导证明了算法的稳定性.仿真模拟实验表明,算法能综合考虑文本特征、语义自相关特征和约束规则,数据库查询识别结果不断精化,数据查询准确性和有效完备性提高显著.  相似文献   

19.
李晓 《电子测试》2014,(23):25-27
在自然语言文本分类处理领域中,各种主流的多标签分类方法都只能使文本具有多个标签类别,但并不能识别哪个标签对使用者来说最重要,哪些标签次重要。本文以文本信息为研究对象,通过对几种主流多标签分类算法原理的研究分析,提出了能识别主、次标签的多标签文本分类方法 -具有主次标签的多标签分类方法(Multi-Labels Text Classifier with Primary and Secondary Labels:MLTCPSL)。  相似文献   

20.
半监督学习是一种结合监督学习与无监督学习的学习方法,通过利用未标记数据,提高标记数据所建立模型的效果,目的是减少传统的机器学习任务中对大量标注数据的需求、降低人工成本.在中文电子病历实体识别领域,由于缺少足够的标注数据,且医学文本专业性较强、人工标注成本高,可以利用半监督学习方法,提升少量标注数据的训练效果.本文介绍了中文电子病历实体识别的研究背景和半监督学习的相关研究,并应用改进后的Tri-Training算法,提升中文电子病历实体识别模型的效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号