首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 109 毫秒
1.
基于多层条件随机场的中文命名实体识别   总被引:2,自引:0,他引:2       下载免费PDF全文
命名实体识别属于自然语言处理的基础研究领域,是信息抽取、信息检索、机器翻译、组块分析、问答系统等多种自然语言处理技术的重要基础。主要研究中文命名实体中对复杂地名和复杂机构名的识别,提出一种基于多层条件随机场的命名实体识别的方法。对大规模真实语料进行开放测试,两项识别的召回率、准确率和F值分别达到91.95%、89.99%、90.50%和90.07%、88.72%、89.39%。  相似文献   

2.
为满足农业命名实体领域中多样而精确的需求,本文采用基于条件随机场的命名实体识别,将农业命名实体分为病虫害、作物、化肥及农药4种命名实体,并用自定义标注集对其进行标注,以ICTCLAS分词系统来对收集到的语料进行分词,通过添加多种不同的特征以提高识别率。最终训练得到的模型对各命名实体识别的准确率达到了93%以上,召回率达到了84%以上,证明对农业命名实体细致划分为多个实体是可行的。  相似文献   

3.
王昌厚 《福建电脑》2012,28(2):89-89,93
本文使用条件随机场模型解决中文命名体识别问题,探讨了特征的选择对命名体识别的影响。实验证明,词的边界特征、构词特征(词的首字和尾子)、词性特征、词的上下文特征(尤其是前缀和后缀)对识别命名体具有非常大的帮助。  相似文献   

4.
基于层叠条件随机场的旅游领域命名实体识别   总被引:3,自引:0,他引:3  
针对旅游领域,提出了一种基于层叠条件随机场模型的旅游领域命名实体识别方法。该方法在低层条件随机场中以字为切分粒度,结合旅游景点常用字表、景点常用后缀表、地名常用字表等特征词典,实现简单旅游命名实体的识别;其识别结果传递到高层模型,以词为切分粒度,结合复杂特征,实现嵌套景点、特产风味、地点的识别。最后进行了两组相关实验,结果表明,在开放测试中,层叠条件随机场模型相比于单层模型,F值提高了8个百分点;相比于HMM模型,正确率提高了8个百分点,召回率提高了22个百分点,F值提高了15个百分点。  相似文献   

5.
6.
生物医学命名实体识别是从生物医学文献中获取关键知识的基础与关键任务.文中提出基于深层条件随机场的生物医学命名实体识别方法,构建多层结构的深层条件随机场模型,在不同层次的特征上结合增量式学习策略,选择最优特征集.最后通过基于〈全名,缩写〉对和基于领域信息的错误纠正算法,进一步修正识别结果.在生物医学命名实体评测语料JNLPBA上的实验验证文中方法的有效性.  相似文献   

7.
中医临床病历是中医重要的科研数据资源,但目前临床病历仍以文本为主要表达形式,对病历数据深入分析的前提是进行结构化信息抽取,而命名实体抽取是其基础性步骤。针对中医临床病历的命名实体,如症状、疾病和诱因等的抽取问题,通过手工标注的413份病历数据(以中文字为特征)与4类特征模版,将条件随机场(CRF)、隐马尔科夫模型(HMM)和最大熵马尔科夫模型(MEMM)用于中医病历命名实体抽取的实验,并进行比较分析。结果表明,结合合适的特征模版,CRF命名实体抽取方法取得了较好的性能,F1值的症状达到0.80,疾病名称达到0.74,诱因0.74。与HMM和MEMM相比,CRF有最高的准确率和召回率,是一种较为适用的中医临床病历命名实体抽取方法。  相似文献   

8.
9.
对中文地名识别进行了研究,提出了一种结合多知识的地名识别方法,该方法首先以条件随机场模型为框架,充分利用地名的外部特征和内部颗粒特征,将局部特征、复合特征以及专家知识相融合进行中文地名识别;在此结果上,利用构建的专家规则库对实验结果进行修正。实验结果表明,本文的方法是有效的,实验语料为1998年1月的《人民日报》,开放测试准确率、召回率、和F-值分别达到了93.64%、90.36%、92.03%。  相似文献   

10.
黄定琦  史晟辉 《计算机应用研究》2020,37(6):1724-1728,1754
汉语语言在书面表达时不具有天然分词的特性,词汇与词汇之间没有分词标记,因此在汉语文本的识别中需结合其行文的习惯及规则,即所谓的词汇特征。已有研究通常在实验中显式地标注词汇特征来提高识别效果,增加了人工处理流程,极大地加重了算法移植的工作量。研究并归纳了常用汉语语言的词汇特征,并利用条件随机场(conditional random fields,CRF)的特征提取能力,自行实现了复杂特征函数,在语料只具有简单标注的前提下,隐式地提取词汇特征,提高了识别效果。实验证明,在汉语分词中应用复杂词汇特征能有效提高识别性能,提供了在应用中提高识别算法可移植性的新思路。  相似文献   

11.
基于条件随机域的生物命名实体识别   总被引:1,自引:1,他引:0       下载免费PDF全文
提出一种基于条件随机域模型的生物命名实体识别方法,结合单词构词特性以及距离依赖特性,在JNLPBA的GENIAV3.02数据上进行实验,测试结果表明,引入距离依赖后,系统的识别性能比只利用单特性的条件随机域方法提高2.54%,可获得较好的识别效果,提高了系统的识别效率。  相似文献   

12.
基于知识图谱的网络安全动态预警方法,能够主动感知和应对网络安全攻击,增强感知的实时性和精准性。然而,在构建网络安全知识图谱的实体抽取过程中,传统的命名实体识别工具和方法无法识别网络安全领域中的特定类别实体,文本中的未登录和中英文混合的网络安全实体也难以被准确识别。网络安全文本中的网络安全命名实体存在中英文混合、单词缩写等问题,仅基于字的命名实体识别方法难以充分表征字或词的语义信息。因此,论文考虑中英文更细粒度的部件语义捕捉字或词的语义特征,提出一种基于部件CNN的网络安全命名实体识别方法(C C-NS-NER),利用部件CNN抽取词语部件特征中的关键语义特征,丰富字词级别的语义信息,并引入BiLSTM-CRF确保抽取字向量和部件特征中的抽象信息,同时获取标签之间的关联信息,识别文本中的网络安全命名实体。在人工标注的网络安全数据集上的实验结果表明,该方法相较于传统模型,能有效获取字或词的部件语义信息,显著提高网络安全命名实体识别的效果。  相似文献   

13.
大多数中文命名实体识别模型中, 语言预处理只关注单个词和字符的向量表示, 忽略了它们之间的语义关系, 无法解决一词多义问题; Transformer特征抽取模型的并行计算和长距离建模优势提升了许多自然语言理解任务的效果, 但全连接结构使得计算复杂度为输入长度的平方, 导致其在中文命名实体识别的效果不佳. 针对这些问题,...  相似文献   

14.
裁判文书中的命名实体识别是自动化审判的关键一步,如何能够有效的分辨出案件的关键命名实体是本文的研究重点.因此本文针对财产纠纷审判案件,提出了一种基于SVM-BiLSTM-CRF的神经网络模型.首先利用SVM筛选出包含关键命名实体的句子,然后将正确包含此类实体的句子转化为字符级向量作为输入,构建适合财产纠纷裁判文书命名实体识别的BiLSTM-CRF深层神经网络模型.通过构建训练数据进行验证和对比,该模型比其他相关模型表现出更高的召回率和准确率.  相似文献   

15.
命名实体识别和歧义消解是自然语言理解的重要研究内容。针对提供实体知识库情况下的命名实体识别和歧义消解任务,该文提出了一种基于多步聚类的方法。首先通过两轮聚类将命名实体与知识库实体定义链接,然后通过层次聚合式聚类对知识库中未出现的实体进行聚类,最后进行普通词的识别和基于K-Means聚类的结果调整。在CLP-2012的汉语命名实体识别和歧义消解评测数据上的实验表明,该文的方法表现出良好的性能,在测试集上的F值高出评测参赛队伍最好水平6.46%,达到86.68%。  相似文献   

16.
现有的命名实体识别方法主要是将句子看作一个序列进行处理,忽略了句子中潜在的句法信息,存在长距离依赖问题.为此,该文提出一种基于依存关系的命名实体识别模型,通过在输入数据中增加依存树信息,改变双向长短时记忆网络的层间传播方式,以获得单词在依存树中的子节点和父节点信息,并通过注意力机制动态选择两者的特征,最后将特征输入到C...  相似文献   

17.
作为我国桥梁工程领域最重要的数据源之一,桥梁检测文本蕴含了丰富的结构构件参数及检测病害描述等关键业务信息,但面向该领域的文本信息抽取研究尚未有效开展.该文在阐明其领域命名实体识别目标任务的基础上,分析了待识别实体在蕴含大量专业术语的同时,存在地名或路线名嵌套、字符多义、上下文位置相关和方向敏感等领域特性.鉴于此,该文提...  相似文献   

18.
准确的命名实体识别是结构化电子病历的基础,对于电子病历规范化编写有着重要的作用,而现今的分词工具对于专业的医疗术语无法做到完全正确的区分,使得结构化电子病历难以实现.针对医疗实体识别中出现的问题,本文提出了一种在命名实体识别领域中改进的BiLSTM-CRF深度学习模型.模型将文字和标签结合作为输入,在多头注意力机制中使模型关注更多的有用信息, BiLSTM对输入进行特征提取,得到每个文字在所有标签上的概率, CRF在训练过程中学习到数据集中的约束,进行解码时可以提高结果的准确率.实验使用人工标注的1 000份电子病历作为数据集,使用BIO标注方式.从测试集的结果来看,相对于传统的BiLSTM-CRF模型,该模型在实体类别上的F1值提升了3%–11%,验证了该模型在医疗命名实体识别中的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号