首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 718 毫秒
1.
介绍命名实体识别的基本概念,分析两种命名实体识别的基本方法:基于规则的命名实体识别方法和基于统计的命名实体识别方法,并以最大熵模型为理论基础,对中文菜名识别进行实证研究。根据中文命名实体的特点,设计6种特征模板。实验结果表明,在简单特征模板的基础上增加标注特征能有效提高命名实体的识别效果。对改进识别效果有用的特征依次为:标注特征、词性组合特征、后向词性依赖特征和词形特征。  相似文献   

2.
综述命名实体识别与翻译研究现状,提出基于信息抽取的命名实体识别与翻译方法,以及对该方法进行一系列集成优化处理,并实现了基于命名实体识别与翻译的跨语言信息检索实验。实验结果显示出命名实体识别与翻译在跨语言信息检索中的重要性,并证明了所提出的翻译加权和网络挖掘未登录命名实体方法的应用能显著提高跨语言信息检索的性能。  相似文献   

3.
基于本体的汉语领域命名实体识别   总被引:1,自引:0,他引:1  
命名实体识别是众多自然语言处理任务的核心内容之一,也是近年来的领域研究热点.本文将命名实体分为两大类:常规命名实体和领域命名实体.基于已经构建的领域本体MPO,本文提出一种基于本体知识规则与统计方法相结合的领域命名实体识别方法.该方法通过本体化实例,获取实体构成词性规则模板,结合CRFs机器学习模型,进行领域命名实体识别.实验结果表明:相比运用单一统计方法而言,该方法能使领域实体的识别性能显著提高,F值达到92.36%.同时表明本体化知识规则的有效运用,能够在领域实体边界和特殊形式领域实体识别的准确率上发挥积极作用.  相似文献   

4.
针对现有的命名实体识别方法不能很好地处理专业领域特定命名抽取的问题,提出一种基于启发式规则的专业命名识别方法。以中文文本中化学物质命名为研究对象,分析其领域特征及统计语言特征,建立适用于化学领域文献命名识别的启发式规则,为专业领域的命名实体识别提供新的解决方案。对比实验证明本文的方法能有效提升专业命名识别的效率。  相似文献   

5.
本文通过研究开源自然语言处理平台GATE和条件随机场模型,提出一种高效的电子产品领域命名实体识别策略,为实习项目中的初步工作--通过计算机智能方法识别出电子产品领域的产品品牌、属性等命名实体提出解决方案,并为下一步可能开展的领域内自动问答系统等高层应用提供底层支撑.该方法是基于层叠模型的规则与统计相结合的新的方法,分别继承了基于规则和基于统计识别方法的优点.最终,通过分析电子产品领域自身的领域特点实现了如品牌、重量等二十余种命名实体的识别.对比实验结果表明,该系统达到了令人满意的识别效果.  相似文献   

6.
范涛  王昊  陈玥彤 《情报学报》2022,(4):412-423
地方志作为中华文化的组成部分,是建设文化强国的重要一环,对其进行挖掘研究具有重要意义;同时,有效识别实体对地方志知识组织和知识图谱构建有着重要影响。当前地方志命名实体识别研究主要基于文本,缺乏文本对应的图片,而图片中的内容能够为识别文本中的实体提供额外的信息,从而提升模型识别实体的性能,并且实体识别还面临着已标注语料匮乏的问题。基于此,本文提出了利用深度迁移学习方法,结合地方志中的文本和图片进行多模态命名实体识别。首先,基于人民日报语料库和中文推特多模态数据集,分别预训练结合了自注意力机制的BiLSTM-attention-CRF模型和自适应联合注意力模型,利用基于神经网络的深度迁移学习方法将权重迁移至地方志多模态命名识别模型中,使模型获得提取文本和图片语义特征的能力;然后,结合过滤门对多模态融合特征去噪;最后,将融合后的多模态特征输入CRF (conditional random fields)层进行解码。本文将提出的模型在地方志多模态数据中进行了实证研究,并同相关基线模型作对比,实验结果表明,本文所提出的模型具有一定优势。  相似文献   

7.
目前,专利数量快速增长,单纯依靠人工进行专利查阅,很难及时获取专利中的创新资源。实体作为知识的一种,是目前最能直接体现专利的知识。实体识别除了专利独有的技术词、功效词抽取,还有在其他领域通用的命名实体等信息的提取。并且随着计算机技术的创新,大量学者将现代科学技术方法投入到专利文本知识挖掘中。因此,如何从海量专利文本中挖掘有价值的知识成为专利领域研究的新契机。旨在总结专利文本实体种类以及其抽取方法,并从研究对象、技术过程等角度来阐述现状,探索专利文本实体识别工作的新方向。  相似文献   

8.
方志类古籍地名识别及系统构建   总被引:4,自引:0,他引:4       下载免费PDF全文
以地方志资料汇编<方志物产>(广东分卷)为语料,设计并构建了古籍地名识别系统.采用规则与统计相结合的命名实体识别方法,实现了物产地名的自动识别.分析了命名实体识别技术在中国方志类古籍整理中的应用前景,为方志类古籍进行数字化整理、挖掘物产分布、物产引进和传播等相关研究提供了新的途径.  相似文献   

9.
赵华茗  钱力  余丽 《图书情报工作》2020,64(11):108-115
[目的/意义] 探索科研命名实体及其关系的识别与抽取,提升其在长句等复杂情况下的识别效果,为进一步的应用提供参考与借鉴。[方法/过程] 以依存句法特征分析为基础,提出一种科研命名实体关系抽取方法,过程包括:①使用Standford Tagger工具对目标文本进行词性标注;②基于标注结果,围绕核心谓词和SAO结构,将目标文本分割为结构规范的语义片段;③通过依存句法分析,找出与核心谓词语义相关的主语和宾语,构成(实体,关系,实体)三元组。[结果/结论] 与Ollie、Reverb等主流算法进行的对比测试表明,该方法可以有效提升科研命名实体识别的准确性。  相似文献   

10.
[目的/意义]从学术期刊中抽取其中的理论是对文献进行内容分析的前提,实现理论名称识别的自动化可以提高内容分析的效率。[方法/过程]将理论识别视为一类命名实体识别问题,总结现有的命名实体识别的常用方法,提出一个基于语义泛化思想的命名实体识别方法,选取词性、知网义原等外部知识,采用CRF模型对《情报学报》1822篇论文的标题和摘要进行实验。[结果/结论]实验表明,识别准确率最高达到95.38%,但召回率较低;训练语料规模对性能影响较大,不同程度的语义泛化方法对准确率和召回率有复杂影响。如何选择语义特征、语义标注和语义消歧是需要解决的新问题。  相似文献   

11.
重点讨论非结构化中文文本中表达式命名实体(ENE)的抽取和分类过程,尝试构造匹配模式集合,建立基于层次模式匹配的ENE识别模型(HPM_ENE_EM),作为竞争情报系统、用户兴趣度获取等情报学应用研究的基础,并以学术论文中的术语缩略语识别为例探讨该模型的具体应用。  相似文献   

12.
Accurate automated identification of named places is a major concern for scholars in the digital humanities, and especially for those engaged in research that depends upon the gazetteer-led recognition of specific aspects. The field of onomastics examines the linguistic roots and historical development of names, which have for the most part only standardized into single officially recognized forms since the late nineteenth century. Even slight spelling variations can introduce errors in geotagging techniques, and these differences in place-name spellings are thus vital considerations when seeking high rates of correct geospatial identification in historical texts. This article offers an overview of typical name-based variation that can cause issues in the accurate geotagging of any historical resource. The article argues that careful study and documentation of these variations can assist in the development of more complete onymic records, which in turn may inform geo-taggers through a cycle of variational recognition. It demonstrates how patterns in regional naming variation and development, across both specific and generic name elements, can be identified through the historical records of each known location. The article uses examples taken from a digitized corpus of writing about the English Lake District, a collection of 80 texts that date from between 1622 and 1900. Four of the more complex spelling-based problems encountered during the creation of a manual gazetteer for this corpus are examined. Specifically, the article demonstrates how and why such variation must be expected, particularly in the years preceding the standardization of place-name spellings. It suggests how procedural developments may be undertaken to account for such geo-referential issues in the Named Entity Recognition (NER) strategies employed by future projects. Similarly, the benefits of such multigenre corpora to assist in completing onomastic records is also shown via examples of new name forms discovered for prominent sites in the Lake District. This focus is accompanied by a discussion of the influence of literary works on place-name standardization—an aspect not typically accounted for in traditional onomastic study—to illustrate the extent to which authorial interests in regional toponymic histories can influence linguistic development.  相似文献   

13.
实体关系抽取的技术方法综述*   总被引:3,自引:0,他引:3  
对实体关系抽取研究以MUC和ACE评测为主线的发展进行总结,并指出实体关系抽取任务普遍存在的三个问题是特定领域标引数据集的获取、模式的获取以及共指消解。在对当前关系抽取的相关文献、系统和项目进行分析研究的基础上,将基于非结构化文本的实体关系抽取技术方法归纳为:基于模式匹配的关系抽取、基于词典驱动的关系抽取、基于机器学习的关系抽取、基于Ontology的关系抽取以及混合抽取方法,旨在为进一步构建实体关系抽取系统提供良好借鉴。  相似文献   

14.
当今的科技信息发展环境中,信息检索用户的认知行为和需求心理极为复杂.如何将信息检索中用户的潜意识显现出来,以便更好地服务于检索系统建设,是信息检索研究中的核心难题之一.研究基于流行于欧美国家及港台地区多年的身心语言程式(NLP)理论,从身心、语言和程式三个核心维度出发,构建了信息检索用户的"需求认知、表达与交互模式"、"检索语言认知、表达与交互模式"和"检索目标制定中的心理取向模型".同时结合MP中的锚理论,分析信息检索用户的"心锚"和相关的"空间锚",总结出相应的信息检索规律,构建出检索中锚交互模型、集合关系、双因子矩阵模型和表达式,并对相关的假设模型进行数据检验和优化.  相似文献   

15.
钱毅 《档案学研究》2019,33(4):109-115
智慧档案馆是智慧技术迅猛发展背景下档案信息化持续发展的新阶段,体现了档案管理在信息链理论下沿着数据—信息—知识—智能—智慧的路径发展的必然趋势。本文在对智慧档案馆概念辨析和相关研究回顾的基础上,从体系化的角度创新性地提出智慧档案馆全域对象与建设层级的思想,横向上将智慧档案馆划分为馆库环境域、设备设施域、档案载体域和档案内容域四个对象域,纵向上从智识、治理、智联、智能、智慧五个层级设计其发展路径,二者结合共同构成对象—层级模型。该模型明确了智慧档案馆系统的现实发展路径,可以为在建设实践中根据自身技术和管理情况进行技术选型提供启发。  相似文献   

16.
可视化语音信息检索模型研究   总被引:1,自引:1,他引:1  
随着多媒体信息数量的增加,如何对其进行有效的组织利用是我们关注的问题。本文针对音频信息的重要组成部分——语音信息的组织利用,探讨了建立在自动语音识别技术和信息可视化技术基础上的可视化语音检索信息模型。最后文章对现有的两个语音检索系统进行了分析。  相似文献   

17.
首先叙述了数字音乐图书馆的基本概念,然后针对数字音乐图书馆实施中面临的大量纸介质乐谱的数字化难题,介绍一种新的乐谱数字化技术———计算机光学乐谱识别技术,并对其实现原理和流程进行了简要阐述。  相似文献   

18.
王渊 《出版科学》2016,24(1):24-29
美国法院按照以下两个程序认定被告是否侵权并在此过程中确定侵权认定标准:首先,原告对作品是否拥有有效的版权;第二,被告是否侵犯了原告的版权。“被告是否侵犯了原告的版权”认定也有两步:一是被告是否事实上抄袭了原告作品,二是被告是否抄袭了原告作品中受版权保护的表达部分并足以构成侵权。而对于“抄袭是否足以构成侵权”的判断就是“实质相似”判断。在美国,随着时间的变化、技术的发展和人们认识的变化,不同的巡回法院在不同的阶段对“实质相似”判断方法是不同的,依时间变化分别有专家证言与抽象测试法、一般观察者的“整体判断”测试法、“整体概念和感觉”测试法(后来改进为“外在/内在”测试法)、“作品所针对的对象”测试法、“更敏锐的观察者”分析法和“抽象-过滤-比较”测试法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号