首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 152 毫秒
1.
赵华茗  钱力  余丽 《图书情报工作》2020,64(11):108-115
[目的/意义] 探索科研命名实体及其关系的识别与抽取,提升其在长句等复杂情况下的识别效果,为进一步的应用提供参考与借鉴。[方法/过程] 以依存句法特征分析为基础,提出一种科研命名实体关系抽取方法,过程包括:①使用Standford Tagger工具对目标文本进行词性标注;②基于标注结果,围绕核心谓词和SAO结构,将目标文本分割为结构规范的语义片段;③通过依存句法分析,找出与核心谓词语义相关的主语和宾语,构成(实体,关系,实体)三元组。[结果/结论] 与Ollie、Reverb等主流算法进行的对比测试表明,该方法可以有效提升科研命名实体识别的准确性。  相似文献   

2.
[目的/意义]实现学术查询意图的自动识别,提高学术搜索引擎的效率。[方法/过程]结合已有查询意图特征和学术搜索特点,从基本信息、特定关键词、实体和出现频率4个层面对查询表达式进行特征构造,运用Naive Bayes、Logistic回归、SVM、Random Forest四种分类算法进行查询意图自动识别的预实验,计算不同方法的准确率、召回率和F值。提出了一种将Logistic回归算法所预测的识别结果扩展到大规模数据集、提取"关键词类"特征的方法构建学术查询意图识别的深度学习两层分类器。[结果/结论]两层分类器的宏平均F1值为0.651,优于其他算法,能够有效平衡不同学术查询意图的类别准确率与召回率效果。两层分类器在学术探索类的效果最好,F1值为0.783。  相似文献   

3.
自动术语识别存在的问题及发展趋势综述   总被引:2,自引:0,他引:2  
自动术语识别对于以内容分析为主的情报研究具有重要作用。在目前研究的基础上,重点分析自动术语识别存在的问题,包括词性过滤难以兼顾召回率和准确率、单词术语和低频术语的识别未引起足够重视、术语识别领域相关性有待加强等。最后阐述自动术语识别的多特征融合、机器学习方法、高质量和高隶属度的领域术语识别、新术语识别、语义识别等发展趋势。  相似文献   

4.
[目的/意义]高效准确地识别社会诉求主题、把握社会诉求转变节点、追踪主题演化趋势,进而为政务服务和社会治理的和谐有序发展提供支撑。[方法/过程]提出一套基于语义网的高价值主题识别和演化路径分析方法。首先,基于本地上下文语义解析思想,利用词汇共现构建动态语义关系网;其次,利用社区发现算法识别子社区,采用RFM模型对关键词进行价值划分,依据高价值层次关键词识别主题标签;接着,通过计算相邻时间区间的主题相似度来反映主题演化关系;最后,利用上海市的社会诉求数据进行模型验证,与K-means方法进行主题识别效果的比较,并利用精确率、召回率和F1值进行方法效果评测。[结果/结论 ]研究结果发现,该方法应用效果的提升差额均大于0.3,具有明显的优化效果。研究能够为政府网站领导信箱模块反映的公众关切事项构建全景视图,也能为探索其他社交文本挖掘方法以及支撑国家治理大数据分析实践提供新的思路。  相似文献   

5.
基于本体的汉语领域命名实体识别   总被引:1,自引:0,他引:1  
命名实体识别是众多自然语言处理任务的核心内容之一,也是近年来的领域研究热点.本文将命名实体分为两大类:常规命名实体和领域命名实体.基于已经构建的领域本体MPO,本文提出一种基于本体知识规则与统计方法相结合的领域命名实体识别方法.该方法通过本体化实例,获取实体构成词性规则模板,结合CRFs机器学习模型,进行领域命名实体识别.实验结果表明:相比运用单一统计方法而言,该方法能使领域实体的识别性能显著提高,F值达到92.36%.同时表明本体化知识规则的有效运用,能够在领域实体边界和特殊形式领域实体识别的准确率上发挥积极作用.  相似文献   

6.
[目的/意义] 为解决现有网页文本缺乏起源标注的问题,提出一种借助PROV本体发现相似网页文本起源关系的方法。[方法/过程] 通过聚类算法、自动语义标注和关联数据构建等技术的综合应用,结合PROV-POL溯源模型,检测网页文本实体的演变过程,实现文本级和属性级两级溯源方案。[结果/结论] 实验验证了借助语义网技术和数据溯源模型实现网页文本数据溯源的可行性,但实验过程中聚类算法的召回率有待提高。  相似文献   

7.
[目的/意义]面向专利文本进行更细粒度的技术实体识别和技术预测,利于更详细地把握专利技术布局与趋势。[方法/过程]首先利用深度学习方法自动识别专利技术术语类实体,通过实验对比多组深度学习算法的优劣。其次,提出新的半监督标注和自定义标注方案,提高人工标注效率。最后,执行训练得到的最优模型,结合链路预测方法,对合成生物技术进行细粒度的技术预测。[结果/结论]实证结果表明RoBERTa-BiLSTM-CRF模型更适用于语义复杂的专利技术实体识别,F1值可达到86.8%,技术识别结果比传统IPC分析方法更精细。同时,细粒度的技术预测结果表明,合成生物学的合成方法在不断改进创新,合成物研究向合成燃料发展。  相似文献   

8.
基于条件随机场的英文地理行政实体识别*   总被引:3,自引:0,他引:3  
采用基于条件随机场的方法,对ACE评测的英文语料中的地理行政类型实体(Geographical Political Entities, GPE)及其子类型进行识别。提出一种从ACE语料中选取的特征集,并根据不同的特征组合对GPE识别的贡献与其它特征集进行比较,实验表明该特征集能取得较高的召回率和准确率。  相似文献   

9.
学术文献引文上下文自动识别研究   总被引:2,自引:2,他引:0  
[目的/意义] 引文内容分析能够帮助揭示文献引用关系的深层语义内涵,而引文上下文识别作为引文内容分析的基础显得尤为重要。[方法/过程] 梳理已有引文上下文研究的现状,总结当前引文上下文识别的不足,在此基础上归纳引文上下文识别的5类特征,并采用文本分类和序列标注两种方法开展引文上下文自动识别实验。[结果/结论] 实验结果表明,本文提出的特征能够很好地提升引文上下文识别效果,且基于文本分类的SVM分类效果要优于基于序列标注的CRF。  相似文献   

10.
介绍命名实体识别的基本概念,分析两种命名实体识别的基本方法:基于规则的命名实体识别方法和基于统计的命名实体识别方法,并以最大熵模型为理论基础,对中文菜名识别进行实证研究。根据中文命名实体的特点,设计6种特征模板。实验结果表明,在简单特征模板的基础上增加标注特征能有效提高命名实体的识别效果。对改进识别效果有用的特征依次为:标注特征、词性组合特征、后向词性依赖特征和词形特征。  相似文献   

11.
张颖怡  章成志  Daqing  He 《图书情报工作》2022,66(12):125-138
[目的/意义]问题和方法是学术论文的重要组成部分。将散落在学术论文中的问题与方法进行有效组织,例如问题与方法识别及其之间的关系抽取,可挖掘学术论文中的隐性知识,促进学科的方法体系和问题体系构建。对学术论文中问题与方法识别及其关系抽取的相关研究工作的梳理,有助于把握该研究的发展趋势、发现该研究中存在的不足,并为未来的工作提供借鉴和指导。[方法/过程]在学术论文的问题和方法的挖掘方面,现有研究围绕4个研究点展开,分别是问题与方法及其关系定义、问题与方法及其关系标注数据集构建、问题与方法识别及其关系抽取的模型设计以及问题与方法及其关系的应用。本文分别对这4个研究点进行梳理,归纳总结现有学术论文中问题和方法知识挖掘的现状。[结果/结论]分析发现,在问题与方法的相关定义中,较少结合科学哲学中的问题学等理论进行定义;在问题与方法数据集构建中,存在数据集重复标注的现象,另外,开源数据集集中在自然科学领域且一般为英语语料,中文开源语料稀缺;在问题与方法识别及其关系抽取中,现有抽取模型性能较低;有关问题和方法的研究不应止步于词语识别和关系抽取,需对挖掘出的知识进行深入分析和应用。  相似文献   

12.
[目的/意义] 在专利分析中引入Knowledge Graph,将专利内容转换为由Knowledge Graph中实体语义关系所构成的图结构,进而探索该形式的专利表示方法在识别专利诉讼案中专利证据的可行性。[方法/过程] 在专利内容转换过程中,首先采用自动术语识别方法提取其实体指称,并通过实体链接将实体指称转化为命名实体,进而根据图算法识别出该专利的隐含实体,最终形成该专利所对应的图结构。[结果/结论] 将该专利表示方式应用于硬盘驱动器领域来寻找专利诉讼案中可用的证据专利,实证结果表明,与当前主流的专利文本表示方式相比,该方法在寻找证据专利效果上有较大提升。  相似文献   

13.
[目的/意义]针对中文语言表达特点,提出一种含分词标签的字粒度词语特征提取方法,有效提升了中文临床病历命名实体识别任务的F1值,同时该方法可以为其他中文序列标注模型所借鉴。[方法/过程]选取汉语词语的词性标注、关键词权值、依存句法分析三个特征,构筑字粒度序列标注模型的临床病历训练文本,语料来源CCKS2017:Task2。在不同特征组合方式下,采用条件随机场算法验证两种字粒度词语特征提取方案Method1与Method2。[结果/结论]在四种不同词语特征组合下,Method2相对于Method1在临床病历命名实体识别任务中性能均有所提升,四折交叉测试中F1值平均提升了0.23%。实验表明在中文分词技术日趋成熟的环境下,Method2相对Method1能够获得更好的词语特征表示,对中文字粒度序列标注模型的处理性能具有提升作用。  相似文献   

14.
学术文本词汇功能识别的目的是实现学术文本中表征问题、方法和对象等词汇的抽取。针对传统识别方法中训练难以获取所导致的识别准确率低、召回率有限和泛化能力差等问题,本研究提出了一种基于深度学习和标题生成策略的学术文本词汇功能识别方法,将任务形式由信息抽取转化为特定形式的标题生成问题。本研究采用构建seq2seq模型和引入注意力机制的方式捕获词汇多层语义信息,最终实现学术文本中问题和方法指代词的生成和获取。实验结果表明,通过应用深度学习方法和标题生成策略,本研究提出的模型能够从摘要中有效识别学术文献的主要研究问题和主要研究方法,并较已有方法在识别效果上有明显提升。  相似文献   

15.
[目的/意义] 中医药是中华文化的传承,对现代医学发展具有重要作用,应受到高度重视。利用数字技术组织中医古籍,对其进行保护与重用具有重要意义。[方法/过程] 以简帛医药文献为研究对象,分别构建简帛医药书目本体和内容本体,并通过书目本体和内容本体的连接形成简帛医药文献本体模型;利用命名实体识别模型抽取实体概念,利用依存句法分析和规则的方法抽取实体关系,最终将简帛医药文献数据存入图数据库,实现简帛医药文献知识图谱可视化与检索查询结果呈现。[结果/结论] 利用本体和知识图谱,提出简帛医药知识组织方法,建立具有逻辑关系的简帛医药知识链,形成中医药领域知识的语义网络,在中医古籍的智能化方面做出有益的探索,有助于中药知识的普及与传承。  相似文献   

16.
[目的/意义] 在"新冠"疫情这类突发公共卫生事件中,网络社交媒体上迅速产生大量关于疫情的言论,其中包含不少蓄意传播的谣言,不仅危害公众心理健康,而且会影响应对公共卫生事件的方案实施。识别突发公共卫生事件的谣言能够使民众正确面对危机,为社会安定、网络治理起到积极的维护作用。[方法/过程] 首先对采集到的疫情期间已被证实的谣言进行深度分析,提取谣言文本的主要特征,包括上下文特征、话题类别特征、情感程度特征、关键词特征等;然后针对文本分类模型中的文本特征表达较为单一的问题,利用不同的模型对提取的谣言文本特征进行向量化,并对各类文本特征进行加强和融合。其中通过TF-IDF计算的词向量权重在捕获上下文特征的同时,能够加强词粒度的关键词特征信息。最后,使用BiLSTM+DNN模型对融合的特征向量进行分类判别。[结果/结论] 实验结果表明,话题类别、情感程度等特征对谣言识别均有贡献,特别是经过强化后的词向量与其他特征融合后对识别准确率有明显提升,召回率、F1值等指标均达到90%以上,效果超过其他的谣言识别模型,说明笔者所构建的方法能够很好地实现对突发公共卫生事件背景下的谣言识别。  相似文献   

17.
[目的/意义] 针对当前查询扩展技术面临的瓶颈,提出一种关联数据驱动的查询扩展方法,改善检索系统的查全率、查准率。[方法/过程] 将扩散激活理论应用到关联数据集中,使得在输入查询词搜索潜在语义实体时,对提取的查询词的语义特征在知识库中进行有特定机制的扩散和激活,最后对这些语义关联的候补概念进行收集,并利用推理机制进行筛选,得到更优的概念集。[结果/结论] 该方法能有效提高检索系统的查全率、查准率,证明了本文提出的技术的可行性、有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号