首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
[目的/意义]学术文本结构功能是对学术文献的结构和章节功能的概括,针对当前研究较少从学术文本多层次结构出发进行融合和传统方法依赖人工经验构建规则或特征的问题,本文在对学术文本层次结构进行解析的基础上,构建了多层次融合的学术文本结构功能识别模型。[方法/过程]以ScienceDirect数据集为例进行实验,该模型首先通过深度学习方法对不同层次学术文本进行结构功能识别,接着采用投票方法对不同层次和不同模型的识别结果进行融合。[结果/结论]研究结果表明各层次集成后的整体效果较单一模型均有不同程度提升,综合结果的整体准确率、召回率和F1值分别达到86%、84%和84%,并且深度学习算法在学术文本分类任务中的性能较传统机器学习算法SVM更优,最后对学术文本结构功能错分情况进行了分析,指出本研究潜在的应用领域和下一步的研究方向。  相似文献   

2.
学术文本词汇功能识别的目的是实现学术文本中表征问题、方法和对象等词汇的抽取。针对传统识别方法中训练难以获取所导致的识别准确率低、召回率有限和泛化能力差等问题,本研究提出了一种基于深度学习和标题生成策略的学术文本词汇功能识别方法,将任务形式由信息抽取转化为特定形式的标题生成问题。本研究采用构建seq2seq模型和引入注意力机制的方式捕获词汇多层语义信息,最终实现学术文本中问题和方法指代词的生成和获取。实验结果表明,通过应用深度学习方法和标题生成策略,本研究提出的模型能够从摘要中有效识别学术文献的主要研究问题和主要研究方法,并较已有方法在识别效果上有明显提升。  相似文献   

3.
[目的/意义] 对引文文本分类的标准、实现方法和应用进行梳理,分析存在的问题,提出可改进的方向。[方法/过程] 总结目前引文文本分类的几个重要角度,如基于引用功能、基于情感倾向、基于引文影响力等,对引文文本分类的实现方法进行比较,分析其优缺点。[结果/结论] 目前引文文本没有统一的分类标准和实现方法,引文文本的获取较为困难,计算机分类算法准确率较低,中文引文文本分析文献少。未来研究思路和方向应该是:统一文本分类的标准,提高引文文本计算机处理技术的准确性,扩大应用范围。  相似文献   

4.
[目的/意义]学术全文本下的关系抽取是学术全文本知识图谱构建的关键技术,所构建的学术知识图谱能够实现文献的结构化、知识化,提高研究人员检索文献、分析文献和把握科研动态的效率,以及通过图谱的认知推理,有助于隐式知识发现。[方法/过程]通过外部知识来增强关系抽取已在不少研究取得成果,但针对特定领域的关系抽取往往缺少可用的外部知识。研究发现,全文本中自有的高置信度的知识也可以用来辅助全文本关系抽取。受认知过程双系统理论(系统1为直觉认知,系统2为推理认知)启发,设计一个句子级模型来获取知识,并通过远程监督方式获取高置信度知识,然后将高置信度知识融入到全文本级深度学习模型最后分类的一层上。[结果/结论]在生物医学学术全文本数据集(CDR-revised)上,比当前最先进的模型在F1上提高11.13%。  相似文献   

5.
[目的/意义]设计并实现科研关系构建与可视化系统ItgInsight,以弥补国内科技文本挖掘与可视化工具研发的不足。[方法/过程]应用C#+WPF技术组合设计实现ItgInsight,通过与数据源字段的关系映射实现对各类数据源的处理,基于同现矩阵和文本关联进行科研关系构建,采用网络图和热力图进行可视化结果展示。[结果/结论]该系统可实现对中英文科技论文、专利、报告等科技资源的数据清洗、主体识别、关系构建和可视化表示。系统运行稳定,具有自主知识产权,对国内科研院所免费开放,对于提升我国情报分析软件工具研发具有积极的参考意义。  相似文献   

6.
[目的/意义]传统的关键词自动抽取将摘要看成一个整体,常以候选词的出现频次等非语义信息构建特征,并未考虑学术文献摘要中目的、方法、结论等各个结构功能语义蕴含的差异性。本文以中文文献为研究对象,探讨候选词所在的结构功能域对关键词抽取的影响和作用。[方法/过程]本文将文献标题和摘要文本共分为4个结构功能域,在传统的词频、词长、词跨度等基准特征上,融合了基于BERT的语义特征和结构功能特征,并以不同的特征组合方式,使用图书情报领域的中文学术文献,基于分类模型进行关键词自动抽取实验。[结果/结论]实验结果表明,融合结构功能特征后,关键词抽取效果整体提升了6.82%,证明了学术文献摘要结构功能的识别形成的结构功能特征对关键词抽取效果的提升有良好作用。  相似文献   

7.
[目的/意义]改善现有专利技术主题分析方法主题辨识度低、主题词二义性、无法识别技术信息中的"问题"与相应"解决方案"等问题。[方法/过程]本文通过抽取专利文本中的SAO结构,并从SAO结构中识别"问题和解决方案"(P&S)模式,基于"bag of P&S"假设,构建基于"主语-行为-宾语"(subject-action-object,SAO)结构的LDA主题模型,实现对专利文献主题结构的识别和分析。[结果/结论]案例研究表明,该方法能够有效识别主题分布,并在主题辨识度和语义消岐方面较传统LDA模型具有较大优势。  相似文献   

8.
[目的/意义] 在科学研究中,从不同来源的科技文献中识别挖掘科研热点对于开展科研工作具有指导意义。旨在通过本研究提出的模型方法,快速准确地识别蕴含在多源文本中的热点主题,为科研创新提供支撑服务。[方法/过程] 提出一种基于LDA2vec模型的多源文本下科研热点识别的方法并针对科研热点识别构建模型,该方法融合LDA主题模型对隐含语义挖掘的优势和Word2Vec词向量模型对于上下文关系把握的优势。以机器学习领域的科技文献为例,利用模型困惑度和主题一致性两个指标对LDA2vec的在本领域应用的可行性和有效性进行验证,并与LDA的主题提取效果进行对比。[结果/结论] 实验结果表明,提出的方法在面对多源数据情况下,进行科研热点识别挖掘是可行的,且在一定程度上有效果的提升,对利用单一数据源进行主题分析的不足进行补充,对多数据源融合的实践应用进行丰富。  相似文献   

9.
[目的/意义]基于大量专利文献数据的核心技术主题识别有助于识别某技术领域的关键技术、分析关键技术的发展方向,是进行技术创新的基础情报工作,对于研究人员、企业乃至国家层面都具有一定的意义。[方法/过程]提出基于Chunk-LDAvis的核心技术主题识别方法,首先基于经典LDA模型进行主题识别,然后利用名词组块对初始LDA主题识别结果进行标注,构建Chunk-LDA主题识别结果,提高其可解读性;然后基于社会网络分析方法构建主题网络,识别核心技术主题;基于R语言的LDAvis工具包绘制可交互的Chunk-LDAvis核心技术主题关联分析图谱,发现核心技术主题的隐含联系,辅助进行核心技术主题识别。[结果/结论]通过对纳米农业领域进行实证研究,验证了本文提出方法的准确性和可行性。  相似文献   

10.
[目的/意义]机构知识库集成服务系统是机构知识库发展的必然趋势,可以实现更大范围的知识产出保存和共享,对于构建科研信息基础设施、促进学术交流和知识创新有着重要意义。 [方法/过程]对国内外已有的机构知识库集成服务系统进行调研,对系统的主要功能、关键技术及开发方式进行比较分析,并基于开源软件eXtensible Catalog快速构建一个中文开放知识库集成服务系统。[结果/结论] 建立起一个覆盖中国科学院、国内高校、港澳台高校开放机构知识库的集成服务系统,可对促进我国学术资源开放获取与机构知识库的建设发展起到一定的推动作用。  相似文献   

11.
[目的/意义] 立足计量视角,通过对新兴技术特征的量化评价识别“目前处于科学研究阶段、尚未完全进入产业研发落地”的新兴技术。[方法/过程] 借助Node2Vec网络表征方法,从术语共现网络中学习技术术语的向量表示;以此为基础量化新兴技术“过去、现在及未来”三大时间维度特征-“融合性、新颖性及潜在的科学影响力”,用特征值筛选技术主题是否具有新兴性,由此探索得到向量表征视角下的新兴技术识别模型。最后以航空领域为例进行实证研究,验证该方法的科学性和合理性。[结果/结论] 通过引入“术语向量表征”的计算视角,有效编码了术语实体间显性和隐性的关联关系,提升了新兴技术特征计算的客观性;同时结合技术的历史、当前和预测信息,从网络结构和语义特征两方面进行识别,取得了较好的效果。  相似文献   

12.
[目的/意义] 知识的积累与传承推动着人类社会的发展,为此提出利用科技文献知识基因进行知识的遗传与变异研究,以期对知识传承与发展变化进行更直观、全面地透视。[方法/过程] 通过辨析知识基因概念,确定知识基因的研究意义,并探讨其具体研究对象;提出科技文献知识基因内容表达的两种方式,归纳科技文献知识基因的类型;分析影响知识基因遗传与变异的主要因素,且设计识别知识基因的遗传与变异的方法。[结果/结论] 通过对科技文献知识基因的辨识,能够有效揭示出不同文献之间的知识传承与迭代,促进知识基因理论体系的发展与完善。  相似文献   

13.
[目的/意义]分析与研究科学文献传播网络发展趋势,为揭示科研新成果、把握科技发展脉络以及发现学科领域内前沿发展动态提供参考借鉴。[方法/过程]阐述知识进化理论及其应用,探讨知识进化视角下的科学文献传播网络预测方法可行性,通过对科学文献传播网络的演化机制分析,构建科学文献传播网络预测模型,并以科学文献关键词网络进行实证分析。[结果/结论]通过科学文献数据实证分析表明,提出的知识进化视角下科学文献传播网络演化与趋势预测方法具有可行性和有效性,可以为科学文献传播网络的趋势发展分析提供新的研究思路。  相似文献   

14.
��[Purpose/significance] The accumulation and inheritance of knowledge promotes the development of human society. This paper proposes to study the inheritance and variation of knowledge by using the knowledge gene of scientific and technological literature, in order to have a more intuitive and comprehensive perspective on the inheritance and development of knowledge.[Method/process] By analyzing the narrow and broad definitions of knowledge genes, the research significance of knowledge genes was determined and their specific research objects were discussed. Two ways of expression of knowledge genes in scientific and technological literature were proposed, and the types of knowledge genes in scientific and technological literature were analyzed. The main factors affecting the inheritance and variation of knowledge genes were summarized, and the inheritance of knowledge genes was designed. And the method of variation.[Result/conclusion] The identification of knowledge genes in scientific and technological literature can effectively reveal the knowledge inheritance and iteration between different documents, and promote the development and perfection of the theoretical system of knowledge memes.  相似文献   

15.
[目的/意义]潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)在科技情报分析中用来发现学科主题、挖掘研究热点以及预测研究趋势等。对常见的科学文献文本语料库(关键词、摘要、关键词+摘要)进行LDA主题抽取效果的评价,以揭示不同语料库的主题抽取效果,提高LDA在科技情报分析中的应用效果。[方法/过程]对上述3种语料库下的LDA主题模型进行对比研究,采用基于查全率、查准率、F值以及信息熵的定量分析和基于主题抽取的广度和主题粒度的定性分析相结合的方法对主题抽取效果进行评价。[结果/结论]通过国内风能领域的科学文献数据实证研究发现,无论是从定量分析还是从定性分析来看,摘要和关键词+摘要作为语料的LDA主题抽取的效果均优于关键词作为语料的LDA主题抽取效果,并且前者在主题抽取的广度方面表现更好,而后者抽取的主题粒度更细。  相似文献   

16.
[目的/意义]"睡美人"文献是对科学论文中存在的迟滞认可现象的描述,而延迟发现与延迟关注的现象也同样存在于技术文献中。在梳理文献中的睡美人、专利沉睡现象及专利引文分析的相关研究后,将此概念引入到专利信息分析中,揭示专利文献中存在的睡美人现象。[方法/过程]以美国专利商标局和美国国家经济研究局发布的专利及其引证信息为基础,使用睡美人文献经典识别方法识别出睡美人专利,对其进行特征分布分析,并选取典型案例进行研究。[结果/结论]结果证明专利文献中也存在睡美人现象,且拥有专利文献特有的特征,为后续睡美人专利的识别与唤醒奠定基础,进而为及早发现并利用此类有价值的专利文献提供解决方案,促进知识流动和技术迭代,提高科研效率,加速科学发现。  相似文献   

17.
知识生产视角下学术论文质量自动评审指标体系构建研究   总被引:1,自引:0,他引:1  
[目的/意义]针对当前未发表学术论文质量的自动评审尚未形成统一的指标体系的问题,探索并建立一套具有引导性、科学性、客观性的论文质量自动评审指标体系,以提高评审效率。[方法/过程]在知识生产视角下,结合科学知识生产要素,分别从论文作者、参考文献、资金项目支持、选题、创新性、科学性、表达形式7个方面,构建论文质量自动评审指标体系,对其量化方法和技术进行简要说明,并运用主成分分析方法确定各项自动评审指标项权重及排序。[结果/结论]数据结果表明,论文科学性、创新性权重值均较高,论文表达形式中的摘要可读性、长度和参考文献所在期刊质量、新度同样是重要的自动评审因素,该结果能够为后续自动评审指标的量化处理提供借鉴。  相似文献   

18.
基于Nanopublication的知识服务架构解析   总被引:1,自引:0,他引:1  
廖建军 《图书情报工作》2017,61(17):131-138
[目的/意义]针对科学文献服务系统中信息过载的问题,提出基于Nanopublication的知识服务架构,帮助科研人员更好地查找和理解科学文献中的知识,使得知识服务系统更加高效可靠地为科研人员提供知识发现服务。[方法/过程]引入语义出版的新模式Nanopublication,揭示科学文献中的科学结论,基于Nanopublication知识元进行知识服务语义建模,设计分布式Nanopublication知识服务模式。[结果/结论]该方案能够扩展现有的语义知识服务和发现框架,借助Nanopublication技术进一步增强知识服务的精准性和可信赖性,满足不同用户的知识服务功能需求。  相似文献   

19.
[目的/意义] 长效文献是指出版多年后仍然被连续多年引用,或者引用频次相对较高的文献,研究这部分老化较慢的长效文献的影响力,有助于完整评价文献整个生命周期的价值。[方法/过程] 选取CSSCI数据库来源期刊(2016-2017)中九个学科在2012年-2016年间出版期刊文献的引文年代数据,通过共时观察法进行科学文献老化情况和长效文献分析的研究。[结果/结论] 期刊中引文年代较为久远的引用量来自于大量的低频次被引用的文献集合。长效文献数量较少,可分为3种类型:成长型、成熟型和衰退型,3种类型的长效文献会随着时间推移产生一定转化。具有长效文献较多的期刊未必影响因子高,除心理学学科外,其他每个学科都有且仅有一本具有显著长效影响力的期刊。长效文献的关键词与当前学科研究热点相似,但是长效文献的追溯年代更久远,在反映当前学科热点来源的同时,对未来学科热点预测将发挥作用。  相似文献   

20.
[目的 /意义]《国家情报评估》被认为是美国情报界最正规和最高水平的战略分析产品.对国家情报评估与决策的关系深入研究,可有助于我国完善科学决策体系,对国家治理体系现代化建设大有裨益.[方法/过程]基于多源流理论和认知心理学,从建议采纳视角出发构建出国家情报评估与决策的影响机制模型,借助模糊集定性比较分析法(fsQCA)...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号