首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 46 毫秒
1.
基于关键词和摘要相关度的文献聚类研究   总被引:1,自引:0,他引:1  
现有的文献聚类方法都是通过文献关键词来进行的.本文在研究大量文献聚类方法的基础上,提出了一种通过文献关键词和摘要进行加权的新的文献聚类算法.首先,改进了传统相似度计算的方法,设计出基于关键词和摘要词加权的相似度公式,使文献相似度计算更加精确.其次,基于"文献距离越大,聚为一类的概率越小"的思想,提出了一种"最大距离聚类法",并给出了算法的详细步骤.最后,实现算法并进行了大量的实验仿真.通过改进相似度计算公式,调整关键词和摘要词的权重,提高了聚类的质量.结果表明,本文提出的文献聚类算法是一种行之有效的方法.  相似文献   

2.
利用语义角色标注技术对文献进行标注,以句子为最小单位进行文献的语义相似度检测。提取文献中所有词语的上位词,为每篇文献形成句子-词-语义角色-上位词四部图。语义相似的句子对比参照四部图确定,最终计算出两篇文献相似句子的Jaccard系数作为两篇文献的语义相似度。实验结果表明,所识别出的语义相似度较字粒度Jaccard系数法、词粒度Jaccard系数法、Winnowing Jaccard系数法等高出13%,然而受语料库限制,本方法还有很大的提升空间。  相似文献   

3.
面向科技文献的多模态语义关联特征提取与表达体系研究   总被引:1,自引:0,他引:1  
科技文献资源是一种多模态数据,除文本信息外,还包含丰富的图像、表格、公式、音频、视频等多种模态的信息,有利于用户充分理解科技文献资源中的知识。该文把多模态思想引入科技文献的语义表示方面,对科技文献中的图像、表格和公式信息进行语义分析,与文本信息共同表示文献语义内容,通过科技文献中多种模态信息的语义表示及相互关系完善科技文献内容的语义化表示,发展刻画科技文献对象多态性的表达体系。  相似文献   

4.
[目的/意义]针对目前医学领域基于主题的语义相似度计算研究较少,尚不足以揭示主题间在语义层面的关系,提出一套用于主题间语义相似度计算的方法,进而从语义角度判断主题间关系,为主题新颖性判断、主题关联研究等提供参考。[方法/过程]以MeSH词表为语义计算的基础,剖析词表结构与现有研究成果,从入口词、语义距离、注释3个维度综合测度主题间的语义相似度,利用PubMed中2011-2014年干细胞领域的文献进行实证研究。[结果/结论]利用通用验证主题词对,验证了本文所提3个测度维度的有效性。通过主题间语义相似度的计算,发现干细胞领域2011-2014年较为新颖的主题为未成年人干细胞研究。后续研究中还需融入基于统计的主题相似度,从而更加全面地揭示主题间的关系,发现语义层面领域的新颖性研究主题。  相似文献   

5.
屈李纯  霍振响 《编辑学报》2019,31(5):516-519
在中国学术期刊全文数据库中,对农业科技类目中农艺学、植物保护、农作物和园艺4个学科领域刊文的  相似文献   

6.
基于关键词的科技文献聚类研究   总被引:1,自引:0,他引:1  
描述一种基于改进TF IDF特征词加权算法的科技文献聚类方法:首先提取科技文献的特征词;然后根据特征词的词频、所在位置和词性为特征词加权,建立科技文献的向量空间模型;接着使用基于密度的聚类算法对科技文献向量空间模型数据进行聚类分析;最后使用主成分分析法对科技文献聚类的结果进行标识,利用F measure方法对聚类结果进行评价。实验表明,用提出的科技文献聚类方法能够从所检索的科技文献中发现热点研究领域,并能识别具有学科融合性质的研究方向。  相似文献   

7.
本文以信息论为基础,对冗余及冗余信息的概念进行了分析,进一步指出适度冗余的内涵;并联系科技传播内容的具体特点,剖析了适度冗余与科技传播之间的关系,阐明了适度冗余在科技传播中的必要性.  相似文献   

8.
王小玉  董诚  曾文 《情报工程》2015,1(6):102-108
本文对科技政策及语义分析方法研究现状的进行了调研,重点对句子相似度匹配算法和段落相似度匹配算法,以及倾向性分析算法等几种语义分析方法进行了对比分析,并总结其各自的适用性和优缺点,为下一步科技政策语义分析模型的构建研究提供研究基础。  相似文献   

9.
科技论文的关键词标引   总被引:6,自引:0,他引:6  
随着科学技术的发展,科技文献数量成倍增加,且种类繁多,为了便于用户对这些文献检索,科技期刊都要求对文献标注关键词。但目前大多数作者对关键词标引不甚明了,文献中无关键词或所提关键词既不规范化,也不符合要求,不能反映文献的主题思想。为此编辑人员要对作者所提关键词进行加工审校。  相似文献   

10.
从关键词链入手,结合形式概念分析技术,提出一种基于关键词链的动态分面方法。该方法首先采用作者关键词描述文献,然后基于相似度计算判断并合并语义上几乎一致的关键词,形成粗细不同粒度的形式背景,最后利用格技术构造搜索结果的语义分面。实证分析证明该方法可行、有效。  相似文献   

11.
科学数据与科学文献相关性研究——以生物信息学为例   总被引:1,自引:0,他引:1  
科学数据的高速增长和科研工作者对信息获取日益提升的需求,要求科学数据库与科学文献库能实现集成信息服务,达到跨异构库知识发现的目的.本文以生物信息学为例,重点研究了生物信息学科学数据库与文献库的两种相关关系:外部关联和内部关联.前者主要是基于两者的外部相似性建立的交叉引用关系,后者则在内容层面直至知识层面实现两者的聚合和知识关联.  相似文献   

12.
随着电子引文信息的爆炸式增长,为了帮助科研工作者从海量文献数据中发现研究热点、了解领域发展趋势,科研机构和商业集团开发了一系列基于Web的文献检索工具.近年来,伴随着数据挖掘技术和信息可视化技术在知识发现领域中的迅速发展,融合上述两种技术的文献分析工具已经被研发出来并获得了很好的用户反馈.文章首先阐述了传统的文献检索工具的功能及其存在的局限性,调研了融合可视分析技术的文献分析工具并总结其功能和特点以及为文献分析带来的新颖视角,介绍北京邮电大学通信软件工程中心研发的可视分析组件--VisLib及其实用场景,最后展望了科技文献分析工具的进一步发展方向.  相似文献   

13.
本文结合中国科学引文数据库和中国生态系统研究网络通量数据的关联数据发布,以关联数据的发布技术框架为研究对象,采取实例阐释的方法,提出了关联数据发布过程中可参考的标准化流程,并详细分析了其中的关键问题.研究表明,关联数据发布流程可以分解成数据建模、实体命名、实体RDF化、实体关联化、实体发布、开放查询六个关键步骤,发布过程中需要考虑到多语种问题、值词表的发布、RDF词表的发布等关键问题.关于利用D2R Server发布数据,本文建议:不要采用空白节点;尽量做好关系型数据库的前期设计;指定非文本属性的数据类型;适当进行实体表的拆分与合并.  相似文献   

14.
以清晰表达知识内涵、促进本体语义共享为目的,以医学文献知识为研究案例,文章基于UMLS语义网络顶级本体语义关系构筑了领域本体属性关系,并通过医学文献知识本体的构建,阐述了依托顶级本体的语义关系构筑领域本体语义的方法,探讨了基于顶级本体语义的领域本体通用构建途径,实现了医学文献本体的语义关系系统化,为领域本体的建模提供了思路。  相似文献   

15.
讨论计算机辅助标引文献加工系统中自然语言词表系统的建立过程。基于海量文献人工标引,运用计量分析法对多年来积累的人工标引词从词频、词长、词类型、词共现等多方面进行分析,重点阐述运用字面相似度计算词间关系来建立适用于机标和后控词表的自然语言词表的过程。  相似文献   

16.
系统分析了广西科技文献共享与服务平台发展面临的机遇和挑战,并提出了广西科技文献共享与服务平台可持续发展的指导思想、指导原则、发展目标、重点工作。  相似文献   

17.
特征表示是数据聚类的关键问题之一。当前对科学数据特征表示的深度不够,从而在一定程度上影响科学数据聚类的效果。针对这一问题,提出复合文本描述的概念以及一种基于复合文本描述的科学数据特征表示方法,该方法的主要特点是运用不同的特征权重计算法分别对基于两种文本数据源的候选特征加以表示,并将两种特征集合并,最终实现强化特征集的目的。实验表明,该方法优于传统方法,使科学数据聚类的效果有明显提高。  相似文献   

18.
情境感知的科技文献协同推荐方法研究   总被引:1,自引:0,他引:1  
为适应科技工作者个性化、系统化和动态化的科技文献获取需求,提出基于情境感知的科技文献协同推荐方法。系统地分析情境、科技工作者和科技文献之间的关系,建立情境感知的科技文献协同推荐过程模型,并对该过程实现中的关键方法展开深入探讨;同时构建对应的推荐系统并通过实验验证该协同推荐方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号