首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 719 毫秒
1.
[目的/意义] 由于传统科技创新主题概率识别方法忽略文本内容语义理解,为了更加准确地识别出主题,科技创新主题语义识别势在必行。[方法/过程] 提出一种基于LDA的科技创新主题语义识别方法,利用语义角色标注技术对科技文献中的科技创新内容进行语义标引,构建LDA主题语义识别模型,根据表征科技创新内容的关键词语义角色对应的上位词的概率识别出科技创新主题。[结果/结论] 通过以3D打印领域数据为对象进行实验,证明该方法能够更加准确地识别出科技创新主题,形成科技创新主题-主题词-科技文献的混合分布聚类集群,减少研究背景等无关数据干扰,避免语义含义相同的科技创新主题词重复统计问题。  相似文献   

2.
基于图挖掘的文本主题识别方法研究综述   总被引:1,自引:1,他引:0  
本文通过文献调研分析,将基于图挖掘的文本主题识别方法总结为中心度方法、紧密关联子图查找和图聚类三种,后两者又细分为基于clique子团或类clique子团、基于图拓扑结构或结点属性聚类的方法。中心度方法通过对比文本网络中术语结点的重要度来实现文本主题的识别,紧密关联子图查找和图聚类方法则是根据文本图中术语结点和边的属性相似度来识别文本核心主题。基于语言文本网络自身特性,如何构建复杂文本关系图来同时揭示术语间的句法、共现和语义关系,如何基于术语关联和图拓扑结构识别其中的紧密关联子团,基于何种标准将紧密关联子团聚类以揭示文本核心主题,都是未来需要进一步深入研究的问题。表1。  相似文献   

3.
林杰  苗润生 《情报学报》2020,39(1):68-80
专业社交媒体中主题图谱的内容包括论坛中的主题及主题之间的关系,其具有挖掘专业产品创新方向、构建专业知识索引等重要应用价值。本文基于深度学习技术与文本挖掘技术,提出了专业社交媒体中的主题图谱构建方法。首先,使用专业社交媒体中的文本训练Skip-Gram模型,利用该模型的隐藏层权重与模型输出的预测结果,分别获取词语间的语义相似度与上下文关联度。其次,基于该语义相似度与上下文关联度,对已有领域种子本体词汇进行扩充,将语义相似或上下文相邻近的词汇纳入本体词汇,为主题抽取提供高质量的领域词汇。然后,基于扩充的专业本体词汇,使用结合本体词汇的LDA主题模型从专业社交媒体文本中抽取主题与主题词。最后,利用语义相似度与上下文关联度,定义关联度权重,通过图模型与谱聚类,获取主题间与主题词的关联关系与层次结构。本文使用汽车论坛语料进行主题图谱生成实验。实验结果表明,本文方法获取的主题词纯净度相比单独使用LDA模型提升了20.2%,且能够清晰合理地展现主题之间的关系。  相似文献   

4.
[目的/意义]随着信息资源在数量和种类上的急剧增长,学科间的交叉融合不断涌现,快速主动地从海量信息资源中识别和判断研究主题的发展演化是实现科技创新的基础。[方法/过程]在相关理论调研的基础上,结合医学领域的资源特点,提出一种基于LDA模型的主题演化探测模型和相应的流程步骤。主要步骤包括医学主题词抽取、主题识别、主题关联、关键主题识别、关键主题的演化主路径识别、演化主路径上主题分裂、融合事件识别,实现深度、细致的主题演化分析。[结果/结论]选用乳腺癌治疗研究文献为实验案例,对判断模型进行试验并对结果进行分析验证,证实提出的技术方法具有一定的可靠性。  相似文献   

5.
本研究对MEDLINE中生物体类文献中高频主要主题词进行共词聚类分析,获取主题词之间的关联规则,利用UMLS语义关系进行结构化表达.从MEDLINE中选取<中华医学杂志>上的生物体类文献作为测试集,由专家人工抽取关系,与共词聚类得到的关联规则进行比较.利用共词聚类分析对生物体类主题词关系的挖掘及评价分析,为文本知识发现提供了一种新的尝试.  相似文献   

6.
基于主题模型的科技报告文档聚类方法研究   总被引:1,自引:0,他引:1  
[目的/意义]探索实践以科技报告为文献载体形式的融合主题模型的文本聚类方法,拓展基于科技文献进行技术监测服务的新领域,提出基于科技报告进行语义分析的新方法。[方法/过程]以国家科技报告服务系统中的科技报告为数据源,首先基于LDA主题模型对经过文本预处理的科技报告进行主题挖掘,再基于Ward与K-means相结合的聚类算法对包含主题分布信息的文本向量进行聚类分析,尝试提出一种适合科技报告文档聚类的文本挖掘新方法。[结果/结论]实验结果表明,LDA主题模型能有效准确挖掘科技报告中的主题信息,所提出的Ward与K-means相结合的聚类算法对科技报告的聚类效果也优于其它传统聚类算法。  相似文献   

7.
[目的/意义]识别领域发展路径对于科技创新具有重要意义,但现有方法如专家访谈、引文分析等不能适应文献爆发性增长的现状,针对这一问题,提出一种基于主题变迁的领域发展路径识别方法。[方法/过程]该方法可以自动从Aminer平台获取数据,通过构建关键词-学者矩阵,综合使用KMeans++和谱聚类算法识别出研究主题和相关学者;通过相似度计算实现不同主题之间的关联,最终获得研究领域的发展路径并进行可视化展示。[结果/结论]通过对人工智能领域的实证分析,结果表明该方法能够有效反映领域研究主题的变迁,有助于研究者快速定位领域的研究热点和重点,丰富领域发展路径相关的研究方法。  相似文献   

8.
认为利用专利技术功效主题词与专利引文进行共现分析可直观识别核心专利簇的技术功效特征。与专利引文共现分析相比,专利技术功效主题词与专利引文的交叉共现增加了主题标识,使得基于相同标引主题词的被引专利有相似的技术主题和功效特征。同时,不同的技术功效主题词通过专利引文交叉共现,可以识别不同技术主题的关联度以及技术主题对应的功效特征。最后,选择医用显微内窥镜领域相关专利做实证分析,通过技术功效主题词-专利引文、技术主题词-专利引文以及专利引文共现分析,论证专利技术功效主题词与专利引文共现方法在核心专利挖掘方面的特征、优越性及不足。  相似文献   

9.
突破性创新早期识别与弱信号分析综述   总被引:1,自引:0,他引:1  
[目的/意义]通过比较分析不同的突破性创新识别方法,总结现有方法存在的问题,将弱信号引入突破性创新研究的识别中,重点关注突破性创新早期的各类弱信号,尤其是弱关联关系分析,以期实现早期预判。[方法/过程]首先,通过调研现有的识别方法,提炼当前存在的主要问题,指出研究弱信号的必要性。之后,从不同的学科角度介绍弱信号的内涵及表征形式,对其特征进行概括,梳理弱信号的几种识别方法。最后介绍弱关系分析的内涵及应用,提出借鉴多元关系融合算法模型可以实现多种弱关系的有效融合,获取更明确的信息。[结果/结论]突破性创新的识别研究中受关注最多是文献间的引用关系、主题词之间的语义关系等强关系数据,而弱关系蕴含着更多元化的信息,加强弱关系分析可以实现对突破性创新研究的早期预判。未来研究需要寻求有效捕捉弱关联的方法,注重主题的动态演化规律,如利用高阶网络模型分析有效弱信号,提高突破性创新早期识别的准确性。  相似文献   

10.
文献数据库中书目信息共现挖掘系统的开发   总被引:9,自引:0,他引:9  
针对权威的生物医学数据库和引文索引数据,介绍一个基于文献数据库中书目信息共现关系进行文本挖掘的系统。该系统具有基本的文献计量学分析功能,并对相应的结果进行可视化表达;对高频主题词、高产作者和高被引论文和高被引作者进行共现分析,据此进行聚类分析和关联分析,获得有关的研究主题聚类和主题词/副主题词关联规则、合著聚类分析、高被引论文同被引聚类分析和高被引作者同被引聚类分析的结果和可视化表达。其中对关联规则的分析可以发现主题词之间的潜在语义规则,其他的文献计量学指标和共现分析结果可以用于科学计量学的分析。  相似文献   

11.
提出一种研究话题演化的方法,利用LDA话题模型抽取科技文献的话题,通过计算话题的强度和特征词,研究话题的演化趋势。对NIPS论文集与ACL论文集进行实验,结果显示了机器学习领域以及计算语言学领域的一些发展状况,从而验证该方法的可行性。  相似文献   

12.
基于种子文档LDA话题的演化研究   总被引:1,自引:0,他引:1  
提出一种基于种子文档的LDA话题演化方法。首先选取种子文档,利用种子文档指导后一时间段文档的建模,然后根据种子文档的语义分布信息对连续时间上的LDA话题进行关联,保证话题的同一性。实验结果证明,在NIPS论文语料集和全国两会新闻报道集中,该方法可以推导特定话题的演化结果,避免关联话题之间存在的演化结果。  相似文献   

13.
信息时代的"全球定位系统"--主题地图   总被引:16,自引:0,他引:16  
作为一项新的ISO标准(ISO/IEC 13250),主题地图(Topic Maps)被称为“信息时代的全球定位系统”,也是知识管理的一种实现技术。尽管主题地图能够表示复杂的知识结构,但是它的基本概念——主题、联系和事件(TAO)还是很容易掌握的。简单介绍了主题地图的概念及其背景,详细阐释其基本构成,并将它与我们熟悉的信息管理联系起来,还描述了主题地图未来的一些可能应用。  相似文献   

14.
基于“Topic”的语义信息组织与图书馆学的经典Subject理论密不可分,可将其视为较为抽象化的Subject理论在语义Web环境下的一种“演化”和实用化的主题技术。文章首先解读Subject和Topic的概念,并概述两种基于Topic的国际标准技术,即TopicMaps和DITA;其次,简要描述TopicMaps的技术和应用,并重点介绍在图书馆界鲜为人知的DITA技术及其应用;再次,对基于“Topic”的语义信息组织方法予以总结。  相似文献   

15.
黎楠  杜永萍  何明 《情报工程》2015,1(3):090-097
LDA 主题模型可用于识别大规模文档集中潜藏的主题信息,本文提出了一种基于LDA 建立发明人兴趣主题模型的方法,合并每位发明人的专利数据,专利信息基于发明人进行划分,将标准的文档- 主题-词的三层LDA 模型变为专利数据中的发明人- 主题- 词的发明人兴趣模型,实现发明人的主题发现,并利用该模型中主题分布之间的相似性进行发明人的个性化推荐。在采集真实专利数据集上的实验结果表明该方法相比传统的向量空间模型方法和隐马尔科夫模型方法具有更高的准确率,推荐效果更优。  相似文献   

16.
基于主题图的英汉跨语言检索模型构建   总被引:4,自引:3,他引:1  
针对现有跨语言检索模型普遍存在的翻译准确性差、效率低、成本高等不足,在深入分析主题图技术在揭示语词概念之间的语义关系和多语言支持等方面的优越性能的基础上,提出一个基于主题图的英汉跨语言检索模型,该模型采用索引翻译的策略来实现跨语言检索。该模型的突出特点是能够在提高翻译准确性的同时,有效降低翻译成本。此外,实现起来也比较简单。  相似文献   

17.
国内外主题图应用研究述评   总被引:1,自引:0,他引:1  
本文对国内外主题图发展概况进行简要回顾,侧重介绍国内外主题图应用研究的相关成果,包括叙词表改进与知识库建构、知识组织与检索、知识建构、网络门户导航与知识导航、语义网应用和学科管理几个方面。指出国内在该领域研究中存在的问题,如尚未形成系统性、规模化研究,研究方法手段比较单一,主题图应用范围领域应进一步扩大等,在此基础上提出今后国内主题图研究的可能走向。  相似文献   

18.
主题图技术在数字化知识组织中的应用研究   总被引:19,自引:0,他引:19  
通过研究主题图技术的理论基础,分析了它对数字化知识组织的适应性;接着,以沙尘暴研究领域的知识导航为例进行了主题图在数字化知识组织中的试验性应用研究。在实验基础上对主题图技术应用于数字化知识组织的关键问题进行了讨论,并对主题图技术及其应用前景进行了评价和展望。  相似文献   

19.
20.
基于图情领域权威期刊论文数据集,利用概率潜在语义分析(PLSA)算法对表征专家专长的文档进行处理,以此来定位图情领域专家的研究领域。实验结果表明,该方法具有可行性并取得较好的实验结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号