首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 171 毫秒
1.
[目的/意义] 改善现有LDA专利技术主题分析存在的辨识度低、可解释性弱和界限划分模糊问题,对于把握技术热点、追踪技术前沿具有重要意义。[方法/过程] 将国际分类号IPC引入LDA专利主题分析中,将其作为技术词的语境,以<词/词组,分类号>二元组的WI (Word IPC)结构进行训练,构建WI-LDA模型,实现对专利文献主题的识别和分析。[结果/结论] 通过中国石墨烯领域的实证研究及与传统LDA模型的对比研究证明,WI-LDA模型泛化能力较强,在专利技术主题分析上能有效降低主题的辨识难度,增加主题的可解释性,使文本主题划分更加清晰。  相似文献   

2.
[目的/意义] 针对LDA模型主题识别结果通常包含噪声主题的问题,建立科学有效的主题过滤方法,排除噪声主题,确保主题识别及后续演化分析的准确性。[方法/过程] 基于关键词之间的共现关系,构建关键词关联度指标(KRI),借助定量手段进行主题筛选和过滤。以单细胞研究领域为例,计算各主题-关键词分布的KRI值,与人工判读结果进行对比分析。[结果/结论] 实验结果表明,该方法能够有效排除LDA模型识别结果中的噪声主题,提高主题识别的准确性,也在一定程度上降低了主题识别过程对人工判读的依赖性。  相似文献   

3.
[目的/意义]基于大量专利文献数据的核心技术主题识别有助于识别某技术领域的关键技术、分析关键技术的发展方向,是进行技术创新的基础情报工作,对于研究人员、企业乃至国家层面都具有一定的意义。[方法/过程]提出基于Chunk-LDAvis的核心技术主题识别方法,首先基于经典LDA模型进行主题识别,然后利用名词组块对初始LDA主题识别结果进行标注,构建Chunk-LDA主题识别结果,提高其可解读性;然后基于社会网络分析方法构建主题网络,识别核心技术主题;基于R语言的LDAvis工具包绘制可交互的Chunk-LDAvis核心技术主题关联分析图谱,发现核心技术主题的隐含联系,辅助进行核心技术主题识别。[结果/结论]通过对纳米农业领域进行实证研究,验证了本文提出方法的准确性和可行性。  相似文献   

4.
[目的/意义] SAO是一种能够表示主题信息和主题间关系的3元组结构,是文献计量学领域一个快速发展的研究方向。为了获得“满足文献计量分析需求的SAO结构”,需要解决现有SAO结构识别方法遭遇的3个问题:查全和查准率低、所识别SAO结构和领域主题相关性不强以及矩阵稀疏性。[方法/过程] 提出一种面向文献计量分析的基于语法树的SAO结构识别方法,首先基于共现算法和“主题词簇”方法(term clumping)识别SAO核心组件,然后利用基于语法树的抽取算法实现SAO结构的逐层抽取。[结果/结论] 案例研究发现,该方法的平均查准率为0.805 8,平均查全率为0.844 6,所识别SAO结构与领域主题关系较强,且矩阵稀疏性也得到较好改善,可有效应用于相关文献计量分析。  相似文献   

5.
利用专利文献数据识别技术领域的技术主题演化发展路径并分析其发展趋势,对于科技界、企业界进行专利技术创新具有重要的意义。首先,使用Open IE 5.1进行SAO (subject-action-object)三元组抽取,基于LDA (latent Dirichlet allocation)模型进行主题识别,根据TRIZ技术创新思想,基于action语义词典将技术主题划分到四个维度;然后,通过计算SAO三元组之间的相似度来测度技术主题之间的语义关联构建技术主题创新演化路径,并利用可视化技术构建技术主题创新演化路径可视化图谱,利用该图谱辅助分析技术主题演化脉络及其发展趋势。最后,通过石墨烯超级电容器(集流体)领域的实证,对该领域的技术问题(problem to problem,P-P)主题、技术功能(solution to solution,S-S)主题、解决方案(problem to solution,P-S)主题和技术效果(solution to problem,S-P)主题的创新演化路径进行解读分析,验证了本研究提出方法的可行性和有效性。  相似文献   

6.
黎楠  杜永萍  何明 《情报工程》2015,1(3):090-097
LDA 主题模型可用于识别大规模文档集中潜藏的主题信息,本文提出了一种基于LDA 建立发明人兴趣主题模型的方法,合并每位发明人的专利数据,专利信息基于发明人进行划分,将标准的文档- 主题-词的三层LDA 模型变为专利数据中的发明人- 主题- 词的发明人兴趣模型,实现发明人的主题发现,并利用该模型中主题分布之间的相似性进行发明人的个性化推荐。在采集真实专利数据集上的实验结果表明该方法相比传统的向量空间模型方法和隐马尔科夫模型方法具有更高的准确率,推荐效果更优。  相似文献   

7.
[目的/意义] 由于传统科技创新主题概率识别方法忽略文本内容语义理解,为了更加准确地识别出主题,科技创新主题语义识别势在必行。[方法/过程] 提出一种基于LDA的科技创新主题语义识别方法,利用语义角色标注技术对科技文献中的科技创新内容进行语义标引,构建LDA主题语义识别模型,根据表征科技创新内容的关键词语义角色对应的上位词的概率识别出科技创新主题。[结果/结论] 通过以3D打印领域数据为对象进行实验,证明该方法能够更加准确地识别出科技创新主题,形成科技创新主题-主题词-科技文献的混合分布聚类集群,减少研究背景等无关数据干扰,避免语义含义相同的科技创新主题词重复统计问题。  相似文献   

8.
俞琰  赵乃瑄 《图书情报工作》2018,62(21):118-126
[目的/意义]针对专利主题分析中以词为基本单位会造成专利中的多词术语难以被识别、主题模型结果不佳的问题,提出融入术语的专利主题发现模型,以解决该问题。[方法/过程]模型首先引入类别熵,有效地识别出专利文献中的术语;然后利用泛化波利亚瓮模型增加语义相似术语分配到同一主题的概率,以缓解术语作为基本主题模型分析单位所带来的数据稀疏性问题。[结果/结论]实验结果表明本文提出的模型包含的术语信息提高了主题生成的质量,使主题表示具有更强的可读性和主题判别性。  相似文献   

9.
任海英  李真 《图书情报工作》2021,65(19):117-129
[目的/意义] 基于专利文献识别产业技术领域的核心技术链,对于梳理产业核心技术架构,分析我国核心产业链的薄弱环节,确定技术攻关方向,完善技术链和产业链具有积极意义。[方法/过程] 改进经典的SAO结构,提出基于输入输出型SAO网络的核心技术链识别方法。从领域专利文本中提取输入输出型SAO结构作为技术要素,根据技术要素间的输入输出关系构建技术的领域知识网络;运用加权k-Core方法获得包含主要技术关系的核心知识子网络,并通过识别强连通分量实现核心知识子网络的分解;利用主路径分析等方法识别核心知识子网络中的外部核心技术链与内部核心技术链,并参照其涉及专利对核心技术链进行解读。[结果/结论] 将所提出方法应用于量子计算领域,识别出其中蕴含的外部和内部核心技术链,通过专家验证以及与相关学者研究的对比,验证了结果的准确性。该识别方法具有技术链关系连贯、自动化程度高以及灵活性强等优点。  相似文献   

10.
[目的/意义]颠覆性技术关乎国家竞争力和国际地位,科学准确地识别出颠覆性技术主题,能够解决技术发展过程中主题不够明确、发展路径不够清晰等问题,以此有效把握技术发展动态,调整国家科技战略布局,更好地抢占国际竞争制高点。[方法/过程]以能源科技领域的专利文本数据为研究客体,构建基于Word2Vec词向量与LDA(Latent Dirichlet Allocation)主题向量的融合特征向量,并引入K-means算法优化主题聚类效果,最后结合颠覆性技术特征指标,识别颠覆性技术主题,利用DTM(Dynamic Topic Model)模型揭示该领域颠覆性技术主题的发展状况。[结果/结论]通过人工验证和模型结果对比可以发现,实证结果具有合理性,且模型的精准率、召回率、F1值均高于同类型的主题模型,证明该方法对颠覆性技术主题识别具有较好效果。  相似文献   

11.
[目的/意义]潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)在科技情报分析中用来发现学科主题、挖掘研究热点以及预测研究趋势等。对常见的科学文献文本语料库(关键词、摘要、关键词+摘要)进行LDA主题抽取效果的评价,以揭示不同语料库的主题抽取效果,提高LDA在科技情报分析中的应用效果。[方法/过程]对上述3种语料库下的LDA主题模型进行对比研究,采用基于查全率、查准率、F值以及信息熵的定量分析和基于主题抽取的广度和主题粒度的定性分析相结合的方法对主题抽取效果进行评价。[结果/结论]通过国内风能领域的科学文献数据实证研究发现,无论是从定量分析还是从定性分析来看,摘要和关键词+摘要作为语料的LDA主题抽取的效果均优于关键词作为语料的LDA主题抽取效果,并且前者在主题抽取的广度方面表现更好,而后者抽取的主题粒度更细。  相似文献   

12.
[目的/意义]探究中国政府网"一带一路"相关新闻的话题内容及热度变化,呈现"一带一路"倡议主题及动态,明确不同时期的倡议重点,为相关研究提供参考。[方法/过程]构建基于LDA模型的新闻话题内容的基本框架,限定2015-2017年"一带一路"相关新闻数据,利用LDA模型进行话题抽取,根据文档与话题的概率分布计算,分析各主题在不同时间段的热度演化。[结果/结论]抽取得出30个细分话题,归纳为政策沟通、设施联通、贸易畅通、资金融通、民心相通、"一带一路"对我国经济的影响和政府工作7大类。其中,政策沟通类在全时间段上热度最高,贸易畅通和"一带一路"对我国经济的影响两类话题紧随其后。"进出口"等细分话题的热度不断上升,"改革与转型"等细分话题的热度则有下降,体现了官方媒体新闻内容及其关注度随时间而变化的特点。  相似文献   

13.
[目的/意义] 在科学研究中,从不同来源的科技文献中识别挖掘科研热点对于开展科研工作具有指导意义。旨在通过本研究提出的模型方法,快速准确地识别蕴含在多源文本中的热点主题,为科研创新提供支撑服务。[方法/过程] 提出一种基于LDA2vec模型的多源文本下科研热点识别的方法并针对科研热点识别构建模型,该方法融合LDA主题模型对隐含语义挖掘的优势和Word2Vec词向量模型对于上下文关系把握的优势。以机器学习领域的科技文献为例,利用模型困惑度和主题一致性两个指标对LDA2vec的在本领域应用的可行性和有效性进行验证,并与LDA的主题提取效果进行对比。[结果/结论] 实验结果表明,提出的方法在面对多源数据情况下,进行科研热点识别挖掘是可行的,且在一定程度上有效果的提升,对利用单一数据源进行主题分析的不足进行补充,对多数据源融合的实践应用进行丰富。  相似文献   

14.
��[Purpose/significance] In scientific research, identifying mining scientific research hotspots from different sources of scientific literature is of guiding significance for carrying out the next scientific research work. It aims to quickly and accurately identify hot topics contained in multi-source texts through the model method proposed in this study, and provide support services for scientific research innovation.[Method/process] This paper proposed a method based on LDA2vec model for multi-source text research hotspot identification and built a model for scientific research hotspot identification. This method combined the advantages of LDA topic model on implicit semantic mining and the context of Word2Vec word vector model. Taking the scientific literature in the field of machine learning as an example, the model extraction degree (perplexity) and topic coherence (topic coherence) were used to compare the topic extraction effects of LDA2vec and LDA in the context of multi-source text.[Result/conclusion] After experiments, the results show that the method proposed in this paper is feasible and can be improved to some extent in the face of multi-source data. The method can relatively quickly and accurately identify the hot content in the multi-data source text, make up for the shortcoming of the single analysis data source for subject detection, and enrich the practical application of the multi-data source fusion theory system.  相似文献   

15.
��[Purpose/significance] The identification results of the LDA model is sometimes unsatisfactory due to some meaningless topics mixed together. Therefore, it's quite necessary to establish an effective topic filtering method to eliminate these noise topics and to ensure the accuracy of subsequent evolution analysis.[Method/process] Based on the co-occurrence relationship between keywords, keywords relevance index (KRI) was constructed. Taking the field of single cell research as an example, KRI values of the distribution of theme-keywords were calculated and compared with the results of manual interpretation.[Result/conclusion] Experimental results show that this method can effectively eliminate meaningless noise topics in the LDA model recognition results, which can improve the accuracy of topic recognition and the subsequent topic evolution analysis. It also helps to reduce the dependence on manual interpretation in the process of topic identification through the topic model method.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号