首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 145 毫秒
1.
基于主题模型的科技报告文档聚类方法研究   总被引:1,自引:0,他引:1  
[目的/意义]探索实践以科技报告为文献载体形式的融合主题模型的文本聚类方法,拓展基于科技文献进行技术监测服务的新领域,提出基于科技报告进行语义分析的新方法。[方法/过程]以国家科技报告服务系统中的科技报告为数据源,首先基于LDA主题模型对经过文本预处理的科技报告进行主题挖掘,再基于Ward与K-means相结合的聚类算法对包含主题分布信息的文本向量进行聚类分析,尝试提出一种适合科技报告文档聚类的文本挖掘新方法。[结果/结论]实验结果表明,LDA主题模型能有效准确挖掘科技报告中的主题信息,所提出的Ward与K-means相结合的聚类算法对科技报告的聚类效果也优于其它传统聚类算法。  相似文献   

2.
[目的/意义] 由于传统科技创新主题概率识别方法忽略文本内容语义理解,为了更加准确地识别出主题,科技创新主题语义识别势在必行。[方法/过程] 提出一种基于LDA的科技创新主题语义识别方法,利用语义角色标注技术对科技文献中的科技创新内容进行语义标引,构建LDA主题语义识别模型,根据表征科技创新内容的关键词语义角色对应的上位词的概率识别出科技创新主题。[结果/结论] 通过以3D打印领域数据为对象进行实验,证明该方法能够更加准确地识别出科技创新主题,形成科技创新主题-主题词-科技文献的混合分布聚类集群,减少研究背景等无关数据干扰,避免语义含义相同的科技创新主题词重复统计问题。  相似文献   

3.
[目的/意义]为全面、客观、高效、直观地掌握科技领域主题的发展规律和演变趋势,提出一种基于多源数据的领域主题演化路径识别和分析框架。[方法/过程]获取不同来源的科技文献数据,利用多维样本有序聚类方法辅助时间切片,基于改进的词袋构建方法,提升LDA模型主题识别效果,借助Louvain社区发现算法在主题层进行多源数据的融合,分析领域主题演化路径。[结果/结论]利用美国太赫兹研究领域基金项目、论文和专利3种来源的数据进行实证研究,结果表明,3种数据源能够清晰划分出4个时间窗口,改进的词袋构建方法能够表征更准确的领域信息内涵,主题社区有助于从多源数据复杂的演化网络中厘清主题演化脉络。  相似文献   

4.
[目的/意义]随着信息资源在数量和种类上的急剧增长,学科间的交叉融合不断涌现,快速主动地从海量信息资源中识别和判断研究主题的发展演化是实现科技创新的基础。[方法/过程]在相关理论调研的基础上,结合医学领域的资源特点,提出一种基于LDA模型的主题演化探测模型和相应的流程步骤。主要步骤包括医学主题词抽取、主题识别、主题关联、关键主题识别、关键主题的演化主路径识别、演化主路径上主题分裂、融合事件识别,实现深度、细致的主题演化分析。[结果/结论]选用乳腺癌治疗研究文献为实验案例,对判断模型进行试验并对结果进行分析验证,证实提出的技术方法具有一定的可靠性。  相似文献   

5.
[目的/意义]潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)在科技情报分析中用来发现学科主题、挖掘研究热点以及预测研究趋势等。对常见的科学文献文本语料库(关键词、摘要、关键词+摘要)进行LDA主题抽取效果的评价,以揭示不同语料库的主题抽取效果,提高LDA在科技情报分析中的应用效果。[方法/过程]对上述3种语料库下的LDA主题模型进行对比研究,采用基于查全率、查准率、F值以及信息熵的定量分析和基于主题抽取的广度和主题粒度的定性分析相结合的方法对主题抽取效果进行评价。[结果/结论]通过国内风能领域的科学文献数据实证研究发现,无论是从定量分析还是从定性分析来看,摘要和关键词+摘要作为语料的LDA主题抽取的效果均优于关键词作为语料的LDA主题抽取效果,并且前者在主题抽取的广度方面表现更好,而后者抽取的主题粒度更细。  相似文献   

6.
[目的/意义]改善现有专利技术主题分析方法主题辨识度低、主题词二义性、无法识别技术信息中的"问题"与相应"解决方案"等问题。[方法/过程]本文通过抽取专利文本中的SAO结构,并从SAO结构中识别"问题和解决方案"(P&S)模式,基于"bag of P&S"假设,构建基于"主语-行为-宾语"(subject-action-object,SAO)结构的LDA主题模型,实现对专利文献主题结构的识别和分析。[结果/结论]案例研究表明,该方法能够有效识别主题分布,并在主题辨识度和语义消岐方面较传统LDA模型具有较大优势。  相似文献   

7.
[目的/意义]突破性创新对科技发展具有关键作用。大数据环境下,科学技术发展本身所具有的复杂、多维、不断进化等特征越发凸显。以动态视角进行突破性创新主题识别,对于为国家、企业及高校详析突破性创新领域、合理配置创新资源以及提供创新升级解决方案具有重要意义。[方法/过程]综合运用主题模型、词嵌入算法以及复杂网络分析等方法构建动态主题网络,全面考量主题在时间窗口内的结构特性以及时间窗口间的演化状态,并以其为基础结合突破性创新的新颖性、突变性、影响力和学科交叉性特征识别突破性创新主题。[结果/结论]面向区块链领域展开实证研究,识别出神经网络(Neural Network)和边缘计算(Edge Computing)两个主题的突破性创新特征最为显著。结合区块链现有研究及美国国家科学技术委员会发布的关键和新兴技术清单,验证了本文方法的可行性和有效性。但有关结果的定量验证,以及融合多源数据的突破性创新主题识别有待进一步研究。  相似文献   

8.
[目的/意义] 为有效探测科技文献中潜在的研究热点,研究文献中关键词突发的特征条件,构建突发词识别模型对促进科研人员精确把握研究方向具有重要意义。[方法/过程] 获取各年度内关键词及词频,构建关键词-年度矩阵,将分析时间段划分为标准窗口、观察窗口和表现窗口,在观察窗口内利用多测度突发词探测模型识别具有突发特征的关键词;在表现窗口内利用LDA挖掘主题词汇作为热点词集合。设计突发词覆盖率指标,辅助滑动时间窗口法,计算不同时间窗口内突发词集合和热点词集合的覆盖率,验证模型识别准确性。[结果/结论] 3次滑动时间窗口,计算得到3次突发词覆盖率都在70%以上;与Citespace突发词的对照试验中,本模型3次覆盖率均大于前者,表明设计的突发词探测模型性能良好。  相似文献   

9.
融合主题与情感特征的突发事件微博舆情演化分析   总被引:1,自引:0,他引:1  
安璐  吴林 《图书情报工作》2017,61(15):120-129
[目的/意义]微博是突发事件网络舆情传播的重要媒介。面向突发事件的微博主题和情感挖掘对掌握突发事件的网络舆情、识别与预测潜在问题及风险等方面具有重要的实践意义。尝试提出一种融合主题与情感特征的突发事件微博舆情演化分析方法。[方法/过程]以寨卡事件为例,通过划分微博舆情演化的生命周期,基于word2vec技术分别提取该事件生命周期各阶段的微博主题,采用基于词典的情感分析方法,引入情感词、表情符号等多情绪源,对不同主题下的评论情感做细粒度划分,并计算情感强度,最终实现微博主题与情感的协同分析。[结果/结论]所提出的微博舆情演化分析方法能够揭示面向特定事件的微博在突发事件生命周期各阶段的主题特征、情感类型与强度,剖析网络舆情主题与情感特征的协同演化规律。  相似文献   

10.
[目的/意义]科学与技术之间的密切关系,使得结合论文与专利进行技术机会分析比使用单一数据更加合理与高效。本文使科学技术关系的生成更自动化,减弱对主观判断的依赖,使技术颗粒更加精细,同时为技术研发人员提供研发建议,将科学研究中汲取的理念应用到相应的技术创新中去。[方法/过程]将论文、专利的摘要文本进行Doc2vec向量表示,通过文本相似性将其关联成网络,再基于Louvain算法生成科技主题聚类,识别科学研究推动的技术机会。最后以3D打印技术为案例进行实证研究。[结果/结论]识别出若干科学研究推动的技术机会,并验证所识别的机会具有一定的技术潜力,证明方法的可行性和有效性。  相似文献   

11.
��[Purpose/significance] In scientific research, identifying mining scientific research hotspots from different sources of scientific literature is of guiding significance for carrying out the next scientific research work. It aims to quickly and accurately identify hot topics contained in multi-source texts through the model method proposed in this study, and provide support services for scientific research innovation.[Method/process] This paper proposed a method based on LDA2vec model for multi-source text research hotspot identification and built a model for scientific research hotspot identification. This method combined the advantages of LDA topic model on implicit semantic mining and the context of Word2Vec word vector model. Taking the scientific literature in the field of machine learning as an example, the model extraction degree (perplexity) and topic coherence (topic coherence) were used to compare the topic extraction effects of LDA2vec and LDA in the context of multi-source text.[Result/conclusion] After experiments, the results show that the method proposed in this paper is feasible and can be improved to some extent in the face of multi-source data. The method can relatively quickly and accurately identify the hot content in the multi-data source text, make up for the shortcoming of the single analysis data source for subject detection, and enrich the practical application of the multi-data source fusion theory system.  相似文献   

12.
[目的/意义]以主题短语识别为研究对象,提出基于PhraseLDA模型的主题短语挖掘方法,为快速理解文本内容、准确抽取文本主题提供借鉴思路。[方法/过程]对低频词进行量化定义,提出一种合理的短语重要度计算方法,最终利用PhraseLDA主题模型推理出主题短语。[结果/结论]实验结果表明该方法在多种数据集中挖掘出的主题短语质量较高,主题一致性较强。  相似文献   

13.
基于词向量扩展的学术资源语义检索技术   总被引:1,自引:0,他引:1  
[目的/意义] 尝试以统计的方法为指导思想,探究基于词向量扩展的语义检索技术来提升学术资源的语义检索能力。[方法/过程] 利用自然语言处理、文本挖掘技术,对采集来的学术资源(主要是学术论文)元数据进行预处理,结合word2vec词向量生成工具和elasticsearch全文检索引擎搭建语义检索系统,对学术资源进行语义检索的探索研究。[结果/结论] 本文提出的方法能够有效提升学术信息的检索效果,一定程度上实现学术资源的语义检索,并为后续语义检索的进一步研究提供借鉴。  相似文献   

14.
[目的/意义] 探索微博舆情传播周期中不同传播者关注的舆情热点和传播内容的主要观点,进而发现舆情传播的特点和规律,为舆情分析与决策提供依据。[方法/过程] 以特定舆情事件的事实文本数据为来源,以生命周期理论和LDA方法为指导,设计研究流程与构建研究模型,对微博舆情事件中不同传播者的话题进行主题研究,其中包括主题抽取和结果语义标注、各阶段的不同传播者主题的语义分析、基于时间维度的舆情主题观点识别与刻画。[结果/结论] 研究发现,论文所提出的研究模型能够挖掘出舆情传播周期中不同传播者的主题结构、观点脉络以及特征,研判出分布在文字当中有关联性的、代表性的、重要的词语。同时,结论中还发现微博中的官媒、大众媒体发布信息中的话题和用户谈论的热点话题具有明显的差异性。  相似文献   

15.
[目的/意义]移动健康信息服务的发展可以为医疗行业创造巨大的潜在价值,但整体应用滞后于金融服务等行业,其源于转移过程中存在诸多的影响因素。对用户健康信息行为研究成果进行文本挖掘能够有效揭示潜在的主要影响因素,进而总结这些因素对转移行为的影响。[方法/过程]利用LDA模型进行文本分析,结合社会认同理论,将相对感知价值、相对忠诚度作为关键影响因素,转移成本作为调节因素,构建用户转移行为影响因素的研究模型并进行实证分析。[结果/结论]研究结果显示,LDA模型分析结果可以获取较为具体的特征词,通过分析特征词能够获取有效的影响因素,同时,这些因素与实际理论具有较高契合度,基于社会认同理论与相关因素理论提出的模型对用户转移行为具有较好的解释效果。  相似文献   

16.
基于动态LDA主题模型的内容主题挖掘与演化   总被引:1,自引:0,他引:1  
指出文本内容主题的挖掘和演化研究对于文本建模和分类及推荐效果提升具有重要作用。从分析基于LDA主题模型的文本内容主题挖掘原理入手,针对当前网络环境下的文本内容特点,构建适用于动态文内容本主题挖掘的LDA模型,并通过改进的Gibbs抽样估计提高主题挖掘的准确性,进而从主题相似度和强度两个方面研究内容主题随时间的演化问题。实验表明,所提方法可行且有效,对后续有关文本语义建模和分类研究等具有重要的实践意义。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号