首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 125 毫秒
1.
基于动态LDA主题模型的内容主题挖掘与演化   总被引:1,自引:0,他引:1  
指出文本内容主题的挖掘和演化研究对于文本建模和分类及推荐效果提升具有重要作用。从分析基于LDA主题模型的文本内容主题挖掘原理入手,针对当前网络环境下的文本内容特点,构建适用于动态文内容本主题挖掘的LDA模型,并通过改进的Gibbs抽样估计提高主题挖掘的准确性,进而从主题相似度和强度两个方面研究内容主题随时间的演化问题。实验表明,所提方法可行且有效,对后续有关文本语义建模和分类研究等具有重要的实践意义。  相似文献   

2.
[目的/意义]系统归纳梳理LDA模型的应用过程与应用领域,为图情领域LDA模型研究提供参考。[研究设计/方法]以Web of Science核心集、LISA、Google Scholar、中国知网、维普和万方等为数据源,检索图情领域LDA模型的研究文献,通过内容分析构建了LDA模型应用研究分析框架,从模型应用过程的视角对国内外研究现状进行系统地总结归纳。[结论/发现]LDA主题模型研究已经形成较为成熟的分析流程,已应用在主题探索、知识组织、学术评价、情感分析等很多领域,但是在应对大数据、多模态数据等复杂处理任务,提升建模结果的语义质量,扩展模型应用等方面还亟待加强。[创新/价值]基于LDA模型的应用过程,细致揭示了图情领域LDA模型应用研究存在的问题和发展方向。  相似文献   

3.
[目的/意义]潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)在科技情报分析中用来发现学科主题、挖掘研究热点以及预测研究趋势等。对常见的科学文献文本语料库(关键词、摘要、关键词+摘要)进行LDA主题抽取效果的评价,以揭示不同语料库的主题抽取效果,提高LDA在科技情报分析中的应用效果。[方法/过程]对上述3种语料库下的LDA主题模型进行对比研究,采用基于查全率、查准率、F值以及信息熵的定量分析和基于主题抽取的广度和主题粒度的定性分析相结合的方法对主题抽取效果进行评价。[结果/结论]通过国内风能领域的科学文献数据实证研究发现,无论是从定量分析还是从定性分析来看,摘要和关键词+摘要作为语料的LDA主题抽取的效果均优于关键词作为语料的LDA主题抽取效果,并且前者在主题抽取的广度方面表现更好,而后者抽取的主题粒度更细。  相似文献   

4.
[目的/意义]梳理LDA主题模型提出以来的国内研究现状,总结其研究趋势和发展情况,为进一步在情报学领域利用该模型进行研究提供参考和借鉴。[方法/过程]在CNKI中进行相关检索,得到符合要求的文献作为数据集,从年度发文量、高产出作者、高产出机构、作者之间的合著情况、高产科研机构之间的合作情况、文献来源情况以及相关文献的关键词之间的共现情况等方面进行分析,并通过可视化软件进行结果展示。[结果/结论]从年度发文量来看,LDA主题模型的研究论文呈现出数量逐步上升的趋势,说明进行该模型的有关研究具有一定的可行性;结合高产出作者和作者之间的合著情况来看,LDA主题模型的有关研究更加趋向于计算机相关领域;从高产出机构的情况来看,地理位置在东部和南部的相关科研机构更容易在LDA主题模型的有关领域占据领先位置,985、211以及双一流高校凭借自身优势更容易获得科研资源,产生出大量成果;从关键词之间的共现情况来分析,以LDA为主要出发点开展相关研究,主要涉及到主题模型和主题挖掘内容,这一点可以和大数据背景下的情报领域相关发展结合起来。  相似文献   

5.
6.
在中国知网中以“智慧阅读”或“智能阅读”为检索词进行主题词检索,将得到的313篇文献的摘要作为LDA主题模型的原始语料,通过模型训练得到国内智慧阅读研究热点,即智慧阅读技术研究、智慧阅读平台、智慧阅读用户服务、智慧化读物供给、智慧图书馆建设、智慧阅读评价、智慧阅读推广。LDA模型在热点主题识别方面具有准确性,有利于研究者把握该领域的发展状态,确定未来研究方向。今后,智慧阅读研究应在智慧阅读技术研究、智慧阅读平台研究、智慧阅读用户服务研究、智慧化读物供给研究、智慧图书馆建设研究、智慧阅读评价研究、智慧阅读推广研究给予足够关注。  相似文献   

7.
张培晶  宋蕾 《图书情报工作》2012,56(24):120-126
在介绍概率主题模型发展过程以及概率主题模型的代表性模型LDA基本原理的基础上,分析LDA模型的特征及其用于微博类网络文本挖掘的优势;介绍和评述微博环境下现有的基于LDA模型的文本主题建模方法,并对其扩展方式和建模效果进行总结和比较;最后对微博文本主题建模的发展方向进行展望。  相似文献   

8.
[目的/意义]无处不在的网络舆情信息深深影响甚至误导网络受众,探讨揭示网络舆情观点的方法,旨在拓展用户的认知深度和广度,提高大众对舆论的辨识能力。[方法/过程]从技术上对比分析观点提取方法间的差异,从认知上阐释网络舆论平台的群体智慧和受众个体的认知过程,进而明确LDA主题模型提取舆情观点的优势及路径。[结果/结论]结合舆论主题和情感因素,基于LDA的网络舆情观点提取,可从海量评论中判定深度评论,摘取主要观点,借助群众智慧,有效拓展个体思想和认知,为从大规模舆情中有序呈现受众观点提供新路径,也为舆情监测与疏导提供切实的依据。  相似文献   

9.
[目的/意义]改善现有专利技术主题分析方法主题辨识度低、主题词二义性、无法识别技术信息中的"问题"与相应"解决方案"等问题。[方法/过程]本文通过抽取专利文本中的SAO结构,并从SAO结构中识别"问题和解决方案"(P&S)模式,基于"bag of P&S"假设,构建基于"主语-行为-宾语"(subject-action-object,SAO)结构的LDA主题模型,实现对专利文献主题结构的识别和分析。[结果/结论]案例研究表明,该方法能够有效识别主题分布,并在主题辨识度和语义消岐方面较传统LDA模型具有较大优势。  相似文献   

10.
席笑文  郭颖  宋欣娜  王瑾 《情报学报》2021,40(9):974-983
技术相似性是企业、组织或国家进行技术情报分析的重要内容,能为其识别潜在竞争关系和合作伙伴提供准确、有效的信息支持。本文针对传统LDA (latent Dirichlet allocation)主题模型忽略专利文本上下文间语义关联的问题,提出了基于word2vec和LDA主题模型的技术相似性可视化研究方法。首先,基于word2vec模型学习特征词在专利文档集合中的上下文语境信息;其次,基于LDA主题模型构建专利权人-专利-技术主题三层概率分布,并将两者融合生成"词粒度"层面的主题向量、专利文档向量及专利权人向量;再次,利用向量相似性指标计算专利权人间的语义相似度,并在此基础上构建能够直观反映专利权人与技术主题关系的二模网络;最后,以NEDD (nano enabled drug delivery)领域为例进行实证研究,证明了该模型在技术相似性测度分析中具有较好的效果。  相似文献   

11.
[目的/意义]针对目前使用标签推荐方法所得结果不理想的问题,改进传统相似度计算方式,并结合多种标签推荐方法,提高推荐准确性。[方法/过程]融合基于内容与协同过滤的推荐思想,利用LDA进行相似度计算得出资源与用户的近邻集合,并抽取资源内容关键词,以此构建标签混合推荐模型,最后以"豆瓣读书"为例对模型进行验证,同时与几种标签推荐方法进行比较。[结果/结论]在社会标注系统中,必须考虑用户-资源-标签3个维度,仅考虑单一角度势必会造成结果的不完整,同时在相似度计算时引入LDA能够挖掘潜在语义关系,提高推荐质量,且组合多种方法取长补短可以令推荐结果更为满意。  相似文献   

12.
��[Purpose/significance] The identification results of the LDA model is sometimes unsatisfactory due to some meaningless topics mixed together. Therefore, it's quite necessary to establish an effective topic filtering method to eliminate these noise topics and to ensure the accuracy of subsequent evolution analysis.[Method/process] Based on the co-occurrence relationship between keywords, keywords relevance index (KRI) was constructed. Taking the field of single cell research as an example, KRI values of the distribution of theme-keywords were calculated and compared with the results of manual interpretation.[Result/conclusion] Experimental results show that this method can effectively eliminate meaningless noise topics in the LDA model recognition results, which can improve the accuracy of topic recognition and the subsequent topic evolution analysis. It also helps to reduce the dependence on manual interpretation in the process of topic identification through the topic model method.  相似文献   

13.
[目的/意义] 针对LDA模型主题识别结果通常包含噪声主题的问题,建立科学有效的主题过滤方法,排除噪声主题,确保主题识别及后续演化分析的准确性。[方法/过程] 基于关键词之间的共现关系,构建关键词关联度指标(KRI),借助定量手段进行主题筛选和过滤。以单细胞研究领域为例,计算各主题-关键词分布的KRI值,与人工判读结果进行对比分析。[结果/结论] 实验结果表明,该方法能够有效排除LDA模型识别结果中的噪声主题,提高主题识别的准确性,也在一定程度上降低了主题识别过程对人工判读的依赖性。  相似文献   

14.
基于种子文档LDA话题的演化研究   总被引:1,自引:0,他引:1  
提出一种基于种子文档的LDA话题演化方法。首先选取种子文档,利用种子文档指导后一时间段文档的建模,然后根据种子文档的语义分布信息对连续时间上的LDA话题进行关联,保证话题的同一性。实验结果证明,在NIPS论文语料集和全国两会新闻报道集中,该方法可以推导特定话题的演化结果,避免关联话题之间存在的演化结果。  相似文献   

15.
[目的/意义]分析中国国内基于主题模型的科技文献主题发现及演化研究进展,以期为相关研究人员提供参考借鉴及研究思路。[方法/过程]选取中国知网(CNKI)数据库及万方数据知识服务平台作为文献来源,检索并筛选相关文献,通过人工判读提炼出基于主题模型的科技文献主题发现及演化研究的分析流程,并采用文献分析法对流程中国内研究人员所使用到的策略、方法、分析手段等进行归纳和总结。[结果/结论]研究已初具规模,形成较为完整的分析流程,同时各个流程环节上所涉及到的策略、方法和分析手段较为多样化。另外,也存在着一些问题:主题模型方法在科技文献领域的应用尚且不成熟,主题数目固定,缺少对主题模型应用效果的评价方法与准则。  相似文献   

16.
设计基于网络数据的时序主题演化系统Hot Topics Analysis System(HTAS),实现网络热点话题数据源自动定制、自动获取和自动存储。针对中文话题分析,HTAS集成了Google的开源分词系统IKAnalyzer,批量处理中文文档。采用LDA模型对网络热点话题主题进行提取,并利用时间标签发现热点话题,通过图标形式可视化展示其演化规律。通过"钓鱼岛事件"的实验证明,HTAS系统能快速获取、存储网络热点话题,并能有效地分析其演化趋势。  相似文献   

17.
基于LDA模型和微博热度的热点挖掘   总被引:3,自引:0,他引:3  
分析传统LDA模型在进行微博热点挖掘时所得概率结果抽象且难以结合实际解释的缺点;考虑到微博本身的数据特点和信息论中信息量的观点,提出微博热度的概念,并将其引入到LDA模型的热点挖掘研究中,构建基于微博热度的LDA模型;通过API采集微博数据上的实验,证明新方法与旧方法具有相同的性能,而且能得到更直观的微博热度表,并得出更具有说服力的挖掘结论。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号