首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 78 毫秒
1.
[目的/意义]分析中国国内基于主题模型的科技文献主题发现及演化研究进展,以期为相关研究人员提供参考借鉴及研究思路。[方法/过程]选取中国知网(CNKI)数据库及万方数据知识服务平台作为文献来源,检索并筛选相关文献,通过人工判读提炼出基于主题模型的科技文献主题发现及演化研究的分析流程,并采用文献分析法对流程中国内研究人员所使用到的策略、方法、分析手段等进行归纳和总结。[结果/结论]研究已初具规模,形成较为完整的分析流程,同时各个流程环节上所涉及到的策略、方法和分析手段较为多样化。另外,也存在着一些问题:主题模型方法在科技文献领域的应用尚且不成熟,主题数目固定,缺少对主题模型应用效果的评价方法与准则。  相似文献   

2.
基于动态LDA主题模型的内容主题挖掘与演化   总被引:1,自引:0,他引:1  
指出文本内容主题的挖掘和演化研究对于文本建模和分类及推荐效果提升具有重要作用。从分析基于LDA主题模型的文本内容主题挖掘原理入手,针对当前网络环境下的文本内容特点,构建适用于动态文内容本主题挖掘的LDA模型,并通过改进的Gibbs抽样估计提高主题挖掘的准确性,进而从主题相似度和强度两个方面研究内容主题随时间的演化问题。实验表明,所提方法可行且有效,对后续有关文本语义建模和分类研究等具有重要的实践意义。  相似文献   

3.
基于图挖掘的文本主题识别方法研究综述   总被引:1,自引:1,他引:0  
本文通过文献调研分析,将基于图挖掘的文本主题识别方法总结为中心度方法、紧密关联子图查找和图聚类三种,后两者又细分为基于clique子团或类clique子团、基于图拓扑结构或结点属性聚类的方法。中心度方法通过对比文本网络中术语结点的重要度来实现文本主题的识别,紧密关联子图查找和图聚类方法则是根据文本图中术语结点和边的属性相似度来识别文本核心主题。基于语言文本网络自身特性,如何构建复杂文本关系图来同时揭示术语间的句法、共现和语义关系,如何基于术语关联和图拓扑结构识别其中的紧密关联子团,基于何种标准将紧密关联子团聚类以揭示文本核心主题,都是未来需要进一步深入研究的问题。表1。  相似文献   

4.
王平 《图书情报工作》2014,58(22):70-77
自动挖掘科技文献主题并识别主题变化对于科研工作者及时获取相关领域的最新研究动态有着重要作用.针对科技文献主题多样、动态性强等特点,分析科技文献主题发现及演化具体方法,基于层次概率主题模型hLDA,采用Gibbs抽样来进行模型参数估计,并运用互信息的方法对主题词进行筛选,以提取高质量的主题词.最后,利用先/后离散分析方法研究主题随时间的演化问题.实验结果验证了主题发现及演化方法的可行性及有效性.  相似文献   

5.
基于概率主题模型的文献知识挖掘   总被引:1,自引:0,他引:1  
对海量的科技文献资源进行知识挖掘能够发现大量有价值的、潜在的知识,有效地提高文献信息的可用性。作者前期研究验证了使用LDA主题模型进行文献知识挖掘的可行性。本文提出了一种新的概率主题模型:Topic-Author模型,该模型对文献的文本信息和作者信息进行联合建模,在分析文献主题同时,发现相关主题方向的研究者分布。基于Topic-Author模型,提出了多维度文献知识挖掘的方法,包括主题挖掘,专家发现,文献标注,重要文献挖掘,文献相似度分析,研究趋势分析和主题关系挖掘。基于教育技术学文献数据集,进行了实验研究。  相似文献   

6.
从主题模型的视角出发,以文本挖掘的手段分析我国十年来有关共享科研数据的文献研究主题演化情况以及热点主题,促进在突发公共事件过程中科研数据共享行为更加合理,让科研数据最大化发挥自身的价值,为今后国内共享科研数据的研究提供借鉴和参考。结合本文的实际研究需求,在中国知网中选取2010到2019年涉及共享科研数据的文献作为研究数据集。使用LDA主题模型对其中的摘要部分进行文本挖掘,在对文本进行预处理的基础上识别出其中所包含的若干主题,分别测定不同主题在不同时间段内的强度,识别出热点主题,并根据强度的变化对主题进行分析。近十年来相关文献共计有32个研究主题,其中14个热点主题,"数据出版""数据共享能力""国内积极促进"3个主题呈现上升趋势,11个主题呈现出下降趋势。对于国内共享科研数据的规范性、国际交流之间的频繁性有所上升,高校图书馆也在其中起到了巨大的推动作用。但是也应该注意在共享科研数据过程中客观存在技术上的障碍、整体社会环境的发生变化要求科研数据共享程度进一步加深、不同数据主体之间共享意愿的巨大差异,如何弥补差异、克服障碍、让科研数据的共享与社会环境的变化结合起来是今后应当重点研究的主题...  相似文献   

7.
文本挖掘工具述评   总被引:5,自引:0,他引:5  
简要介绍一些商业文本挖掘工具和开源文本挖掘工具,针对其中四款典型的开源工具进行详细的比较,包括数据格式、功能模块和用户体验三个方面;选取三种各具特色的工具就其文本分类功能进行测评。最后,针对开源文本挖掘工具的现状,提出几点建议。  相似文献   

8.
基于概率图模型的科研文献主题演化研究   总被引:3,自引:2,他引:1  
学术文献的主题分析对于研究者进行思路整理及发现研究主题非常重要.通过进一步的分析,能够理解主题如何发展变化,以及如何影响研究者的行为等等.探索了基于概率图模型的科研文献主题演化问题,特别分析了主题随时间的相互影响问题,提出了基于模块化网络的方法研究主题之间的相互关系,从而理解其相互影响.首先,利用主题模型获取时间文本的主题及其强度曲线,然后利用时间序列的逐段线性表示方法去除序列中的噪音,从而有效反映趋势信息,使得利用模块化网络能够更加准确地反映主题的影响关系,实验结果及其相关分析证明了方法的有效性.  相似文献   

9.
当前文本主题获取方法大多依靠单一关联分析,不能全面分析可获取信息,难以准确获取科技发展主题。科技文献的主题词、作者和引文之间蕴含了以研究主题内容为纽带的语义关联关系,主题词共现关系、引文关系和合著关系分别从不同的角度展现了主题关联关系。因此,本文根据主题词之间语义关系距离的远近,将主题识别中主题词关联分为基础关系、强化关系和新增关系,在此基础上提出面向主题识别的多元关系抽取及关系融合方法;并以基因工程疫苗的研发与制备领域为例进行领域实证分析,利用PathSelClus算法实现基于多元关系融合的主题聚类,通过对比实验证明多元关系融合可以有效提高实证领域的文本主题聚类效果,而未来多关系融合主题识别则是需要重点关注的问题。图4。表6。参考文献19。  相似文献   

10.
本研究以2012-2014年间我国3359个公共事件为对象,利用描述统计、文本挖掘方法以及空间地理可视化呈现等方法,定量地描述公共事件的基本特征。研究发现,公共事件参与者身份、事件类型以及事件发生的空间地理特征皆呈现出不平等分布趋势。具体而言,涉事群体/个体身份多集中于政府部门、官员和公检法机关;事件类型中"制度危机与社会公平类"问题占有压倒性优势;从地理分布来看,公共事件多发生于经济较发达地区;从事件演化模式来看,不同类别的事件呈现出竞争关系,即大部分事件发生频度呈负相关关系。  相似文献   

11.
为了弥补目前微博平台主题挖掘方法的不足,兼顾到微博信息的稀疏性、多维性、海量性等特点,提出根据微博信息特点进行有针对性的预处理后,使用基于先验概率的潜在语义分析模型LDA(Latent Dirichlet Allocation)进行微博主题挖掘,并在LDA建模的基础上,设计文本增量聚类算法,进一步实现主题结构的识别,从而使用户更好地理解主题及其结构。通过在真实微博数据集上的实验,证明该模型能有效进行主题挖掘和主题结构的识别。  相似文献   

12.
2020年初COVID-19的突发对社会生产生活造成巨大挑战,也对政府治理能力提出重大考验。疫情期间的公众舆论在充分反映民众诉求的同时,也对政府治理起到重要的推动作用。现有关于疫情期间公众舆论的研究成果,大多从舆论的价值角度分析,缺少更深层次对民众诉求的挖掘。文章基于人民网《领导留言板》数据对新冠疫情期间民众对政府的诉求进行分析,通过隐含狄利克雷分布主题模型对民众诉求的主题进行挖掘,并分析各类主题的时空演变特征,以及演变特征与防疫政策的关联。研究发现,疫情期间民众诉求的主题可以归纳为5类:社区管理、医疗防疫、学校教育、交通物流和经济措施,不同主题的热度在时间和空间上具有明显差异,这种差异与疫情发展有关,也与不同时间发布的防疫政策相关。对民众诉求主题及其与政府政策关系的研究,可为政府部门今后应对重大公共卫生事件提供借鉴。  相似文献   

13.
吴育芳  陆春华 《晋图学刊》2010,(3):34-36,49
本文在介绍了Web挖掘的基础上,重点分析了Web文本挖掘的概念、过程及其关键技术,包括文本的特征表示与提取、文本的分类与聚类等。  相似文献   

14.
基于主题模型的科技报告文档聚类方法研究   总被引:1,自引:0,他引:1  
[目的/意义]探索实践以科技报告为文献载体形式的融合主题模型的文本聚类方法,拓展基于科技文献进行技术监测服务的新领域,提出基于科技报告进行语义分析的新方法。[方法/过程]以国家科技报告服务系统中的科技报告为数据源,首先基于LDA主题模型对经过文本预处理的科技报告进行主题挖掘,再基于Ward与K-means相结合的聚类算法对包含主题分布信息的文本向量进行聚类分析,尝试提出一种适合科技报告文档聚类的文本挖掘新方法。[结果/结论]实验结果表明,LDA主题模型能有效准确挖掘科技报告中的主题信息,所提出的Ward与K-means相结合的聚类算法对科技报告的聚类效果也优于其它传统聚类算法。  相似文献   

15.
[目的/意义] 基于主题关联相似度揭示主题汇聚及变异过程,识别学科交叉主题及交叉模式,归纳学科主题的演化趋势及演化路径模式。[方法/过程] 获取情报学学科科研论文的高频主题词,构造主题词共词矩阵,利用网络社区演化分析工具生成学科主题演化网络图,结合指标数据对学科主题演化过程进行分析。[结果/结论] 总体上看,情报学学科的研究主题虽然在反复地变化,但核心主题一直存在;扩张、收缩和合并是研究主题最普遍的变化态势,分裂现象较少,产生和消亡现象存在;有3条特定社区演化轨迹清晰地贯穿始终,活跃度相对稳定,反映了3类核心研究主题;3类核心研究主题的演化路径呈现出升华吸纳、共融迭新和辐射推进3种演化模式。研究结果显示,基于主题关联学科主题演化路径的多模式识别方法既能从宏观层面呈现学科主题演化形式,也能从微观层面分析学科主题交叉模式,结合二者可揭示学科主题的继承或创新,预测学科交叉主题的发展方向。  相似文献   

16.
基于领域本体实现Web文本挖掘研究   总被引:1,自引:0,他引:1  
阮光册 《图书情报工作》2011,55(18):116-120
为弥补改进传统Web文本挖掘方法缺乏对文本语义理解的不足,采用本体与Web文本挖掘相结合的方法,探讨基于领域本体的Web文本挖掘方法。首先创建Web文本的本体结构,然后引入领域本体“概念-概念”相似度矩阵,并就概念间关系识别进行描述,最后给出Web文本挖掘的实现方法,发现Web文本信息的内涵。实验中以网络媒体报道为例,通过文本挖掘得出相关结论。  相似文献   

17.
俞琰  陈磊  赵乃瑄 《图书情报工作》2019,63(10):134-142
[目的/意义] 为帮助高校师生充分利用网络招聘信息,提出基于大数据量网络招聘文本挖掘的课程知识模型及其自动构建方法。[方法/过程] 本文提出包含"岗位-课程-知识点"的三级课程知识模型,利用自然语言文本挖掘技术实现课程知识点模型的自动构建,并通过实验对其构建过程进行验证和分析。[结果/结论] 实验结果表明本文提出的模型及方法具有高度的可行性与有效性,可为高校和学生提供教学和学习参考。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号