共查询到20条相似文献,搜索用时 125 毫秒
1.
文献数据库中书目信息共现挖掘系统的开发 总被引:9,自引:0,他引:9
针对权威的生物医学数据库和引文索引数据,介绍一个基于文献数据库中书目信息共现关系进行文本挖掘的系统。该系统具有基本的文献计量学分析功能,并对相应的结果进行可视化表达;对高频主题词、高产作者和高被引论文和高被引作者进行共现分析,据此进行聚类分析和关联分析,获得有关的研究主题聚类和主题词/副主题词关联规则、合著聚类分析、高被引论文同被引聚类分析和高被引作者同被引聚类分析的结果和可视化表达。其中对关联规则的分析可以发现主题词之间的潜在语义规则,其他的文献计量学指标和共现分析结果可以用于科学计量学的分析。 相似文献
2.
文章采用文本分析法,研究我国高校学报自然科学版栏目的 设置情况,为学报栏目规范化提供建议.利用KH Coder软件对栏目名称进行高频词统计、词间关系抽取与文本插值聚类分析,并可视化展示其语义关系,探讨栏目名称的命名特点及其学科归属.栏目名称中的高频词反映出期刊栏目设置多样,但栏目命名随意性较强;语义网络体现栏目的 命名方式和期刊特色;聚类分析表明栏目名称的自然科学学科归属不强,学科交叉突出;部分学报的栏目设置超出其学科范围.我国高校学报自然科学版的栏目设置及其命名尚未考虑其规范性,期刊应重视栏目和名称的合理设置,规范其学科属性. 相似文献
3.
本研究对MEDLINE中生物体类文献中高频主要主题词进行共词聚类分析,获取主题词之间的关联规则,利用UMLS语义关系进行结构化表达.从MEDLINE中选取<中华医学杂志>上的生物体类文献作为测试集,由专家人工抽取关系,与共词聚类得到的关联规则进行比较.利用共词聚类分析对生物体类主题词关系的挖掘及评价分析,为文本知识发现提供了一种新的尝试. 相似文献
4.
5.
6.
[目的/意义]针对医学文本的特点,提出一种基于语义图的多文档自动摘要方法,并利用其中的语义信息实现摘要主题的识别。[方法/过程]利用SemRep实现源文档概念及其语义关系的规范化抽取并构建语义图,从概念-关系-社区3个层次对网络图中的关键信息进行抽取并生成摘要,利用概念-语义类型-类型分组三级映射实现对概念的归类,结合语义搭配模式对摘要主题进行划分。[结果/结论]通过对5种疾病数据集进行测试,结果显示该方法能有效识别出文献集中的核心内容,语义图中所富含的语义信息能准确地对摘要进行主题划分。 相似文献
7.
OWL具有优良的语义定义性和充分的表达性,可对《中国分类主题词表》转换本体进行形象化描述,并将类目关系与语义信息精准表达出来.《中国分类主题词表》的本体建构方案需将主表与附表分开处理.主表应以类目间关系作为本体处理的重点,以同一关系、等级关系、并列关系和相关关系作为本体处理的基本关系;附表的处理应以词语为中心类,以类号为属性值,以便与叙词表和自然语言系统实现互操作. 相似文献
8.
9.
10.
标签形式的社会性语义越来越占据主导地位,使元数据界在这种新形式的信息内容表达和检索方面面临机遇和挑战。其中,主要的挑战是与标签相关的语境信息的缺失。以Flickr标签为例,对如何利用社会性语义资源来丰富主题元数据进行了实验。实验过程包含4个步骤:收集Flickr标签样本;通过共有信息计算标签间的同现情况;通过Google检索结果来追踪标签对的语境信息;用自然语言处理和机器学习技术来抽取标签间的语义关系。本实验能够利用Google搜索结果构建语境库,并且以自然语言处理和机器学习算法对这些语句进行处理。这种新方法对于赋予标签对以一定语义关系有相当高的准确率。也探讨该方法在利用社会性语义丰富的主题元数据方面的意义。 相似文献
11.
12.
基于图挖掘的文本主题识别方法研究综述 总被引:1,自引:1,他引:0
本文通过文献调研分析,将基于图挖掘的文本主题识别方法总结为中心度方法、紧密关联子图查找和图聚类三种,后两者又细分为基于clique子团或类clique子团、基于图拓扑结构或结点属性聚类的方法。中心度方法通过对比文本网络中术语结点的重要度来实现文本主题的识别,紧密关联子图查找和图聚类方法则是根据文本图中术语结点和边的属性相似度来识别文本核心主题。基于语言文本网络自身特性,如何构建复杂文本关系图来同时揭示术语间的句法、共现和语义关系,如何基于术语关联和图拓扑结构识别其中的紧密关联子团,基于何种标准将紧密关联子团聚类以揭示文本核心主题,都是未来需要进一步深入研究的问题。表1。 相似文献
13.
提出一种基于潜在语义索引和本体论的文本语义处理方法。首先构建一个基于本体论的虚拟标准文本特征向量,然后采用潜在语义索引方法以虚拟标准文本特征向量为参照对文本集进行语义聚类,最后在虚拟标准文本特征向量的导引下利用本体库中的知识对聚类获得的文本集合的类别和语义进行显性标注。实验表明,该方法能较好地在语义层面对文本进行有效的聚类,而且聚类结果能显性地显示类聚所属的类别。 相似文献
14.
The need to cluster small text corpora composed of a few hundreds of short texts rises in various applications; e.g., clustering top-retrieved documents based on their snippets. This clustering task is challenging due to the vocabulary mismatch between short texts and the insufficient corpus-based statistics (e.g., term co-occurrence statistics) due to the corpus size. We address this clustering challenge using a framework that utilizes a set of external knowledge resources that provide information about term relations. Specifically, we use information induced from the resources to estimate similarity between terms and produce term clusters. We also utilize the resources to expand the vocabulary used in the given corpus and thus enhance term clustering. We then project the texts in the corpus onto the term clusters to cluster the texts. We evaluate various instantiations of the proposed framework by varying the term clustering method used, the approach of projecting the texts onto the term clusters, and the way of applying external knowledge resources. Extensive empirical evaluation demonstrates the merits of our approach with respect to applying clustering algorithms directly on the text corpus, and using state-of-the-art co-clustering and topic modeling methods. 相似文献
15.
基于SUMO和WordNet本体集成的文本分类模型研究 总被引:1,自引:0,他引:1
针对传统文本分类方法和目前语义分类方法中存在的问题,提出基于SUMO和WordNet本体集成的文本分类模型,该模型利用WordNet同义词集与SUMO本体概念之间的映射关系,将文档-词向量空间中的词条映射成本体中相应的概念,形成文档-概念向量空间进行文本自动分类。实验表明,该方法能够极大降低向量空间维度,提高文本分类性能。 相似文献
16.
运用图示法自动提取中文专利文本的语义信息 总被引:1,自引:0,他引:1
[目的/意义]提出利用图结构的表示法自动挖掘中文专利文本的语义信息,以为基于文本内容的专利智能分析提供语义支持。[方法/过程] 设计两种运用图结构的模型:①基于关键词的文本图模型;②基于依存关系树的文本图模型。第一种图模型通过计算关键词之间的相似性关系来定义;第二种图模型则由句中所提取的语法关系来定义。在案例研究中,借助频繁子图挖掘算法,对所建图模型进行子图挖掘, 并构建以子图为特征的文本分类器,用来检测所建图模型的表达性和有效性。[结果/结论]将所建的基于图模型的文本分类器应用于4个不同技术领域的专利文本数据集,并与经典文本分类器的测试结果相比较而知:前者在使用明显较少的特征数的基础上,分类性能较后者提升2.1%-10.5%。由此而推断,使用图结构的表达法并结合图挖掘技术从专利文本中所提取的语义信息是有效的,有助于进一步的专利文本分析。 相似文献
17.
面向科技文献的多模态语义关联特征提取与表达体系研究 总被引:1,自引:0,他引:1
科技文献资源是一种多模态数据,除文本信息外,还包含丰富的图像、表格、公式、音频、视频等多种模态的信息,有利于用户充分理解科技文献资源中的知识。该文把多模态思想引入科技文献的语义表示方面,对科技文献中的图像、表格和公式信息进行语义分析,与文本信息共同表示文献语义内容,通过科技文献中多种模态信息的语义表示及相互关系完善科技文献内容的语义化表示,发展刻画科技文献对象多态性的表达体系。 相似文献
18.
[目的/意义]信息检索处理的是相关性的不确定性问题,但在技术层面则通常将不确定性转化为确定性的处理方法,对信息内容中存在的不确定性语义关注不多,而这一问题在某些信息检索应用场景中可能显著地影响信息检索的结果,因此针对这类不确定性语义,需要考虑针对性的处理方法。[方法/过程]提出基于D-S证据理论的不确定性语义表示方法和将这类不确定性语义特征与文本特征、主题特征相融合的检索模型,并利用公开的数据集开展实验研究,对所提出的模型进行实验。[结果/结论]D-S理论中的证据区间概念能够描述上述不确定性,多源证据融合方法也能够将这类不确定性语义特征与文本特征、主题特征融合,并通过模型训练得出理想参数,进而改进检索结果。这一模型在理论上具有包容性与可扩展性,基于该模型融合其他检索方法是进一步需研究的内容。 相似文献
19.
基于文本挖掘机制的区域经济关系分析 总被引:1,自引:0,他引:1
已有的经济关系研究大都采用实证的或单纯的计量学的方法来实现的.本文则针对非结构化的文本特点,采用信息抽取和文本挖掘方法挖掘用户感兴趣的区域经济关系是具有十分重大应用价值的研究课题.本文在探讨了基于实体关系的文本挖掘机制的基础上,对31个省、市、自治区的区域经济关系进行了分析.运用文本挖掘技术对经济关系的挖掘包括两种方式:一是基于属性的经济关系挖掘,利用信息抽取获取各个实体属性,采用聚类方法分析经济实体关系;二是基于相互引用的经济关系挖掘,首先构造经济实体关系分类词典,提出了实体关系标注算法,利用信息抽取获得实体之间的引用情况,然后构造关系有向图,从中挖掘区域经济之间的关系.研究表明,运用文本挖掘技术,既可以对各个区域经济发展状况进行分析和评价,也可以发现特定区域经济之间的内在关系. 相似文献
20.
本文开展了基于混合深度信念网络的多类文本表示与分类方法的研究,以解决传统的Bag-of-Words(BOW)表示方法忽略文本语义信息、特征提取存在高维度高稀疏的问题。文章基于文本关键字,针对多类的分类任务(如新闻文本和生物医学文本),以关键字的词向量表示作为文本输入,同时结合深度信念网络(Deep Belief Network,DBN)和深度玻尔兹曼机网络(Deep Boltzmann Machine, DBM),设计了一种混合深度信念网络(Hybrid Deep Belief Network,HDBN)模型。文本分类和文本检索的实验结果表明,基于词向量嵌入的深度学习模型在性能上优于传统方法。此外,通过二维空间可视化实验,由HDBN模型提取的高层文本表示具有高内聚低耦合的特点。 相似文献