共查询到20条相似文献,搜索用时 797 毫秒
1.
2.
本文从文本挖掘的定义着手,分析了文本挖掘的过程,包括文本预处理,文本知识发现,文本模式的评价以及文本模式的呈现,并详细介绍了文本挖掘在主动信息服务、信息检索系统、专利信息分析等方面的应用. 相似文献
3.
运用图示法自动提取中文专利文本的语义信息 总被引:1,自引:0,他引:1
[目的/意义]提出利用图结构的表示法自动挖掘中文专利文本的语义信息,以为基于文本内容的专利智能分析提供语义支持。[方法/过程] 设计两种运用图结构的模型:①基于关键词的文本图模型;②基于依存关系树的文本图模型。第一种图模型通过计算关键词之间的相似性关系来定义;第二种图模型则由句中所提取的语法关系来定义。在案例研究中,借助频繁子图挖掘算法,对所建图模型进行子图挖掘, 并构建以子图为特征的文本分类器,用来检测所建图模型的表达性和有效性。[结果/结论]将所建的基于图模型的文本分类器应用于4个不同技术领域的专利文本数据集,并与经典文本分类器的测试结果相比较而知:前者在使用明显较少的特征数的基础上,分类性能较后者提升2.1%-10.5%。由此而推断,使用图结构的表达法并结合图挖掘技术从专利文本中所提取的语义信息是有效的,有助于进一步的专利文本分析。 相似文献
4.
5.
基于句子的文本表示及中文文本分类研究 总被引:1,自引:0,他引:1
文本挖掘技术是信息资源管理的一项关键技术.向量空间模型是文本挖掘中成熟的文本表示模型,通常以词语或短语作为特征项,但这些特征项只能提供较少的语义信息.为实现基于内容的文本挖掘,本文将文本切分粒度从词语或短语提高到句子,用句子包表示文本,使用句子相似度定义文本相似度,用KNN算法进行中文文本分类,验证模型的可行性.实验证明,基于句子包的KNN算法的平均精度(92.12%)和召回率(92.01%)是比较理想的. 相似文献
6.
研究构建了具有位置信息控制的特义禁用词语义环境,进而运用于中文文献元数据CXMARC文本的自动标引和主题信息的数据挖掘,其中研究设计的预处理特义中文禁用字词切分算法SWF,能有效地减少领域的分词歧义性和缩短标引时间,从而改进了传统最大匹配MM算法的自动标引质量和效率。 相似文献
7.
随着深度学习的迅速发展和领域数据的快速积累,领域化的预训练模型在知识组织和挖掘中发挥了越来越重要的支撑作用。面向海量的中文政策文本,结合相应的预训练策略构建中文政策文本预训练模型,不仅有助于提升中文政策文本智能化处理的水平,而且为政策文本数据驱动下的精细化和多维度分析与探究奠定了坚实的基础。面向国家级、省级和市级平台上的政策文本,通过自动抓取和人工辅助相结合的方式,在去除非政策文本的基础上,确定了131390份政策文本,总字数为305648206。面向所构建的中文政策文本语料库,基于BERT-base-Chinese和Chinese-RoBERTa-wwm-ext,本研究利用MLM (masked language model)和WWM (whole word masking)任务构建了中文政策文本预训练模型(ChpoBERT),并在Github上对该模型进行了开源。在困惑度评价指标和政策文本自动分词、词性自动标注、命名实体识别下游任务上,ChpoBERT系列模型均表现出了较优的性能,可为政策文本的智能知识挖掘提供领域化的基础计算资源支撑。 相似文献
8.
TRS Server 全文检索服务器 总被引:1,自引:0,他引:1
《中国传媒科技》2004,(5):48-49
<正> 随着网络的普及,如何更快捷、更方便、更智能地查找、利用信息已成为业界和社会关注的焦点。TRS内容检索服务器(TRS Sever)属于TRS数据层产品,乃是TRS历经近廿年历史发展而来的核心技术产品之一,其核心功能是对“非结构化”信息提供全文检索功能。所谓非结构化信息是指文字、网页、图表、音视频多媒体信息等各种看似相关性比较弱、无法用关系型数据库等结构化的方式来获取和处理的信息,例如企业内外部的新闻、邮件、互 相似文献
9.
10.
Web文本挖掘浅析 总被引:7,自引:0,他引:7
王连军 《现代图书情报技术》2002,18(6):38-40
首先讨论Web挖掘与Web信息检索的关系,然后重点分析Web文本挖掘,并提出Web文本挖掘的方法,包括文本特征表示、文本分类和文本聚类。最后,提出了利用Web挖掘技术实现Web智能化服务和挖掘引擎的应用。 相似文献
11.
文本挖掘及其在信息检索中的应用 总被引:3,自引:0,他引:3
文本挖掘是指利用数据挖掘技术,从大量的文本数据中提取感兴趣的、潜在的有 用模式和隐藏的信息。文章详细阐述了文本挖掘系统的组成、过程及相关技术,并介绍了文本 挖掘在信息检索中的应用。 相似文献
12.
中文文本解构与知识发现研究 总被引:2,自引:0,他引:2
中文文本是一个结构化的、综合性的信息和知识集合体,对中文文本的结构和特征进行分析,并对文本结构中所包含的各类要素进行分析,或重新排列和组织,以便发现文本中蕴含的知识和信息,是文本知识发现的重要途径之一.文章通过对中文文本的基本结构、主要特征、知识来源、知识组织等的探讨,以期达到文本知识发现的目的. 相似文献
13.
基于文本挖掘机制的区域经济关系分析 总被引:1,自引:0,他引:1
已有的经济关系研究大都采用实证的或单纯的计量学的方法来实现的.本文则针对非结构化的文本特点,采用信息抽取和文本挖掘方法挖掘用户感兴趣的区域经济关系是具有十分重大应用价值的研究课题.本文在探讨了基于实体关系的文本挖掘机制的基础上,对31个省、市、自治区的区域经济关系进行了分析.运用文本挖掘技术对经济关系的挖掘包括两种方式:一是基于属性的经济关系挖掘,利用信息抽取获取各个实体属性,采用聚类方法分析经济实体关系;二是基于相互引用的经济关系挖掘,首先构造经济实体关系分类词典,提出了实体关系标注算法,利用信息抽取获得实体之间的引用情况,然后构造关系有向图,从中挖掘区域经济之间的关系.研究表明,运用文本挖掘技术,既可以对各个区域经济发展状况进行分析和评价,也可以发现特定区域经济之间的内在关系. 相似文献
14.
15.
基于领域本体实现Web文本挖掘研究 总被引:1,自引:0,他引:1
16.
17.
Web内容挖掘在数字图书馆中的应用 总被引:3,自引:1,他引:3
Web信息是数字图书馆数字资源的重要来源,文章详细阐述了对Web内容中的文本信息的挖掘,包括:文本自动摘要、文本分类和文本聚类。在挖掘过程中基于用户需求和用户特征,针对文本分类,重点分析了分类过程和在数字图书馆中的应用;针对文本聚类,介绍两种基本聚类原理以及与文本分类的不同之处,重点论述其在数字图书馆中如何应用。最后提出内容挖掘与用户挖掘的结合更有助于服务用户。 相似文献
18.
19.
基于图结构的中文文本表示方法研究 总被引:2,自引:0,他引:2
为解决基于统计的文本表示模型的信息缺失问题,本文提出了一种考虑词间语义和语序信息的基于图结构的中文文本表示方法,其思想是将文本的特征项表示成图结构中的节点,特征项间的关系表示成节点间的有向边,据此可将文本表示成由节点和有向边组成的图结构,并且将边赋予权重信息,该模型较大程度地保留了原文本的结构信息及语义信息.中文语料测试结果表明,基于图结构的文本表示方法对复杂文本语料的分类问题十分有效.对于简短文本语料,本文提出扩展特征项共现单元的修正方法,提高了图结构中文文本表示方法的普遍适用性. 相似文献
20.
本文依据KNN分类算法和反馈学习的思想,在分析中文文本分类过程的基础上,给出了基于反馈学习的中文文本分类模型和基于KNN的中文文本分类反馈学习过程。通过实验研究了反馈学习对中文文本分类模型性能的影响。结果表明,反馈学习是实时变化信息的一种有效的学习方法,它对训练不充分的文本分类器具有很大的改善作用。 相似文献