首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
国内文本分类研究论文的统计分析   总被引:1,自引:0,他引:1  
介绍文本分类是一个跨信息检索、机器学习和计算语言学的综合研究领域,是信息处理的重要研究方向,指出它在自动标引、信息检索、文本过滤和文献组织等领域中有着广泛的应用;并通过应用文献计量学的方法对1998-2005年国内文本分类的研究论文进行统计分析,探讨近年来我国文本分类研究现状和主要发展趋势。  相似文献   

2.
Web自动文本分类技术研究综述   总被引:1,自引:0,他引:1  
Web自动文本分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.本文首先分析了国内外Web自动文本分类方法的研究现状,接着对新近出现的多分类器融合的方法、基于群的分类方法、基于RBF网络的文本分类模型、基于模糊-粗糙集的文本分类模型、潜在语义分类模型等新方法,以及K-近邻算法和支持向量机的新发展等进行了深入探讨;并对Web自动文本分类过程中的几个关键技术:文本预处理、文本表示、特征降维、训练方法和分类算法等进行了分析;最后总结了当前Web自动文本分类技术存在的问题及其发展趋势.  相似文献   

3.
基于机器学习的自动文本分类模型研究   总被引:2,自引:0,他引:2  
基于机器学习的方法是自动文本分类中非常重要的一大类方法。本文先给出了形式化的定义,提出了自动文本分类的流程模型,然后选取了支持向量机(Support Vector Machine,SVM)算法作为一个典型例子进行分析,最后作者通过一个中文文本分类实验评价了该算法的效果。  相似文献   

4.
将人工智能研究领域中的文本自动分类技术应用于信息资源管理领域是当前的研究重点之一,而目前信息资源管理领域具有体系结构严格、类目数量巨大、类目层次众多等特点。本文充分考虑这些特点,针对《中国图书馆图书分类法》分类体系下文本自动分类研究的现状,从研究目的、类目体系、资源类型等方面,参考国外相关研究的成果和方法予以分析和评价;结合国外相关研究的最新成果,提出我国在《中国图书馆图书分类法》分类体系下应用文本自动分类技术时应注意的问题及今后的研究方向。  相似文献   

5.
简单介绍了文本分类的定义及应用,针对文本信息自动分类的研究动态,分析了当前我国文本信息自动分类研究中存在的问题,提出进一步完善文本自动分类的建议和方法。  相似文献   

6.
将自动文本分类引入竞争情报系统,并结合民航客服业的实际应用场景展开研究。在对文本分类的理论基础进行研究与分析的基础上,设计一种自动分类策略,其核心是针对传统机器学习方法依赖历史数据的局限,优化特征选择和学习样本获取方法。选用SVM算法,详细描述分类词表构建、分类规则提取、分类模型训练等过程,最终取得较为理想的实际效果。  相似文献   

7.
随着信息技术的飞速发展,文档自动分类成为信息组织、知识管理的重要方法.随着在线资源应用的增长以及各类应用和资源的普及,需要采用文本挖掘、机器学习和自然语言处理等技术和方法论从电子文件中获取信息,这样使得对各类信息的分类和提取成为一个新兴的探索领域.文章针对电子文件自动分类的特点,对其中采用的文档表现、分类器构造、知识提取等技术和常用的电子文件自动分类方法作了简要介绍.  相似文献   

8.
一种混合文本分类方法研究   总被引:1,自引:0,他引:1  
文本自动分类是信息检索领域的一个重要研究方向。一些标准的机器学习算法像支持向量机已经成功地运用到了这一领域。不幸的是高维的输入向量严重的影响了分类速度,而支持向量机核函数参数的确定影响到分类的精度。为了提高分类精度和分类速度,本文提出了一种混合分类算法,首先用粗糙集理论对向量进行约简,然后采用基因算法对支持向量机的核函数参数进行优化。实验证明我们提出的算法是有效的。  相似文献   

9.
基于词典约简及多分类算法的文本分类系统的设计与开发   总被引:3,自引:1,他引:2  
文本自动分类是目前机器学习、自然语言处理和信息资源检索领域的研究热点之一.本文在对自动分类的实现技术问题进行探讨的基础上,尝试对自动分类的几个环节提出改进措施.具体包括:采用约简法进行抽词词典的构造,采用投票法进行文本特征的选择,采用层次法进行逐层次的分类,采用统计与规则相结合的方法进行分类器的构造等.通过在不同语料库上与传统分类方法的对比测试表明,上述改进措施能够有效提高自动分类的性能,基于这些改进措施所开发的自动分类系统具有大规模文本自动分类的可行性.本文详细讨论了相关改进措施的原理、实现算法、流程及存在的问题.  相似文献   

10.
&;nbps;&;nbps;文本分类是目前国内外理论研究的热点领域,在信息检索、数据挖掘、垃圾邮件过滤、数字图书馆等领域具有广泛的应用。随着新一代语义Web的出现和人们对网络信息资源语义分类的需求,基于关键词加权的向量空间模型表征文本的分类方法逐渐呈现出一些问题,如忽略词间重要语义信息,不能解决同义词、多义词、词间上下位关系等;在对海量文献分类时,向量空间维度过高,出现内存不足,分类速度慢等。这些问题的出现为文本分类领域的研究带来新的挑战和研究视角,促进了文本分类新技术和新方法的不断涌现。
&;nbps;&;nbps;在这样的大背景下,针对文本分类方法在发展过程中出现的问题,围绕“本体及其在文本分类中的应用”和“海量网络学术文献自动分类”两个方面展开深入的研究,笔者有幸申请到国家社会科学基金一般项目“海量网络学术文献自动分类研究(项目编号:10BTQ047)”和教育部人文社会科学一般项目“基于本体集成的文本分类关键技术研究(项目编号:09YJA870019)”。  相似文献   

11.
本文主要研究了从不同类型的html页面中根据需要抽取指定文本的技术.首先分析了目前主流的文本抽取技术的优点及缺点,并针对传统文本抽取技术的不足提出了基于机器学习的网页文本抽取技术;然后重点分析了此技术的实现原理,并在最后以案例方式介绍了使用java语言构建基于此技术的文本抽取系统.  相似文献   

12.
[目的/意义]学术文本结构功能是对学术文献的结构和章节功能的概括,针对当前研究较少从学术文本多层次结构出发进行融合和传统方法依赖人工经验构建规则或特征的问题,本文在对学术文本层次结构进行解析的基础上,构建了多层次融合的学术文本结构功能识别模型。[方法/过程]以ScienceDirect数据集为例进行实验,该模型首先通过深度学习方法对不同层次学术文本进行结构功能识别,接着采用投票方法对不同层次和不同模型的识别结果进行融合。[结果/结论]研究结果表明各层次集成后的整体效果较单一模型均有不同程度提升,综合结果的整体准确率、召回率和F1值分别达到86%、84%和84%,并且深度学习算法在学术文本分类任务中的性能较传统机器学习算法SVM更优,最后对学术文本结构功能错分情况进行了分析,指出本研究潜在的应用领域和下一步的研究方向。  相似文献   

13.
基于深度学习的中文专利自动分类方法研究   总被引:2,自引:0,他引:2  
[目的/意义] 面向当前国内专利审查和专利情报分析工作中对于海量专利分类的客观需求,设计了7种基于深度学习的专利自动分类方法,对比各种方法的分类效果,从而助力专利分类效率和效果的提升。[方法/过程] 针对传统机器学习方法存在的缺陷,基于Word2Vec、CNN、RNN、Attention机制等深度学习技术,考虑专利文本语序特征、上下文特征以及分类关键特征,设计Word2Vec+TextCNN、Word2Vec+GRU、Word2Vec+BiGRU、Word2Vec+BiGRU+TextCNN等7种深度学习模型,以中国专利为例,选取IPC主分类号的"部"作为分类依据,对比这7种模型与3种传统分类模型在中文专利分类任务中的效果。[结果/结论] 实证研究效果显示,采用考虑语序特征、上下文特征及强化关键特征的深度学习方法进行中文专利分类具有更优的分类效果。  相似文献   

14.
通常用于评论性文本极性挖掘的方法是采用有监督的学习算法完成的,但有监督的学习算法需要大量人工标注的训练集,而且其在处理文本集时还会面临维数灾难、稀疏向量、高时空复杂度、低召回率和精确率等问题而无法用于海量的文本极性分类任务。经典的K-means均值聚类算法是聚类分析中使用最为广泛的算法之一,其具有诸多的优良特性和不足。针对上述情况,本文将语义引入经典K-means均值聚类算法中,构造了专门针对中文评论文本极性判断的极性词语义词典,提出了一种基于语义准则函数的K-means均值聚类算法。这项研究是运用基于语义的聚类方法对汉语主观性文本处理的一次探索。实验结果显示总平均召回率达到了80.70%,总平均精确率达到了67.75%,说明该算法是可行和有效的。  相似文献   

15.
学术文本词汇功能识别的目的是实现学术文本中表征问题、方法和对象等词汇的抽取。针对传统识别方法中训练难以获取所导致的识别准确率低、召回率有限和泛化能力差等问题,本研究提出了一种基于深度学习和标题生成策略的学术文本词汇功能识别方法,将任务形式由信息抽取转化为特定形式的标题生成问题。本研究采用构建seq2seq模型和引入注意力机制的方式捕获词汇多层语义信息,最终实现学术文本中问题和方法指代词的生成和获取。实验结果表明,通过应用深度学习方法和标题生成策略,本研究提出的模型能够从摘要中有效识别学术文献的主要研究问题和主要研究方法,并较已有方法在识别效果上有明显提升。  相似文献   

16.
张倩  刘怀亮 《图书情报工作》2013,57(21):126-132
为了解决基于向量空间模型构建短文本分类器时造成的文本结构信息的缺失以及大量样本存在的标注瓶颈问题,提出一种基于图结构的半监督学习分类方法,这种方法既能保留短文本的结构语义关系,又能实现未标注样本的充分利用,提高分类器的性能。通过引入半监督学习的思想,将数量规模较大的未标注样本与少量已标注样本相结合进行基于图结构的自训练学习,不断迭代实现训练样本集的扩充,从而构建最终短文本分类器。经对比实验证明,这种方法能够获得较好的分类效果。  相似文献   

17.
微博短文本预处理及学习研究综述   总被引:1,自引:0,他引:1  
王连喜 《图书情报工作》2013,57(11):125-131
认为因短文本具有特征稀疏性和高度冗余性,微博短文本的预处理及学习方法研究已经成为微博信息挖掘及应用的关键,并在许多方面有着非常重要和广泛的应用。重点分析微博短文本的特性,并对微博短文本的预处理和学习方法及其应用现状进行归纳和总结,包括短文本特征表示、短文本特征拓展与选择、短文本分类与聚类学习、热点事件发现及自动文摘等。最后指出相关研究的局限性,并对未来的发展方向进行展望。  相似文献   

18.
Web文本分类技术研究现状述评   总被引:1,自引:0,他引:1  
本文在分析国内外Web文本分类方法研究现状的基础上,对新近出现的基于群的分类方法、基于模糊—粗糙集的文本分类模型、多分类器融合的方法、基于RBF网络的文本分类模型、潜在语义分类模型等新方法,以及K—近邻算法和支持向量机的新发展等进行了深入探讨;并对Web文本分类过程的几个关键技术:文本预处理、文本表示、特征降维、训练方法和分类算法进行了分析;最后总结了Web文本分类技术存在着新分类方法不断涌现、传统分类方法的进一步发展、文本、语音和图像分类技术的融合等几种发展趋势,以及存在着分词问题、目前还没有发现"最佳"的特征选择等研究的不足之处。  相似文献   

19.
提出了将支持向量机应用于文本自动分类的研究,与常用的K-最邻近法相比,无论是对训练数据集还是测试数据集均具有一定的优势,而且不同特征选择方法对支持向量机的影响要比K-最邻近法小。此外,从研究中的不同特征选择的评价函数来看,它们对分类有一定的影响,应用X2统计进行特征选择的分类正确率最高,其次是文本证据权,而期望交叉熵的效果最差,说明特征选择在文本自动分类中也是相当重要的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号