首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
随着万维网的发展,文本分类成为处理和组织大量文档数据的关键技术。在阐述了文本分类算法的研究现状,分析了朴素贝叶斯(Na ve Bayes)、kNN和支持向量机(SVM)经典文本分类算法之后,提出了应用最小二乘支持向量机(LSSVM)算法来实现文本分类。对使用用最小二乘支持向量机和一般支持向量机的文本分类结果进行了比较,并得出了结论:使用最小二乘支持向量机进行文本分类缩短了文本分类的时间,并保证了一定的召回率和准确率。  相似文献   

2.
支持向量机方法在文本分类中的改进   总被引:1,自引:0,他引:1  
谭冠群  丁华福 《信息技术》2008,32(1):83-84,88
提出了一种应用于文本分类的KNN和SVM相结合的算法,将SVM近似看成每类只有一个代表点的1NN分类器,对于待识别样本,如果其离支持向量机的最优分界面较远,则用SVM分类;如果其离分界面较近,采用KNN对测试样本分类,将每个支持向量作为代表点,计算待识别样本和每个支持向量的距离对其作出判断.该算法综合了KNN和SVM在分类问题中的优势,既有效地降低了分类候选的数目,又提高了文本分类的精度.最后用实验验证了该算法的有效性.  相似文献   

3.
基于支持向量机的Web文本分类方法   总被引:15,自引:8,他引:7  
Web文本分类技术是数据挖掘中一个研究热点领域,而支持向量机又是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势。文章通过分析Web文本的特点,研究了向量空间模型(VSM)的分类方法和核函数的选取,在此基础上结合决策树方法提出了一种基于决策树支持向量机的Web文本分类模型。并给出具体的算法。通过实验测试表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率(90.11%)和召回率(89.38%)。  相似文献   

4.
在文本分类过程中,影响分类准确率的两个重要因素是特征权重的计算方法,以及机器学习算法的准确率。针对传统基于支持向量机的文本分类准确率不高的问题,本文提出修正权重计算公式和采用调整支持向量机核函数参数的方法,使文本的分类准确率提高了近3个百分点。实验结果表明这两种方法的结合,确实可以提高文本分类的准确率。  相似文献   

5.
传统文本分类算法通常以词作为特征,将文本数据映射到一个高维向量空间进行训练。本文则采用支持张量机(STM)进行文本分类,以二阶张量为例,将文本映射到张量空间进行运算。该算法有效降低了数据特征维数,因此更加适合小样本数据的学习。相关实验也证明,支持张量机在处理小样本问题与数据偏斜问题方面更具优势。  相似文献   

6.
李倩 《电子技术》2014,(10):8-11
文章首先介绍文本分类预处理的几种方法及其不足之处,并提出一种改进的特征提取方法。然后,介绍几种文本分类算法,并指出其缺点。最后本文介绍支持向量机算法,结合改进后的文本预处理方法对网络文本进行分类,并通过与KNN对比分析说明了该算法的高效性能。  相似文献   

7.
王泽 《通讯世界》2016,(1):225-226
文本分类在数据库和搜索引擎的应用较为广泛,SVM是文本分类算法中的重要算法,适用于多种分类问题,能够解决传统算法中的弊端.本文对支持向量机和支持向量机算法做出具体的介绍,对该算法在文本分类中的应用具体指标进行探讨,旨在为我国的文本分类方式的进步和发展提供理论帮助.  相似文献   

8.
赵博  丁华福 《信息技术》2007,31(12):122-124
研究了基于向量空间模型的自动文本分类算法,在对现有分类算法原理深入分析的基础上,针对现有算法的不足,引入了关键向量的概念,提出了一种基于关键向量的文本分类算法,并给出了基于该算法的实验数据。  相似文献   

9.
根据工程项目中文本特点与用户业务需求,基于向量空间模型,结合示例检索与分类检索技术,设计与实现了文本分类检索系统,以面向对象中类图模型形式描述了系统的实现方法。为解决工程应用中出现的性能等问题,提出了各种改进优化方法,如采用特征提取将向量降维,减少存储空间,提高计算速度;采用分类检索缩小搜索范围,缩小检索时间;定时增量更新向量空间提高处理速度,最终使系统成功应用到了工程项目中。  相似文献   

10.
一种新型文本自动分类系统的研究与实现   总被引:1,自引:0,他引:1  
文本自动分类系统是信息处理的重要研究方向,它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。通过对文本分类中所涉及的关键技术进行研究和探讨,提出了基于向量空间模型的文本分类系统的结构,并给出了评估方法和实验结果。  相似文献   

11.
基于主动学习和否定选择的垃圾邮件分类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
胡小娟  刘磊  邱宁佳 《电子学报》2018,46(1):203-209
针对现在网络上泛滥的垃圾邮件问题,本文结合主动学习方法和否定选择算法提出了一种二类文本分类方法:主动否定学习算法.根据用户少量标注建立双向兴趣集,利用否定选择算法的自体异常检测机制改善主动学习中的采样策略,并将双向兴趣集作为检测器,新增样本集作为自体集,对两者进行异常匹配.本文算法与在线垃圾邮件快速识别方法、增强差异性的半监督协同分类算法、垃圾邮件过滤方法、基于人工高免疫的多层垃圾邮件过滤算法和在线主动多领域学习方法在六个常用邮件语料集上进行了分析比较,结果表明本文算法具有较高的准确率、召回率、分类精度,和较低的用户标注负担.使用用户个性喜好转换为双向兴趣特征的方式有助于提高算法的分类能力;利用异常检测匹配选取未知类别特征的方式,有效地降低了用户标注负担.  相似文献   

12.
With the rapid development of artificial intelligence technology, text categorization technology is becoming more and more mature. However, text categorization in real situations still faces various unconstrained conditions. English text is an important part of text information, it is also an important way for people to get information from abroad. How can everyone get the desired content from the massive data quickly and accurately, it has become a hot issue in current research. This paper improves the current text categorization algorithm based on English quality-related text categorization. The design and implementation of text categorization system are illustrated with an example of English quality-related text categorization system, complete the research work of text categorization algorithm. The core work of this paper is to mine, classify and analyze large amounts of data in English text by using the method of combining cyclic neural network with quality. Finally, the essential features of high quality English texts are obtained. Traditional English text categorization algorithm if the amount of training data is large, it is easy to show some defects such as unclear feature items. In view of these problems, in order to improve the accuracy and flexibility of English text categorization, this paper proposes a quality-related English text categorization method based on cyclic neural network. A mechanism combining attention is proposed to improve the problem of label disorder and make the structure of the model more flexible. The model proposed in this paper is compared and optimized. Experiments show that the accuracy of neural text classification based on quality classification can reach about 96%.  相似文献   

13.
王欣欣  赖惠成 《通信技术》2011,44(12):156-158
分析了文本分类系统的一般模型及现有技术,在应用了核主成分分析的特征降维方法进行处理后,提出了一种基于样本中心的径向基( RBF)神经网络文本分类算法,并且引入了聚类算法的核心思想,来改进误差反向传播(BP)神经网络分类算法收敛速度较慢的缺点.实验结果表明, RBF网络与BP网络相比,具有较高的运算速度和较强的非线性映射能力,在收敛速度和准确程度上也有更好的分类效果.  相似文献   

14.
This paper proposes a novel graph-based transductive learning algorithm based on manifold regularization.First,the manifold regularization was introduced to probabilistic discriminant model for semi-supervised classification task.And then a variation of the expectation maximization(EM) algorithm was derived to solve the optimization problem,which leads to an iterative algorithm.Although our method is developed in probabilistic framework,there is no need to make assumption about the specific form of data distribution.Besides,the crucial updating formula has closed form.This method was evaluated for text categorization on two standard datasets,20 news group and Reuters-21578.Experiments show that our approach outperforms the state-of-the-art graph-based transductive learning methods.  相似文献   

15.
在基于一种知识工程和统计学习相结合的文本信息分类算法基础上,提出了利用文本在名片图像中的版面位置信息来辅助分类.此方法充分利用了名片版面中各种文本内容之间在图像中空间位置上的相互关系,对提高名片信息的分类准确性有显著的效果.  相似文献   

16.
针对信息增益模型在文本分类中的不足之处,提出了一种基于灰关系与信息增益的文本分类算法.首先基于改进的χ2统计进行类别特征选择用于类内文本表示,提高类别中心向量的表示能力;其次针对IG模型对低频词赋权过大问题,提出了基于频数和位置的改进加权方法;最后提出了基于灰关系的文本相似度计算途径,改善了基于距离的相似度计算模式的不足.试验表明,此算法提高了文本分类效率.  相似文献   

17.
有监督主题模型的SLDA-TC文本分类新方法   总被引:1,自引:0,他引:1       下载免费PDF全文
本文提出了一种有监督主题模型的SLDA-TC(Supervised LDA-Text Categorization)文本分类方法,引入主题-类别概率分布参数,识别主题-类别的语义信息;提出SLDA-TC-Gibbs主题采样新方法,对每个词的隐含主题采样,只从该词所在文档的同类其它文档中采样,并给出了理论推导;另外,其主题数只需略大于类别数.实验表明,对比LDA-TC(LDA-Text Categorization)和SVM算法,本方法能提高分类精度和时间性能.  相似文献   

18.
基于最大熵的隐马尔可夫模型文本信息抽取   总被引:29,自引:3,他引:26       下载免费PDF全文
文本信息抽取是处理海量文本的重要手段之一.最大熵模型提供了一种自然语言处理的方法.提出了一种基于最大熵的隐马尔可夫模型文本信息抽取算法.该算法结合最大熵模型在处理规则知识上的优势,以及隐马尔可夫模型在序列处理和统计学习上的技术基础,将每个观察文本单元所有特征的加权之和用来调整隐马尔可夫模型中的转移概率参数,实现文本信息抽取.实验结果表明,新的算法在精确度和召回率指标上比简单隐马尔可夫模型具有更好的性能.  相似文献   

19.
褚晶辉  董越  吕卫 《电视技术》2014,38(3):188-191
视频中包含的文字信息与视频的语义内容有很强的相关性,将视频中的文字信息提取出来进行分析处理可以有效地理解电视视频语义,从而实现对视频内容的安全监控。针对文字检测提出一种基于小波变换、角点特征图像和统计特征的有效方法,并运用基于彩色空间的文字提取方法获取二值图像,更有利于后面OCR的文字识别。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号