共查询到19条相似文献,搜索用时 156 毫秒
1.
2.
支持向量机方法在文本分类中的改进 总被引:1,自引:0,他引:1
提出了一种应用于文本分类的KNN和SVM相结合的算法,将SVM近似看成每类只有一个代表点的1NN分类器,对于待识别样本,如果其离支持向量机的最优分界面较远,则用SVM分类;如果其离分界面较近,采用KNN对测试样本分类,将每个支持向量作为代表点,计算待识别样本和每个支持向量的距离对其作出判断.该算法综合了KNN和SVM在分类问题中的优势,既有效地降低了分类候选的数目,又提高了文本分类的精度.最后用实验验证了该算法的有效性. 相似文献
3.
基于支持向量机的Web文本分类方法 总被引:15,自引:8,他引:7
Web文本分类技术是数据挖掘中一个研究热点领域,而支持向量机又是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势。文章通过分析Web文本的特点,研究了向量空间模型(VSM)的分类方法和核函数的选取,在此基础上结合决策树方法提出了一种基于决策树支持向量机的Web文本分类模型。并给出具体的算法。通过实验测试表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率(90.11%)和召回率(89.38%)。 相似文献
4.
5.
6.
文章首先介绍文本分类预处理的几种方法及其不足之处,并提出一种改进的特征提取方法。然后,介绍几种文本分类算法,并指出其缺点。最后本文介绍支持向量机算法,结合改进后的文本预处理方法对网络文本进行分类,并通过与KNN对比分析说明了该算法的高效性能。 相似文献
7.
文本分类在数据库和搜索引擎的应用较为广泛,SVM是文本分类算法中的重要算法,适用于多种分类问题,能够解决传统算法中的弊端.本文对支持向量机和支持向量机算法做出具体的介绍,对该算法在文本分类中的应用具体指标进行探讨,旨在为我国的文本分类方式的进步和发展提供理论帮助. 相似文献
8.
研究了基于向量空间模型的自动文本分类算法,在对现有分类算法原理深入分析的基础上,针对现有算法的不足,引入了关键向量的概念,提出了一种基于关键向量的文本分类算法,并给出了基于该算法的实验数据。 相似文献
9.
10.
一种新型文本自动分类系统的研究与实现 总被引:1,自引:0,他引:1
文本自动分类系统是信息处理的重要研究方向,它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。通过对文本分类中所涉及的关键技术进行研究和探讨,提出了基于向量空间模型的文本分类系统的结构,并给出了评估方法和实验结果。 相似文献
11.
针对现在网络上泛滥的垃圾邮件问题,本文结合主动学习方法和否定选择算法提出了一种二类文本分类方法:主动否定学习算法.根据用户少量标注建立双向兴趣集,利用否定选择算法的自体异常检测机制改善主动学习中的采样策略,并将双向兴趣集作为检测器,新增样本集作为自体集,对两者进行异常匹配.本文算法与在线垃圾邮件快速识别方法、增强差异性的半监督协同分类算法、垃圾邮件过滤方法、基于人工高免疫的多层垃圾邮件过滤算法和在线主动多领域学习方法在六个常用邮件语料集上进行了分析比较,结果表明本文算法具有较高的准确率、召回率、分类精度,和较低的用户标注负担.使用用户个性喜好转换为双向兴趣特征的方式有助于提高算法的分类能力;利用异常检测匹配选取未知类别特征的方式,有效地降低了用户标注负担. 相似文献
12.
With the rapid development of artificial intelligence technology, text categorization technology is becoming more and more mature. However, text categorization in real situations still faces various unconstrained conditions. English text is an important part of text information, it is also an important way for people to get information from abroad. How can everyone get the desired content from the massive data quickly and accurately, it has become a hot issue in current research. This paper improves the current text categorization algorithm based on English quality-related text categorization. The design and implementation of text categorization system are illustrated with an example of English quality-related text categorization system, complete the research work of text categorization algorithm. The core work of this paper is to mine, classify and analyze large amounts of data in English text by using the method of combining cyclic neural network with quality. Finally, the essential features of high quality English texts are obtained. Traditional English text categorization algorithm if the amount of training data is large, it is easy to show some defects such as unclear feature items. In view of these problems, in order to improve the accuracy and flexibility of English text categorization, this paper proposes a quality-related English text categorization method based on cyclic neural network. A mechanism combining attention is proposed to improve the problem of label disorder and make the structure of the model more flexible. The model proposed in this paper is compared and optimized. Experiments show that the accuracy of neural text classification based on quality classification can reach about 96%. 相似文献
13.
分析了文本分类系统的一般模型及现有技术,在应用了核主成分分析的特征降维方法进行处理后,提出了一种基于样本中心的径向基( RBF)神经网络文本分类算法,并且引入了聚类算法的核心思想,来改进误差反向传播(BP)神经网络分类算法收敛速度较慢的缺点.实验结果表明, RBF网络与BP网络相比,具有较高的运算速度和较强的非线性映射能力,在收敛速度和准确程度上也有更好的分类效果. 相似文献
14.
This paper proposes a novel graph-based transductive learning algorithm based on manifold regularization.First,the manifold regularization was introduced to probabilistic discriminant model for semi-supervised classification task.And then a variation of the expectation maximization(EM) algorithm was derived to solve the optimization problem,which leads to an iterative algorithm.Although our method is developed in probabilistic framework,there is no need to make assumption about the specific form of data distribution.Besides,the crucial updating formula has closed form.This method was evaluated for text categorization on two standard datasets,20 news group and Reuters-21578.Experiments show that our approach outperforms the state-of-the-art graph-based transductive learning methods. 相似文献
15.
16.
针对信息增益模型在文本分类中的不足之处,提出了一种基于灰关系与信息增益的文本分类算法.首先基于改进的χ2统计进行类别特征选择用于类内文本表示,提高类别中心向量的表示能力;其次针对IG模型对低频词赋权过大问题,提出了基于频数和位置的改进加权方法;最后提出了基于灰关系的文本相似度计算途径,改善了基于距离的相似度计算模式的不足.试验表明,此算法提高了文本分类效率. 相似文献
17.
本文提出了一种有监督主题模型的SLDA-TC(Supervised LDA-Text Categorization)文本分类方法,引入主题-类别概率分布参数,识别主题-类别的语义信息;提出SLDA-TC-Gibbs主题采样新方法,对每个词的隐含主题采样,只从该词所在文档的同类其它文档中采样,并给出了理论推导;另外,其主题数只需略大于类别数.实验表明,对比LDA-TC(LDA-Text Categorization)和SVM算法,本方法能提高分类精度和时间性能. 相似文献
18.
文本信息抽取是处理海量文本的重要手段之一.最大熵模型提供了一种自然语言处理的方法.提出了一种基于最大熵的隐马尔可夫模型文本信息抽取算法.该算法结合最大熵模型在处理规则知识上的优势,以及隐马尔可夫模型在序列处理和统计学习上的技术基础,将每个观察文本单元所有特征的加权之和用来调整隐马尔可夫模型中的转移概率参数,实现文本信息抽取.实验结果表明,新的算法在精确度和召回率指标上比简单隐马尔可夫模型具有更好的性能. 相似文献