首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
黄剑韬 《计算机应用》2011,31(Z2):67-69
为了降低基于向量空间模型(VSM)的文本分类方法的向量维数,并减少噪声对分类的影响,现利用商空间的粒度理论对基于VSM的分类模型进行改进,提出了一种基于商空间的新的VSM分类方法,该方法降低了基于VSM文本分类的向量维数,提高了不同文本之间的辨别能力.  相似文献   

2.
基于主动学习支持向量机的文本分类   总被引:2,自引:0,他引:2       下载免费PDF全文
提出基于主动学习支持向量机的文本分类方法,首先采用向量空间模型(VSM)对文本特征进行提取,使用互信息对文本特征进行降维,然后提出主动学习算法对支持向量机进行训练,使用训练后的分类器对新的文本进行分类,实验结果表明该方法具有良好的分类性能。  相似文献   

3.
传统向量空间模型(VSM)特征间无关联,且不能动态增量训练,不适合主题和焦点实时变化的Internet新闻信息,为此提出了一种改进的文本实时分类模型——动态向量空间模型(DVSM)。通过对VSM的特征提取策略进行改进,提出了特征聚合和增量训练算法。通过将对分类有相同贡献的文本特征词聚合,使用它们共同的分类贡献向量特征模式作为文本特征向量的基本维;采用增量动态训练改变对分类贡献已改变的特征词在文本向量的特征模式中的位置,适应Internet新闻信息的实时特性。使用静态训练集和动态训练集进行的DVSM与传统VSM的对比实验表明,采用特征聚合和动态训练的DVSM在Internet新闻实时分类中优势效果明显优越。  相似文献   

4.
基于句类向量空间模型的自动文本分类研究   总被引:2,自引:0,他引:2       下载免费PDF全文
张运良  张全 《计算机工程》2007,33(22):45-47
向量空间模型是自动文本分类中成熟的文本表示模型,通常以词语或短语作为特征项,但这些特征项通常只能提供较少的局部语义信息。为实现基于内容的文本分类,该文用HNC理论中的句类作为特征项,通过混合句类分解等技术对句类向量空间降维,使用tfc算法对特征项进行权重计算,用KNN算法进行分类。该分类器的平均准确率和召回率都是可接受的,对类别的抽象程度无要求,即抽象度较高和较低的类别可以同时分类。通过使用更好的机器学习算法和其他的HNC语言理解技术,性能可以进一步提高。  相似文献   

5.
通过基于概念的聚类方法,对博客作者的情感极性进行分析。在知网情感词汇库的基础上,将概念引入向量空间模型。首先,提取博客文本情感词,利用基于情感词概念的向量空间模型完成对博客文本的表示。然后,使用k-means算法对博客文本进行聚类,完成对博客情感极性的分析。在向量空间模型中使用概念作为特征项,提高了对博客作者情感极性分析的精度。实验证明基于概念的向量空间模型比传统基于词语的向量空间模型在博客文本情感聚类上具有更好的性能。  相似文献   

6.
该文提出了基于小波分析的文本特征提取方法,对传统TF-IDF向量空间模型下的特征向量进行了该文的小波变换、逆小波变换。使用KNN分类方法检验这两空间下的文本分类准确率。实验结果表明,该文的小波变换方法在减少了TF-IDF向量空间模型近一半的维度下在各种实验条件中都能和向量空间模型保持一致的分类准确率;该文的逆小波变换方法在大幅度降低TF-IDF向量空间模型维度的基础上,同实验中其他特征提取方法相比,在特定条件下有着卓越的特定文本类别分类优势,这也在一定程度上检验了压缩感知理论的正确合理性。  相似文献   

7.
提出基于改进PSO优化支持向量机的文本分类方法,首先采用向量空间模型对文本特征进行提取,使用互信息对文本特征进行降维,然后提出改进PSO算法,该算法可实现对SVM参数的精确、稳定、快速优化选择,对支持向量机进行训练,使用训练后的分类器对新的文本进行分类,实验结果表明该方法具有良好的分类性能。  相似文献   

8.
如何准确地实现文本的有序组织,是自然语言处理的一个重要研究方向。本文首先介绍了文本分类的研究现状,讨论了基于向量空间模型的分类法的基本思想。在此基础上,通过对文本识别本质的研究,在向量空间模型的基础上,提出一种新的结合了信息相关性分析的文本分类模型ICFM(Information Correlation based Fast text categorization Model),并以实验验证了该模型的性能。  相似文献   

9.
基于向量空间模型的贝叶斯文本分类方法   总被引:2,自引:0,他引:2  
提出基于向量空间模型的贝叶斯文本分类方法。首先提取出文本训练集的特征词,建立特征向量空间模型。然后采用贝叶斯文本分类方法对未知类别文档进行分类。给出了贝叶斯文本分类方法过程的详细描述和文本分类的一个测试实例。  相似文献   

10.
一种改进的基于VSM的文本分类算法   总被引:2,自引:0,他引:2  
在文本分类中,向量空间模型(VSM)是常用的文本表示形式,但是它把文本看作词袋,忽略了文本的结构信息。通过区别对待文本的不同部分来改进基本的向量空间方法:对于标题和段落首尾句采用核心词共现的方法来计算其对分类的作用;对其它部分采用基本的向量空间模型方法进行计算。对这两部分的计算结果进行加权求和,来综合判定文本的类别。对改进的文本分类方法进行了测试,实验结果表明改进的方法提高了分类的精确率、召回率和F1测试值。  相似文献   

11.
基于主题和态度分类的文本过滤系统   总被引:3,自引:0,他引:3       下载免费PDF全文
闵锦  黄萱菁 《计算机工程》2007,33(2):163-164
文本过滤是指从大量的文本数据流中寻找满足特定用户需求的文本的过程。该文介绍了一种文本过滤算法,该算法把基于空间向量模型的主题分类算法与基于支持向量机文本态度分类结合起来。实验结果表明该方法具有较高的精度和召回率。  相似文献   

12.
基于非线性流形学习和支持向量机的文本分类算法   总被引:2,自引:1,他引:1  
为解决文本自动分类问题,提出一种流形学习和支持向量机相结合的文本分类算法(LLE-LSSVM)。LLE-LSSVM算法利用非线性流形学习算法LEE对高维文本特征进行非线性降维,挖掘出特征内在规律与本征信息,从而得到低维特征空间,然后将其输入到LSSVM中进行学习,同时利用混沌粒子群算法对LSSVM参数进行优化,建立文本分类模型。仿真实验结果表明,LLE-LSSVM算法提高了文本分类准确率,减少了分类运行时间,是一种有效的文本分类算法。  相似文献   

13.
针对有特殊结构的文本,传统的文本分类算法已经不能满足需求,为此提出一种基于多示例学习框架的文本分类算法。将每个文本当作一个示例包,文本中的标题和正文视为该包的两个示例;利用基于一类分类的多类分类支持向量机算法,将包映射到高维特征空间中;引入高斯核函数训练分类器,完成对无标记文本的分类预测。实验结果表明,该算法相较于传统的机器学习分类算法具有更高的分类精度,为具有特殊文本结构的文本挖掘领域研究提供了新的角度。  相似文献   

14.
基于类别关键词的突发事件新闻文本分类方法   总被引:2,自引:0,他引:2  
对突发事件新闻领域的文本自动分类问题进行了研究,提出了一种基于用向量空间模型的基础上,充分考虑了类别关键词对于文本分类的特殊作用,并进行了实验.实验结果表明,加入类别关键词后,文本分类的精度有较大的提高,该方法具有一定的实用价值.  相似文献   

15.
基于概念空间的文本分类研究   总被引:3,自引:0,他引:3  
1.引言随着文本信息的快速增长,特别是Internet上在线信息的增加,文本(网页)自动分类已成为一项具有较大实用价值的关键技术,是组织和管理数据的有力手段。文本分类的方法分为两类:一是基于知识的分类方法;二是基于统计的分类方法。基于知识的文本分类系统应用于某一具体领域,需要该领域的知识库作为支撑。由于知识提取、更新、维护以及自我学习等方面存在的种种问题,使得它适用  相似文献   

16.
文本分类属于文本挖掘的一项研究内容,存在着广阔的应用前景,近年来得到了广泛的关注和研究。对文本进行建模的普遍方法是使用向量空间模型构建文本向量,并利用权值调整和维度调整对文本向量进行优化。提出了一种面向文本分类的特征向量优化方法。首先提出利用剔除近义词方法优化文本向量中的特征项。然后提出贡献率因子的概念,并利用其优化特征值。实验表明,比朴素贝叶斯分类方法的效果提高了0.96%。因此,通过去除近义词和对提取出的特征词调整权重,可以达到优化特征向量、提高文本分类效果的目的。  相似文献   

17.
藏语微博是目前流行的藏文网络媒体形式。对藏文微博文本进行情感挖掘,能够有效提高政府对藏语言的监测能力。传统的文本分类方法对中文微博能够达到不错的效果,但由于藏文具有自身的语言特点,传统方法对藏语的分类效率并不高。本文提出了一种基于语义空间的藏文微博情感分析方法。该方法首先使用句法树生成句法结构;然后结合句法结构和语义特征向量构建语义特征空间,在特征空间中通过K-means方法聚类形成语义簇质心;最后计算基于簇的TF-IDF值作为最终的微博情感特征值。实验结果表明,与目前常用的SVM TF-IDF和Naive Bayes 最大熵方法相比,该方法能更准确地对藏文微博进行情感分类。  相似文献   

18.
基于向量空间模型的多主题Web文本分类方法*   总被引:2,自引:0,他引:2  
对给定的网页,提取其特征向量,计算网页特征向量与分类特征向量的相似度,使用K-means聚类方法寻找归属类得到动态阈值,提出了一种基于动态阈值的向量空间模型多主题Web文本分类方法.该方法通过网页与每个类的相似度和动态阈值的比较,实现了将包含多个主题的网页划分到相应的多个类中.实验证明,这种方法具有较好的精确度和召回率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号