共查询到20条相似文献,搜索用时 390 毫秒
1.
基于Rough集约简算法的中文文本自动分类系统 总被引:7,自引:0,他引:7
现有的文本自动分类离不开文档向量的构造,向量的分量与文档中的特征项相对应。这种向量通常高达几千维甚至数万维,计算量相当大,因此需要对向量进行约简。而传统的基于频率的阈值过滤法往往会导致有效信息的丢失,影响分类的准确度。该文将Rough集理论引入自动分类,并提出了一种新的文档向量约简算法。实验证明该算法不仅能有效缩减文档向量的规模,而且相比传统的阈值法信息损失小、准确率更高。 相似文献
2.
3.
中文文本倾向性分类技术比较研究 总被引:3,自引:1,他引:2
随着近几年互联网的发展,网络评论数量正日益增加。对这些网络评论进行挖掘和分析,识别出其中的情感倾向,可以给用户、企业、政府提供重要的决策支持。采用机器学习方法中的朴素贝叶斯和支持向量机分类模型,根据不同的停用词表、特征选择方法、特征加权方法的组合,对中文文本倾向性分类进行了研究。结论表明,采用保留情感信息相关词性的停用词表,以文档频率为特征选择方法,并应用基于绝对词频的支持向量机分类模型,能取得较好的分类效果。 相似文献
4.
文本分类是根据文档内容将文档分类为预定义类别的过程.文本分类是文本检索系统的必要要求,文本检索系统响应用户的查询检索文本,而文本理解系统以某种方式转换文本,如生成摘要,回答问题或提取数据[1].本文中将运用朴素贝叶斯、支持向量机、K最近邻、fastText这4种方法来进行新闻文本分类,并比较了各种算法的分类性能、复杂度等方面的优缺点,最后评述了精确度和时间2种分类器常用的性能评价指标[2]. 相似文献
5.
支持向量机应用于文本分类、手写数字识别、基因表达等许多领域,由于Harris角点检测算子对噪声点非常敏感,本文在文献[3]的基础上提出Harris算子和支持向量机相结合的方法来进行角点检测.首先利用Harris角点检测算法对两幅以上的无噪声图像提取角点,然后将提取的角点作为支持向量机的训练样本.构造支持向最机,最后利用... 相似文献
6.
本文在介绍隐性语义索引和支持向量机原理的基础上,提出了一种基于隐性语义索引的支持向量机自动文本分类模型,实验表明,该方法可提高文本分类器的训练效率,同时具有较好的准确率和查全率。 相似文献
7.
8.
9.
目前大多数文本自动分类系统都采用向量空间模型(VSM)来表示文档.针对常规的VSM文档表示方法不能反映概念的问题,文章对VSM进行了改进.在VSM的基础上,选取在同一个窗口单元中出现的高频词,用Apriori算法从这些高频词中挖掘出最大频繁词共现集,以此对VSM进行扩展后用来表示文档.实验表明,与用VSM表示文档相比,该方法使文本自动分类系统的性能有了显著的提高. 相似文献
10.
自动分类中的文档表示及其改善方法研究 总被引:1,自引:0,他引:1
文档表示(Document Representation)是对文档的主题内容进行揭示、描述的结果,根据文档的内容得到其文档表示是对文档进行自动分类的前提.对自动分类领域中常用的文档表示方法--向量表示法、语言模型表示法和图型表示法等进行了总结,并对四种改善文档表示效果的方法,即同义词扩展、共现信息的应用、句法信息的应用、语义信息的应用等进行了讨论. 相似文献
11.
文中在研究现有先验知识与支持向量机融合的基础上,针对置信度函数凭经验给出的不足,提出了一种确定置信度函数方法,更好地进行分类。该方法是建立在模糊系统理论的基础上:将样本的紧密度信息作为先验知识应用于支持向量机的构造中,在确定样本的置信度时,不仅考虑了样本到所在类中心之间的距离,还考虑样本与类中其它样本之间的关系,通过模糊连接度将支持向量与含噪声样本进行区分。文中将基于先验知识的支持向量机应用于医学图像分割,以加拿大麦吉尔大学的brainWeb模拟脑部数据库提供的不同噪声的图像进行实验,实验结果表明采用基于先验知识的支持向量机比传统支持向量机具有更好的抗噪性能及分类能力。 相似文献
12.
基于一种混合语言模型的自动文本分类技术研究 总被引:1,自引:0,他引:1
随着Internet以及Intranet中大量可利用信息的爆炸式增长,文本分类成为处理和组织大量文档数据的关键技术之一。该文提出一种本体论和统计方法相结合的混合语言模型,用以解决自动文本分类问题。首先,通过学习不同类别的训练语料,分别获得各自类别的语言本体知识库,构造成为不同类别的分类器。对于实际文档,将基于不同类别的语言本体知识库分别获得对文档的评价值,并以所获得的最高评价值决定该文档的类别归属。与Bayes,k-nearest neighbor,support vector machine等3种典型的文本分类器进行了比较。实验结果表明,该文方法的分类性能均胜于其上述3种方法。 相似文献
13.
14.
针对传统的二分类支持向量机在数据种类繁多并含有很多不带标签的样本时的固有缺陷,提出了一种主动学习与非平衡二叉树结合的多类分类支持向量机.该方法首先通过类距离构造一个非平衡二叉树结构,从易到难依次构造节点,将最容易分出的类放在根节点,然后利用主动学习策略,自动为选择的样本添加标签,并添加到训练样本集中.实验结果表明本文提出算法性能优于常规主动学习支持向量机,有效提高了分类精度,且大大缩短了算法运行时间. 相似文献
15.
16.
17.
文本分类在数据库和搜索引擎的应用较为广泛,SVM是文本分类算法中的重要算法,适用于多种分类问题,能够解决传统算法中的弊端.本文对支持向量机和支持向量机算法做出具体的介绍,对该算法在文本分类中的应用具体指标进行探讨,旨在为我国的文本分类方式的进步和发展提供理论帮助. 相似文献
18.
19.
20.
本文提出了一种将支持向量机分类和最近邻分类相结合的方法,形成了一种新的分类器.首先对支持向量机进行分析可以看出它作为分类器实际相当于每类只选一个代表点的最近邻分类器,同时在对支持向量机分类时出错样本点的分布进行研究的基础上,在分类阶段计算待识别样本和最优分类超平面的距离,如果距离差大于给定阈值直接应用支持向量机分类,否则代入以每类的所有的支持向量作为代表点的K近邻分类.数值实验证明了使用支持向量机结合最近邻分类的分类器分类比单独使用支持向量机分类具有更高的分类准确率,同时可以较好地解决应用支持向量机分类时核函数参数的选择问题. 相似文献