首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 390 毫秒
1.
基于Rough集约简算法的中文文本自动分类系统   总被引:7,自引:0,他引:7  
现有的文本自动分类离不开文档向量的构造,向量的分量与文档中的特征项相对应。这种向量通常高达几千维甚至数万维,计算量相当大,因此需要对向量进行约简。而传统的基于频率的阈值过滤法往往会导致有效信息的丢失,影响分类的准确度。该文将Rough集理论引入自动分类,并提出了一种新的文档向量约简算法。实验证明该算法不仅能有效缩减文档向量的规模,而且相比传统的阈值法信息损失小、准确率更高。  相似文献   

2.
随着万维网的发展,文本分类成为处理和组织大量文档数据的关键技术。在阐述了文本分类算法的研究现状,分析了朴素贝叶斯(Na ve Bayes)、kNN和支持向量机(SVM)经典文本分类算法之后,提出了应用最小二乘支持向量机(LSSVM)算法来实现文本分类。对使用用最小二乘支持向量机和一般支持向量机的文本分类结果进行了比较,并得出了结论:使用最小二乘支持向量机进行文本分类缩短了文本分类的时间,并保证了一定的召回率和准确率。  相似文献   

3.
中文文本倾向性分类技术比较研究   总被引:3,自引:1,他引:2  
随着近几年互联网的发展,网络评论数量正日益增加。对这些网络评论进行挖掘和分析,识别出其中的情感倾向,可以给用户、企业、政府提供重要的决策支持。采用机器学习方法中的朴素贝叶斯和支持向量机分类模型,根据不同的停用词表、特征选择方法、特征加权方法的组合,对中文文本倾向性分类进行了研究。结论表明,采用保留情感信息相关词性的停用词表,以文档频率为特征选择方法,并应用基于绝对词频的支持向量机分类模型,能取得较好的分类效果。  相似文献   

4.
文本分类是根据文档内容将文档分类为预定义类别的过程.文本分类是文本检索系统的必要要求,文本检索系统响应用户的查询检索文本,而文本理解系统以某种方式转换文本,如生成摘要,回答问题或提取数据[1].本文中将运用朴素贝叶斯、支持向量机、K最近邻、fastText这4种方法来进行新闻文本分类,并比较了各种算法的分类性能、复杂度等方面的优缺点,最后评述了精确度和时间2种分类器常用的性能评价指标[2].  相似文献   

5.
支持向量机应用于文本分类、手写数字识别、基因表达等许多领域,由于Harris角点检测算子对噪声点非常敏感,本文在文献[3]的基础上提出Harris算子和支持向量机相结合的方法来进行角点检测.首先利用Harris角点检测算法对两幅以上的无噪声图像提取角点,然后将提取的角点作为支持向量机的训练样本.构造支持向最机,最后利用...  相似文献   

6.
本文在介绍隐性语义索引和支持向量机原理的基础上,提出了一种基于隐性语义索引的支持向量机自动文本分类模型,实验表明,该方法可提高文本分类器的训练效率,同时具有较好的准确率和查全率。  相似文献   

7.
《现代电子技术》2019,(17):177-179
针对平台中文本信息的分类管理问题,提出一种基于半监督支持向量机的图书馆微信公众号内容分类方法,以便实现面向不同用户群体的分类信息推送。首先,利用基于统计的分词方法对微信公众平台中图书服务文本进行预处理,并采用互信息和期望交叉熵作为特征选择方法;然后,采用半监督支持向量机作为分类器完成文本信息的分类。实验结果表明,在查准率和查全率等性能评估指标方面,提出的方法具有较好的分类效果。  相似文献   

8.
XML在机械CAD系统中的应用   总被引:5,自引:0,他引:5  
分析了Internet上最新的XML技术的特点,通过实例用XML技术对机械CAD产生的各种文档信息进行了描述,并且构造了基于XML文档交换的分布式支持环境的体系结构。  相似文献   

9.
目前大多数文本自动分类系统都采用向量空间模型(VSM)来表示文档.针对常规的VSM文档表示方法不能反映概念的问题,文章对VSM进行了改进.在VSM的基础上,选取在同一个窗口单元中出现的高频词,用Apriori算法从这些高频词中挖掘出最大频繁词共现集,以此对VSM进行扩展后用来表示文档.实验表明,与用VSM表示文档相比,该方法使文本自动分类系统的性能有了显著的提高.  相似文献   

10.
自动分类中的文档表示及其改善方法研究   总被引:1,自引:0,他引:1  
文档表示(Document Representation)是对文档的主题内容进行揭示、描述的结果,根据文档的内容得到其文档表示是对文档进行自动分类的前提.对自动分类领域中常用的文档表示方法--向量表示法、语言模型表示法和图型表示法等进行了总结,并对四种改善文档表示效果的方法,即同义词扩展、共现信息的应用、句法信息的应用、语义信息的应用等进行了讨论.  相似文献   

11.
李晨  王巍 《电子设计工程》2012,20(12):180-183
文中在研究现有先验知识与支持向量机融合的基础上,针对置信度函数凭经验给出的不足,提出了一种确定置信度函数方法,更好地进行分类。该方法是建立在模糊系统理论的基础上:将样本的紧密度信息作为先验知识应用于支持向量机的构造中,在确定样本的置信度时,不仅考虑了样本到所在类中心之间的距离,还考虑样本与类中其它样本之间的关系,通过模糊连接度将支持向量与含噪声样本进行区分。文中将基于先验知识的支持向量机应用于医学图像分割,以加拿大麦吉尔大学的brainWeb模拟脑部数据库提供的不同噪声的图像进行实验,实验结果表明采用基于先验知识的支持向量机比传统支持向量机具有更好的抗噪性能及分类能力。  相似文献   

12.
基于一种混合语言模型的自动文本分类技术研究   总被引:1,自引:0,他引:1  
随着Internet以及Intranet中大量可利用信息的爆炸式增长,文本分类成为处理和组织大量文档数据的关键技术之一。该文提出一种本体论和统计方法相结合的混合语言模型,用以解决自动文本分类问题。首先,通过学习不同类别的训练语料,分别获得各自类别的语言本体知识库,构造成为不同类别的分类器。对于实际文档,将基于不同类别的语言本体知识库分别获得对文档的评价值,并以所获得的最高评价值决定该文档的类别归属。与Bayes,k-nearest neighbor,support vector machine等3种典型的文本分类器进行了比较。实验结果表明,该文方法的分类性能均胜于其上述3种方法。  相似文献   

13.
基于XML语言的文本隐藏方法研究   总被引:1,自引:0,他引:1  
在分析XML文档语法结构的基础上,提出了几种新的基于XML语言的文本信息隐藏方法.根据已有的XML文档信息隐藏方法,对网上典型的XML文档的信息隐藏容量进行了统计.结果表明,XML文档的隐藏率超过0.7%,在512 kbit/s的文本流中隐藏一路2.4~3.2 kbit/s的数据流是可能的.  相似文献   

14.
针对传统的二分类支持向量机在数据种类繁多并含有很多不带标签的样本时的固有缺陷,提出了一种主动学习与非平衡二叉树结合的多类分类支持向量机.该方法首先通过类距离构造一个非平衡二叉树结构,从易到难依次构造节点,将最容易分出的类放在根节点,然后利用主动学习策略,自动为选择的样本添加标签,并添加到训练样本集中.实验结果表明本文提出算法性能优于常规主动学习支持向量机,有效提高了分类精度,且大大缩短了算法运行时间.  相似文献   

15.
《现代电子技术》2019,(17):183-186
针对数字图书馆领域中的中文图书书目自动化分类问题,提出一种基于极限学习机的自动化图书信息分类方法。首先使用基于统计的分词方法对图书信息进行预处理形成特征项集合,并采用信息增益(IG)实现特征选择,从而减少特征项的数量;然后通过基于TF-IDF特征权重的向量空间模型进行文本表示;最后采用机器学习算法中的极限学习机对图书语料进行学习和测试。实验结果表明,相比朴素贝叶斯分类、K最近邻策略分类和支持向量机分类,基于极限学习机的分类方法可以有效实现图书自动分类过程,并具有较高的准确率和分类效果。  相似文献   

16.
熊羽  左小清  黄亮  陈震霆 《激光技术》2014,38(2):165-171
为了解决利用单一特征对彩色遥感图像进行分类效果不理想、普适性不强等问题,提出了一种基于颜色和纹理特征组合的支持向量机彩色遥感图像分类方法。该方法尝试将彩色遥感图像的颜色信息和纹理信息相结合作为支持向量机算法分类的特征向量,据此对遥感影像进行分类,并进行了实验验证。结果表明,颜色和纹理特征组合的支持向量机分类方法能够取得较高的分类精度,其分类效果优于传统的单一颜色或纹理特征分类,是一种有效的彩色遥感图像分类方法。  相似文献   

17.
王泽 《通讯世界》2016,(1):225-226
文本分类在数据库和搜索引擎的应用较为广泛,SVM是文本分类算法中的重要算法,适用于多种分类问题,能够解决传统算法中的弊端.本文对支持向量机和支持向量机算法做出具体的介绍,对该算法在文本分类中的应用具体指标进行探讨,旨在为我国的文本分类方式的进步和发展提供理论帮助.  相似文献   

18.
在文本分类过程中,影响分类准确率的两个重要因素是特征权重的计算方法,以及机器学习算法的准确率。针对传统基于支持向量机的文本分类准确率不高的问题,本文提出修正权重计算公式和采用调整支持向量机核函数参数的方法,使文本的分类准确率提高了近3个百分点。实验结果表明这两种方法的结合,确实可以提高文本分类的准确率。  相似文献   

19.
针对人脸识别问题,提出了基于主成分分析和支持向量机分类相结合的方法实现人脸图像特征提取,并对提取的人脸特征参数进行分类与识别,得到较好的人脸识别结果。通过实验分析了支持向量机方法中惩罚项权重参数和高斯核函数参数的选择对识别率的影响。最后将支持向量机方法与KNN分类方法获得的结果进行了对比分析,证明了支持向量机方法具有很高的优越性。  相似文献   

20.
SVM-KNN分类器——一种提高SVM分类精度的新方法   总被引:77,自引:1,他引:77       下载免费PDF全文
李蓉  叶世伟  史忠植 《电子学报》2002,30(5):745-748
本文提出了一种将支持向量机分类和最近邻分类相结合的方法,形成了一种新的分类器.首先对支持向量机进行分析可以看出它作为分类器实际相当于每类只选一个代表点的最近邻分类器,同时在对支持向量机分类时出错样本点的分布进行研究的基础上,在分类阶段计算待识别样本和最优分类超平面的距离,如果距离差大于给定阈值直接应用支持向量机分类,否则代入以每类的所有的支持向量作为代表点的K近邻分类.数值实验证明了使用支持向量机结合最近邻分类的分类器分类比单独使用支持向量机分类具有更高的分类准确率,同时可以较好地解决应用支持向量机分类时核函数参数的选择问题.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号