首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 102 毫秒
1.
本文将潜在语义索引理论与支持向量机方法相结合,对文本向量各维与文本的语义联系进行特征抽取,建立了完整的基于潜在语义索引的支持向量机文本分类模型,分析了该方法与分词的维数以及SVM惩罚因子选择之间的关系.并在NN-SVM分类算法的基础上,通过计算样本点与其最近邻点类别的异同以及该点与其k个同类近邻点在核空间的平均距离来修剪混淆点,提出了一种改进的NN-SVM算法:KCNN-SVM算法.利用该算法对降维后的训练集进行修剪.实验表明,用新的模型进行文本分类,与单纯支持向量机相比,受到文本分词维数以及支持向量机惩罚因子的影响更小,其分类正确率更高.  相似文献   

2.
基于机器学习的自动文本分类模型研究   总被引:2,自引:0,他引:2  
基于机器学习的方法是自动文本分类中非常重要的一大类方法。本文先给出了形式化的定义,提出了自动文本分类的流程模型,然后选取了支持向量机(Support Vector Machine,SVM)算法作为一个典型例子进行分析,最后作者通过一个中文文本分类实验评价了该算法的效果。  相似文献   

3.
本文的研究目的在于介绍一种新兴的从统计学习理论发展而来的方法——支持向量机(SVM),并将其用于银行信用风险分析。支持向量机是一种基于统计学习理论的分类方法。可将其用于分析财务比率和非财务比率,并且用于违约概率的估计的一种方法。本文将通过实证分析来证明支持向量机能够从财务数据中提取或挖掘出有用信息。  相似文献   

4.
一种混合文本分类方法研究   总被引:1,自引:0,他引:1  
文本自动分类是信息检索领域的一个重要研究方向。一些标准的机器学习算法像支持向量机已经成功地运用到了这一领域。不幸的是高维的输入向量严重的影响了分类速度,而支持向量机核函数参数的确定影响到分类的精度。为了提高分类精度和分类速度,本文提出了一种混合分类算法,首先用粗糙集理论对向量进行约简,然后采用基因算法对支持向量机的核函数参数进行优化。实验证明我们提出的算法是有效的。  相似文献   

5.
支持向量机在文本自动分类中的应用研究   总被引:3,自引:0,他引:3  
田晓宇  梁静国 《情报学报》2006,25(2):208-214
针对数据挖掘中的文本自动分类问题,提出了一种基于支持向量机的分类方法。构造了可用于多个模式类识别的多层级连式SVM模型,该模型可完成对多个模式的分类识别。根据训练样本的分类体系完成对模型的构造之后,即可应用于实际文档的自动分类。文中给出了该模型的构造及应用的方法,用两种核函数作为内积回旋方案,以中国期刊网全文数据库部分文档数据为例验证了该方法的有效性。  相似文献   

6.
对小样本集进行分类技术研究   总被引:2,自引:0,他引:2  
杨传耀  张文德 《情报学报》2004,23(2):142-146
随着网络信息的迅猛发展 ,信息处理已经成为人们获取有用信息不可缺少的工具 ,文本自动分类系统是信息处理的重要研究方向。本文介绍了当今世界上较先进的“变换支持向量机”(TSVM ,transductivesupportvectormachines)技术 ,它与普通的“支持向量机”(SVM)相比 ,TSVM方法所需的样本量大大降低 ,它能有效地对小样本数据集进行分类 ,同时重点分析了实现它的关键技术、算法及其实现过程  相似文献   

7.
陈莉 《情报学报》2008,27(2):229-234
支持向量机根据VC 维理论和结构风险最小化原则,是一种建立在统计学习理论基础之上具有新颖、功能强大特点的机器学习方法.它具有全局最优、结构简单、推广能力强等优点,近年来越来越引起关注.但支持向量机是一种小样本机器学习方法,自身的复杂性和多重共线性成为其处理大规模数据时的"瓶颈"问题.岭回归方法是一种修正的最小二乘估计法,是一种专门用于复共线性数据分析的有偏估计方法,当自变量系统中存在多重相关性时,它可以提供一个比最小二乘法更为稳定的估计.本文将岭回归-支持向量机结合,用于数据挖掘方法之一--文本分类中,实验结果表明:本方法可以提高支持向量机分类的训练速度和分类精度.  相似文献   

8.
利用Contourlet变换的方向性和各向异性,提出了一种基于contourlet变换和支持向量机(SVM)的人脸识别方法。首先对人脸图像进行Contourlet变换,将得到的低频分量系数作为人脸图像的识别特征,然后利用SVM多类剐分类器进行分类。实验结果表明该方法具有较好的识别性能。  相似文献   

9.
传统的聚类算法直接用于文本聚类这一应用上,存在的突出问题就是传统的聚类算法只负责将对象进行聚类,不负责对聚类后生成的类簇进行概念描述和解释.标注文本集合聚类后生成的类簇被称为聚类描述问题.聚类描述可以帮助用户迅速确认生成的文档类别与其需求是否相关,它是文本聚类应用中一项重要并富有挑战性的任务.针对文本聚类结果可读性较弱问题,本文提出了一种增强聚类结果的可理解性与可读性的算法,即基于支持向量机的文本聚类结果描述算法.实验结果表明基于支持向量机的聚类描述算法所取得的效果要优于常规的聚类结果描述方法.  相似文献   

10.
基于潜在语义分析和改进的HS-SVM的文本分类模型研究   总被引:1,自引:0,他引:1  
张玉峰  何超 《图书情报工作》2010,54(10):109-113
为提高文本分类的准确性与效率,提出一种基于潜在语义分析和改进的超球支持向量机的文本分类模型。该模型利用潜在语义分析进行特征抽取,消除同义词和多义词在文本表示时所造成的偏差,实现文本向量的降维。针对超球重叠区域的文本分类问题,设计一种新的决策方法-基于密集度的决策策略。实验结果表明,该模型在类别数目较小时具有较好的分类效果,改进的算法有效可行。  相似文献   

11.
多类多标签汉语文本自动分类的研究   总被引:9,自引:0,他引:9  
本文提出了一种高效的汉语文本分类方法 ,并在实验中收到了良好的效果。由于汉语文本的特殊性 ,在训练前对训练文本进行自动分词和降维预处理。许多文本往往可能归到多个类 ,分类算法采用改进的Boosting算法。实验表明 ,在多类多标签的汉语文本特征提取和文档分类中 ,该算法收敛快、准确性高、综合效果较好  相似文献   

12.
首先分析文本分类的现状,根据文本分类算法的要求和稀疏表示分类算法(SRC)的思想,设计基于元样本的稀疏表示分类器(MSRC),并应用于文本分类研究。实验结果表明,该MSRC算法具有较好的文本分类效果,有助于提高基于内容的信息检索效率。  相似文献   

13.
针对传统TF-IDF在文本过滤时存在的缺点,提出一种基于特征词抽取的文本过滤算法。简要分析文档信息过滤原理和流程,重点讨论文档信息过滤算法设计及技术实现。实验结果表明,所提出的算法可有效对文档信息进行过滤,能够提高信息检索质量。  相似文献   

14.
针对传统文本分类算法在向量空间模型表示下存在向量高维、稀疏以及忽略特征语义相关性等缺陷所导致的分类效率低和精度不高的问题,以知网(HowNet)为知识库,构建语义概念向量模型SCVM(Semantic Concept Vector Model)表示文本,根据概念语义及上下文背景对同义词进行归并,对多义词进行排歧,提出基于概念簇的文本分类算法TCABCC (Text Classification Algorithm Based on the Concept of Clusters),通过改进传统KNN,用概念簇表示各个类别训练样本,使相似度的计算基于文本概念向量和类别概念簇。实验结果表明,该算法构造的分类器在效率和性能上均比传统KNN有较大的提高。  相似文献   

15.
在智慧政务的应用背景下,利用深度学习的方法对海量的科技政策文本数据进行自动分类,可以降低人工处理的成本,提高政策匹配的效率。利用BERT深度学习模型对科技政策进行自动分类实验,通过TextRank算法和TF-IDF算法提取政策文本关键词,将关键词与政策标题融合后输入BERT模型中以优化实验,并对比不同深度学习模型的分类效果来验证该方法的有效性。结果表明,通过BERT模型,融合标题和TF-IDF政策关键词的分类效果最佳,其准确率可达94.41%,证明利用BERT模型在标题的基础上加入政策关键词能够提高政策文本自动分类的准确率,实现对科技政策文本的有效分类。  相似文献   

16.
[目的/意义]作者身份识别是语言文体学的重要研究方向,利用文本特征的身份识别也是文本挖掘的重要任务。在开放和虚拟网络环境下海量信息的作者身份或发布者的识别难题和传统作者身份识别方法在处理效率和成本等方面存在的问题有待解决。[方法/过程]将复杂网络理论引入该研究领域,在利用传统文体学特征识别作者身份方法的基础上结合文本词共现网络模型及其指标特征改进相关算法,使用文本文体学特征和文本网络模型度量指标构建作者风格特征集合,通过计算文本间风格相似度进行作者识别。[结果/结论]基于复杂网络模型的作者身份识别方法可以有效的利用作者风格特征,提高识别的精度,与其他算法的对比试验表明其识别结果的准确性更高。  相似文献   

17.
为了有效处理文本中的复杂语义问题,提出了一种基于领域本体的SOM文本逐层聚类方法.该方法基于领域本体的概念及其逻辑语义关系,将文本向量的表示从词的层面上升到主题概念层面,大大消减了文本向量的维数,提高了聚类效率.基于领域本体的概念层次关系,采用SOM算法实现文本的逐层聚类,以分层方式组织文档,方便用户由粗到精、由总体到局部地查阅文本集.通过无人机领域的Web文本聚类实验,验证了该方法的有效性.  相似文献   

18.
面对海量、异构、动态的文本信息,对文本进行自动分类具有重要意义.文本分类的发展与模式识别的发展密切相关.文本分类具有的类目多、样本数目多、噪音多、各类别样本数目不均衡等特点,使各模式识别算法在应用于文本分类时存在许多缺点.近年来逐步发展起来的群集智能(Swarm Intelligence)理论和方法为文本分类提供一种新...  相似文献   

19.
在分析了划分逻辑段对于信息检索意义的基础上,介绍了一种简单有效的逻辑段划分算法:Dotplotting算法的基本思想,并给出了该算法的实现。试验表明,该方法能客观地反映文章的层次结构。  相似文献   

20.
文本分类中粗分类数据噪声修正的网络算法   总被引:1,自引:1,他引:0  
在文本分类的实际应用中经常使用粗略分类的数据来训练分类器,但是这种数据中经常会包含类别标记有误的数据,这些数据对文本分类结果的精度会造成不良影响。本文针对这个问题提出了一种噪声修正算法,首先建立文档关联网络,把文档上标记的类别作为在网络上划分的集团结构,并用模块度衡量集团结构的质量,通过优化模块度指标把噪声数据调整到合适的类别中,从而提高数据质量。实验结果表明,本文所提算法能够有效修正粗分类数据中的噪声,且有较高的有效性和鲁棒性。该算法可以用于文本分类训练数据的预处理,或作为辅助技术用于文献库建设等工作。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号