首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 20 毫秒
1.
2.
随着Internet等技术的飞速发展,信息处理已经成为人们获取有用信息不可或缺的工具。本文概括性地介绍了文本岔誊箩概今争分誊过程,_昔对几种母掣文本分类算法的基本思想、适用领域、优缺点等进行了介绍。  相似文献   

3.
介绍文本分类的研究背景、关键技术;总结经典文本分类方法;讨论目前新涌现的分本分类模型及面临的问题,并对文本分类趋势进行展望。  相似文献   

4.
文中提出一个IPBPS(Interconnected Processor-Based Parallel Sorting)并行分类算法,运行在由独立处理器构成的计算机网络上,以解决网络分布式数据库的分类计算问题。基于并行算法应与并行计算的拓扑结构相匹配的思想,设计了一种旨在减小处理器间通信开销的网络结构。在此并行计算环境中,每个处理器执行同样的程序,计算负载均匀分布在每个处理器中,具有较高的加速比。同时,这种基本的处理器互联结构可灵活扩展,且随着网络的扩大,算法的并行加速比更高。  相似文献   

5.
介绍了以单面判别平面、最优权重向量和权位判定逻辑为基本思想的分段线性分类方法(PLC)。在多时相数字视频数据实浏中,PLC的处理速度虽略低于平行六面休分类法(PPC),却远高于高斯最大似然分类法(GMLC);而PLC的分类精度不但与GMLC相近,且远高于PPC。实验表明,在遥感作物分类精度和运算速度方面,PLC是比GMLC或PPC更优的选择。  相似文献   

6.
研究各种高效的分类算法是数据挖掘的重要问题之一[1]。蚁群算法作为一种新型的模拟进化算法,在求解复杂的组合优化问题中表现出了良好的性能[2]。文章介绍了蚁群算法在网页内容分类数据挖掘任务中的一种应用方案,阐述了算法的基本原理及特性,并使用少量类别的网页进行了分类实验,实验结果验证了该算法在应用中的有效性。  相似文献   

7.
随着Internet上信息量的飞速增长,成千上万的网上文档需要分类以方便用户的测览和获取。因此文档的自动分类工作已经越来越受到重视,一些相应的分类方法也应运而生。但其中很少有涉及到“层次化”的分类领域,且绝大多数方法仅仅返回单个分类结果。文中,我们提出了一种新的文档自动分类方法:MRHC(Multicategory-Returned Algorithm for Hierarchical aassification)。该方法着眼于屡次化的分类技术,并在适当的情况下为文档返回多个分类结果。该方法中结合了特征削减和增量学习技术以便提高分类性能。最后,为了更加准确、客观的评价分类结果,提出了一种新的评估方法:LEP(Length-of-Error-Path)。实验结果表明,提出的分类方法响应时间短,分类准确度高,具有较强的实用性。  相似文献   

8.
基于密度的kNN文本分类器训练样本裁剪方法   总被引:36,自引:2,他引:36  
随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术。kNN方法作为一种简单、有效、非参数的分类方法,在文本分类中得到广泛的应用。但是这种方法计算量大,而且训练样本的分布不均匀会造成分类准确率的下降。针对kNN方法存在的这两个问题,提出了一种基于密度的kNN分类器训练样本裁剪方法,这种方法不仅降低了kNN方法的计算量,而且使训练样本的分布密度趋于均匀,减少了边界点处测试样本的误判。实验结果显示,这种方法具有很好的性能。  相似文献   

9.
基于方向性的VQ分类编码算法   总被引:2,自引:2,他引:0  
该文提出了一种基于图像块方向性的分类码书的生成方法,并提出与之相适应的分类编码算法。实验结果表明:用分类码书配合分类编码算法对图像进行编码可以大幅提高图像编码速度。在PSNR仅降低1.8%的情况下,编码速度平均提高38.4%。最高可以提高45.8%。  相似文献   

10.
基于朴素贝叶斯分类器邮件分类系统的改进   总被引:1,自引:0,他引:1  
目前朴素贝叶斯分类方法在电子邮件分类起到了良好的效果,但是并不能100%区分垃圾邮件与非垃圾邮件,然而在商业应用中,我们不能遗漏任何一封重要邮件。本文先简单介绍Bayes方法,然后提出一种对目前的Bayes分类方法的改进思想和方法。  相似文献   

11.
王莉莉  付忠良  陶攀  胡鑫 《计算机应用》2017,37(7):1994-1998
针对不平衡分类中小类样本识别率低问题,提出一种基于主动学习不平衡多分类AdaBoost改进算法。首先,利用主动学习方法通过多次迭代抽样,选取少量的、对分类器最有价值的样本作为训练集;然后,基于不确定性动态间隔的样本选择策略,降低训练集的不平衡性;最后,利用代价敏感方法对多分类AdaBoost算法进行改进,对不同的类别给予不同的错分代价,调整样本权重更新速度,强迫弱分类器"关注"小类样本。在临床经胸超声心动图(TTE)测量数据集上的实验分析表明:与多分类支持向量机(SVM)相比,心脏病总体识别率提升了5.9%,G-mean指标提升了18.2%,瓣膜病(VHD)识别率提升了0.8%,感染性心内膜炎(IE)(小类)识别率提升了12.7%,冠心病(CAD)(小类)识别率提升了79.73%;与SMOTE-Boost相比,总体识别率提升了6.11%,G-mean指标提升了0.64%,VHD识别率提升了11.07%,先心病(CHD)识别率提升了3.69%。在TTE数据集和4个UCI数据集上的实验结果表明,该算法在不平稳多分类时能有效提高小类样本识别率,并且保证其他类别识别率不会大幅度降低,综合提升分类器性能。  相似文献   

12.
不平衡数据分类是机器学习领域的重要研究内容,但现有的不平衡分类算法通常针对不平衡二分类问题,关于不平衡多分类的研究相对较少。然而实际应用中的数据集通常具有多类别且数据分布具有不平衡性,而类别的多样性进一步加剧了不平衡数据的分类难度,因此不平衡多分类问题已经成为亟待解决的研究课题。针对近年来提出的不平衡多分类算法展开综述,根据是否采用分解策略把不平衡多分类算法分为分解方法和即席方法,并进一步将分解方法按照分解策略的不同划分为“一对一(OVO)”架构和“一对多(OVA)”架构,将即席方法按照处理技术的不同分为数据级方法、算法级方法、代价敏感方法、集成方法和基于深度网络的方法。系统阐述各类方法的优缺点及其代表性算法,总结概括不平衡多分类方法的评价指标,并通过实验深入分析代表性方法的性能,讨论了不平衡多分类的未来发展方向。  相似文献   

13.
一种改进的关联分类算法   总被引:2,自引:0,他引:2       下载免费PDF全文
关联分类算法是数据挖掘技术中一种主要分类方法,但传统关联分类算法仅根据置信度构造分类器,影响分类精度。提出一种改进算法,在选择高置信度构造分类器的基础上,优先考虑短规则分类。实验结果表明,该改进算法在分类精度和分类器大小上均优于传统分类算法。  相似文献   

14.
图像分类识别是用计算机对图像进行一系列操作来识别不同的图像,包括图像预处理、图像的分割、图像的特征提取,最后是图像的分类。图像分类识别方法多来源于模式识别,近年来随着计算机技术发展和分类算法提出,图像分类识别方法越来越多。该文分析的分类算法是在模式识别基础上进行图像分类识别,首先介绍图像分类识别国内外研究现状,然后分析几种分类识别算法的优点和缺陷,便于更好地深入研究图像的分类算法。  相似文献   

15.
金融行业每天都会产生大量的数据,如何有效利用这些数据是每个金融企业都应该考虑的问题,但是目前存在的分类方法或多或少都存在一定的缺陷。对此,在C5.0、logistic和贝叶斯三种分类方法的基础上提出一种基于置信度加权的组合分类模型,并与三种分类算法进行比较分析。结果表明,组合分类器模型的分类表现最好。对于组合分类器的运用,可有效提高分类准确率,规避单一分类器的分类缺陷。  相似文献   

16.
提出并实现了一个基于贝叶斯的冬态树木自动分类的系统.通过分析树木体系的特征,研究并分析了可能影响树木分类结果的几个方面,提出了树木分类建模时应该考虑的因素,并将其归纳为六个方面,从中抽取与分类最相关的内容和信息,构建了冬态树木分类的模型,最后用贝叶斯方法实现了该分类模型,完成了基于贝叶斯的冬态树木分类系统.系统实现了树木分类中各特征项参数的自学习功能,以便在使用分类过程中,根据实际情况,自学习参数,达到最佳的分类效果.实验结果表明所提出的分类方法可以较好地解决冬态树木的自动分类问题.  相似文献   

17.
基于ROC曲线分析的AUC方法最初用于评估二类分类,不能直接解决多类别的评估,如何有效地将其推广到多类别评估中是研究的热点问题。首先介绍一种基于一对多方法的多类别AUC评估方法F-AUC,在此基础上根据二叉树的构造思想提出一种新的多类别评估方法B-AUC。该方法在MBNC实验平台上编程实现,并和F-AUC方法进行比较和分析,结果表明该方法是可行的,在评估效果和速度效果上有良好的性能。  相似文献   

18.
With the quick increase of information and knowledge, automatically classifying text documents is becoming a hotspot of knowledge management. A critical capability of knowledge management systems is to classify the text documents into different categories, which are meaningful to users. In this paper, a text topic classification model based on domain ontology by using Vector Space Model is proposed. Eigenvectors as the input to the vector space model are constructed by utilizing concepts and hierarchical structure of ontology, which also provides the domain knowledge. However, a limited vocabulary problem is encountered while mapping keywords to their corresponding ontology concepts. A synonymy lexicon is utilized to extend the ontology and compress the eigenvector. The problem that eigenvectors are too large and complex to be calculated in traditional methods can be solved. At last, combing the concept's supporting, a top-down method according to the ontology structure is used to complete topic classification. An experimental system is implemented and the model is applied to this practical system. Test results show that this model is feasible.  相似文献   

19.
近年来.数据挖掘技术已成为国内外研究热点.而数据分类是数据挖掘中最重要的任务之一。本文介绍了一种神经模糊数据分类方法NEFCLASS模型,它通过从数据学习得到模糊分类规则.产生具有良好解释性的分类结果,分析了它的结构、学习算法和修减策略.还讨论了它的实现工具和应用。  相似文献   

20.
文档自动分类技术及其实现   总被引:9,自引:0,他引:9  
文档自动分类是信息处理领域中的一项重要研究课题,也是一项重要的应用技术。本文介绍了实现文档自动分类中的几项关键技术,并给出了实现文档自动分类的一般方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号