首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 703 毫秒
1.
为克服ML-KNN在分类效率方面的局限性,提出了一种基于KNN的快速多标签数据分类算法FKMC,利用待分类实例的k个最近邻的局部信息进行排序分类。从已分类数据实例集中选择待分类数据实例的k个最近邻;根据每个最近邻拥有的标签数和每个标签归属的最近邻数对待分类实例进行排序分类。仿真结果表明,最近邻的选择方法对分类器性能有显著的影响;在分类效果上FKMC与ML-KNN相当,有时甚至优于后者;而在分类效率上FKMC则显著优于ML-KNN。  相似文献   

2.
针对于使用支持向量机求解大规模复杂问题存在训练时间过长和分类精度不高等困难,本文提出了一种结合支持向量机(SvM)和K-最近邻(KNN)分类的分治算法.首先对支持向量机分类机理进行分析可以得出它作为分类器实际相当于每类只选一个代表点的最近邻分类器.在此基础上,根据分治算法的基本思想将训练集划分为多个训练子集,用每个子集单独训练一个SVM,这样每个训练子集由训练后的SVM可以分别得到正例和反例的一个代表点,由这些代表点的全体构成了整个训练集的正例和反例代表点的集合,然后在这个代表点集合基础上使用KNN分类器最为整个问题的解.实验结果表明该分治算法对于大规模数据可使训练时间大幅度下降且使分类精度不同程度提高.  相似文献   

3.
最近邻分类的多代表点学习算法   总被引:4,自引:0,他引:4  
经典的k-最近邻算法存在参数k难以确定和分类效率低的缺点.基于模型的kNN算法使用代表点集合构造训练样本的分类模型,克服上述缺点,但需要较高的计算时间代价.文中提出一种高效的多代表点学习算法,用于最近邻分类.运用结构风险最小化理论对影响分类模型期望风险的因素进行分析.在此基础上,使用无监督的局部聚类算法学习优化的代表点集合.在实际应用数据集上的实验结果表明,该算法可对复杂类别结构数据进行有效分类,并大幅度提高分类效率.  相似文献   

4.
为提高细粒度图像分类的准确率和速度,提出区域投票分类模型和区域置信度机制以及基于轻量化区域置信网络的细粒度图像分类方法。将轻量化卷积神经网络分类器替换为区域投票分类器,加入区域置信机制,增加分类网络对于关键特征分类的权重,提升轻量化模型的准确率。在Cub200-2011数据集上的实验结果验证了区域投票模型和区域置信机制的有效性。相较于其它主流细粒度图像分类算法,改进后的模型仅损失了少量精度,却大幅减少了参数量和所需运算资源。  相似文献   

5.
王轩  张林  高磊  蒋昊坤 《计算机应用》2018,38(10):2772-2777
为应对抽样不均匀带来的影响,以基于代表的分类算法为基础,提出一种用于符号型数据分类的留一法集成学习分类算法(LOOELCA)。首先采用留一法获得n个小训练集,其中n为初始训练集大小。然后使用每个训练集构建独立的基于代表的分类器,并标注出分类错误的分类器及对象。最后,标注分类器和原始分类器形成委员会并对测试集对象进行分类。如委员会表决一致,则直接给该测试对象贴上类标签;否则,基于k最近邻(kNN)算法并利用标注对象对测试对象分类。在UCI标准数据集上的实验结果表明,LOOELCA与基于代表的粗糙集覆盖分类(RBC-CBNRS)算法相比,精度平均提升0.35~2.76个百分点,LOOELCA与ID3、J48、Naïve Bayes、OneR等方法相比也有更高的分类准确率。  相似文献   

6.
SVM-KNN分类算法研究   总被引:1,自引:0,他引:1  
SVM-KNN分类算法是一种将支持向量机(SVM)分类和最近邻(NN)分类相结合的新分类方法。针对传统SVM分类器中存在的问题,该算法通过支持向量机的序列最小优化(SMO)训练算法对数据集进行训练,将距离差小于给定阈值的样本代入以每类所有的支持向量作为代表点的K近邻分类器中进行分类。在UCI数据集上的实验结果表明,该分类器的分类准确率比单纯使用SVM分类器要高,它在一定程度上不受核函数参数选择的影响,具有较好的稳健性。  相似文献   

7.
黄宇扬  董明刚  敬超 《计算机应用》2018,38(11):3112-3118
针对传统的实例选择算法会误删训练集中非噪声样本、算法效率低的不足,提出了一种面向K最近邻(KNN)的遗传实例选择算法。该算法采用基于决策树和遗传算法的二阶段筛选机制,先使用决策树确定噪声样本存在的范围;再使用遗传算法在该范围内精确删除噪声样本,可有效地降低误删率并提高效率,采用基于最近邻规则的验证集选择策略,进一步提高了遗传算法实例选择的准确度;最后引进基于均方误差(MSE)的分类精度惩罚函数来计算遗传算法中个体的适应度,提高有效性和稳定性。在20个数据集上,该方法相较于基于预分类的KNN (PRKNN)、基于协同进化的实例特征选择算法(IFS-CoCo)、K最近邻(KNN),在分类精度上的提升分别为0.07~26.9个百分点、0.03~11.8个百分点、0.2~12.64个百分点,在AUC和Kappa的上的提升分别为0.25~18.32个百分点、1.27~23.29个百分点、0.04~12.82个百分点。实验结果表明,该方法相较于当前实例选择算法在分类精度和分类效率上均具有优势。  相似文献   

8.
人工免疫识别系统(AIRS)是受生物免疫系统的启示而研发的一种比较有效的分类器,但也存在记忆细胞数目过于庞大,分类精度不高,特别是在数据不完备的情况下,分类精度低等缺陷。为了解决这个问题,提出了一种不完备数据下的免疫分类算法(ICAU),算法引入半监督学习机制和分类器融合投票决策的思想,利用多个AIRS分类器互相帮助学习训练,来提高AIRS在不完备数据下的分类精度。在UCI数据集上进行了实验,结果验证了ICAU算法的有效性。  相似文献   

9.
基于样本选择的最近邻凸包分类器   总被引:1,自引:0,他引:1       下载免费PDF全文
最近邻凸包分类算法是一种以测试点到各类别样本凸包的距离为分类度量的最近邻分类算法。然而,该算法的凸二次规划问题优化求解的较高的计算复杂度限制了其在较大规模数据集上的应用。本文提出一种样本选择方法——子类凸包生长法。通过迭代,选择距离选出样本凸包最远的点,直到满足终止条件,从而实现数据集的有效约简。ORL数据库和MIT-CBCL人脸识别training-synthetic库上的实验结果表明,子类凸包生长法选出的少量样本生成的凸包能够很好的表征训练集,在不降低最近邻凸包分类器性能的同时,使得算法的计算速度大为提高。  相似文献   

10.
为了增强最近邻凸包分类器的非线性分类能力,提出了基于核函数方法的最近邻凸包分类算法。该算法首先利用核函数方法将输入空间映射到高维特征空间,然后在高维特征空间采用最近邻凸包分类器对样本进行分类。最近邻凸包分类器是一类以测试点到各类别凸包的距离为相似性度量,并按最近邻原则归类的分类算法。人脸识别实验结果证实,这种核函数方法与最近邻凸包分类算法的融合是可行的和有效的。  相似文献   

11.
黄云  洪佳明  覃遵跃 《计算机工程》2012,38(19):167-169,174
代表点选择是实现缩减数据集规模的有效途径,可以提高分类的准确率和执行效率.为此,通过引入分类置信度熵的概念,提出适应度评价函数,用于评估代表点的选择效果,以此找到最优的代表点集.该方法可与其他代表点选择方法结合,得到性能更优的代表点选择方法.与多个经典代表点选择方法进行实验比较,结果表明基于置信度的代表点选择方法在分类准确率和数据降低率上有一定优势.  相似文献   

12.
为解决图像分类过程中特征点选择的随机性对分类精度造成的影响,提出一种基于图像目标特征空间自学习分类算法。利用基于颜色和纹理特征的多通道局部主动轮廊模型找到图像的目标区域,在目标区域选取特征并对特征稀疏编码建立图像的目标特征空间。为进一步提高图像分类精度建立投票机制下基于图像目标特征空间的自学习算法。实验结果表明,该方法能避免特征选择的随机性对实验结果的影响,有效地提高图像分类的精度。  相似文献   

13.
基于自然邻居和最小生成树的原型选择算法   总被引:1,自引:0,他引:1  
朱庆生  段浪军  杨力军 《计算机科学》2017,44(4):241-245, 268
K最近邻居是最流行的有监督分类算法之一。然而,传统的K最近邻居有两个主要的问题:参数K的选择以及在大规模数据集下过高的时间和空间复杂度需求。为了解决这些问题,提出了一种新的原型选择算法,它保留了一些对分类贡献很大的关键原型点,同时移除噪声点和大多数对分类贡献较小的点。不同于其他原型选择算法,该算法使用了自然邻居这个新的邻居概念来做数据预处理,然后基于设定的终止条件构建若干个最小生成树。基于最小生成树,保留边界原型,同时生成一些具有代表性的内部原型。基于UCI基准数据集进行实验,结果表明提出的算法有效地约简了原型的数量,同时保持了与传统KNN相同水平的分类准确率;而且,该算法在分类准确率和原型保留率上优于其他原型选择算法。  相似文献   

14.
考虑局部均值和类全局信息的快速近邻原型选择算法   总被引:1,自引:0,他引:1  
李娟  王宇平 《自动化学报》2014,40(6):1116-1125
压缩近邻法是一种简单的非参数原型选择算法,其原型选取易受样本读取序列、异常样本等干扰.为克服上述问题,提出了一个基于局部均值与类全局信息的近邻原型选择方法.该方法既在原型选取过程中,充分利用了待学习样本在原型集中k个同异类近邻局部均值和类全局信息的知识,又设定原型集更新策略实现对原型集的动态更新.该方法不仅能较好克服读取序列、异常样本对原型选取的影响,降低了原型集规模,而且在保持高分类精度的同时,实现了对数据集的高压缩效应.图像识别及UCI(University of California Irvine)基准数据集实验结果表明,所提出算法集具有较比较算法更有效的分类性能.  相似文献   

15.
针对传统K近邻分类器在大规模数据集中存在时间和空间复杂度过高的问题,可采取原型选择的方法进行处理,即从原始数据集中挑选出代表原型(样例)进行K近邻分类而不降低其分类准确率.本文在CURE聚类算法的基础上,针对CURE的噪声点不易确定及代表点分散性差的特点,利用共享邻居密度度量给出了一种去噪方法和使用最大最小距离选取代表点进行改进,从而提出了一种新的原型选择算法PSCURE (improved prototype selection algorithm based on CURE algorithm).基于UCI数据集进行实验,结果表明:提出的PSCURE原型选择算法与相关原型算法相比,不仅能筛选出较少的原型,而且可获得较高的分类准确率.  相似文献   

16.
实际应用中,数据常常表现出不完备性和动态性的特点。针对动态不完备数据中的特征选择问题,提出了一种基于相容粗糙集模型和信息熵理论的增量式特征选择方法。首先,建立了不完备信息系统中特征值动态更新时论域上条件划分与决策分类的动态更新模式,分析了作为特征重要度评价准则的不完备相容信息熵的增量计算机制,并将该机制引入到启发式最优特征子集搜索过程中特征重要度的迭代计算,进一步设计了不完备数据中面向特征值动态更新的增量式特征选择算法。最后,在标准UCI数据集上从分类精度、决策性能和计算效率3个方面对文中所提出的增量算法的有效性和高效性进行了实验验证。  相似文献   

17.
重点研究了数据流分类挖掘中存在的概念漂移问题,并在CVFDT算法改进的基础上,提出了一种多重选择决策树算法mCVFDT.该算法将多重属性的选择机制加入到节点结构中,克服了CVFDT无法自动检测概念漂移的缺陷,同时避免了对决策树的重复遍历,提高了算法的分类精度和效率.实验结果证明该,算法随着样本数目的增加,在分类精度上比CVFDT算法有更好的表现.  相似文献   

18.
作为一种典型的大数据,数据流具有连续、无限、概念漂移和快速到达等特点,因此传统的分类技术无法直接有效地应用于数据流挖掘。本文在经典的精度加权集成(Accuracy weighted ensemble,AWE)算法的基础上提出概念自适应快速决策树更新集成(Concept very fast decision tree update ensemble,CUE)算法。该算法不仅在基分类器的权重分配方面进行了改进,而且在解决数据块大小的敏感性问题以及增加基分类器之间的相异性方面,有明显的改善。实验表明在分类准确率上,CUE算法高于AWE算法。最后,提出聚类动态分类器选择(Dynamic classifier selection with clustering,DCSC)算法。该算法基于分类器动态选择的思想,没有繁琐的赋权值机制,所以时间效率较高。实验结果验证了DCSC算法的有效和高效性,并能有效地处理概念漂移。  相似文献   

19.
模糊决策树在数据模糊化时,需要确定每个数量型属性的模糊语言项个数。另一方面,集成分类算法已成为提高模型准确率和稳定性的有效策略。提出了一种基于混沌布谷鸟(CCS)优化的FDT集成分类算法,首先用CCS算法确定数量型属性的模糊语言项个数,再通过bootstrap抽样生成FDT集成模型,最后采用OOB误差加权投票机制得到分类结果。通过4组UCI数据集验证,与其他分类算法对比,证明了该方法在分类精度上有明显的提升;同时,在处理缺失数据时,仍有较高的分类能力。  相似文献   

20.
为了提高延迟敏感数据流的挖掘精度及能量效率,提出一种动态调度的延迟敏感流网络挖掘算法。该算法建立了流挖掘系统模型,对分类器链的选择概率、能量消耗和延迟敏感进行分析。为了控制挖掘系统的延迟时间并节省能量,提出了基于延迟约束的能量最小化组合方程。同时,采用了一个有效的分解定界算法来解决分类器的最佳处理速度选择问题,通过贪婪算法找到组合方程的最小能量边界,实现流挖掘系统在具有更高的分类效率的同时保持较低的能量消耗和延迟。仿真结果表明,该算法相比基于动态时间规整的数据挖掘算法和基于遗传算法优化的数据挖掘算法,能量效率分别提高了39.4%和41.4%,分类精度分别高出11.5%和5.9%,具有更好的节能效果和挖掘精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号