首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
不均衡数据集文本分类中少数类样本生成方法研究*   总被引:1,自引:0,他引:1  
针对传统的分类算法在处理不均衡样本数据时,其分类器预测倾向于多数类,少数类分类误差大,提出了一种基于聚类和遗传算法的样本生成方法。先通过K-means算法将少数类样本聚类分组;再在每个聚类的内部使用遗传交叉和变异操作获取新样本,并进行有效性验证;最后使用原始数据集和新数据集分别训练K最近邻(K nearest neighbor,KNN)及支持向量机(support vector machine,SVM)分类器。实验结果表明此方法有效改善了少数类分类效果。  相似文献   

2.
黄宇扬  董明刚  敬超 《计算机应用》2018,38(11):3112-3118
针对传统的实例选择算法会误删训练集中非噪声样本、算法效率低的不足,提出了一种面向K最近邻(KNN)的遗传实例选择算法。该算法采用基于决策树和遗传算法的二阶段筛选机制,先使用决策树确定噪声样本存在的范围;再使用遗传算法在该范围内精确删除噪声样本,可有效地降低误删率并提高效率,采用基于最近邻规则的验证集选择策略,进一步提高了遗传算法实例选择的准确度;最后引进基于均方误差(MSE)的分类精度惩罚函数来计算遗传算法中个体的适应度,提高有效性和稳定性。在20个数据集上,该方法相较于基于预分类的KNN (PRKNN)、基于协同进化的实例特征选择算法(IFS-CoCo)、K最近邻(KNN),在分类精度上的提升分别为0.07~26.9个百分点、0.03~11.8个百分点、0.2~12.64个百分点,在AUC和Kappa的上的提升分别为0.25~18.32个百分点、1.27~23.29个百分点、0.04~12.82个百分点。实验结果表明,该方法相较于当前实例选择算法在分类精度和分类效率上均具有优势。  相似文献   

3.
基于聚类和遗传交叉的少数类样本生成方法   总被引:1,自引:1,他引:0       下载免费PDF全文
杜娟  衣治安  周颖 《计算机工程》2009,35(22):182-184
传统的分类算法在处理不均衡样本数据时,分类器预测倾向于多数类,样本数量少的类别分类误差大。针对该问题,提出一种基于聚类和遗传交叉的少数类样本上采样方法,通过K-means算法将少数类样本聚类分组,在每个聚类内使用遗传交叉获取新样本,并进行有效性验证。基于K-最近邻及支持向量机分类器的实验结果证明了该方法的有效性。  相似文献   

4.
在谱聚类算法没有先验信息的情况下,对于具有复杂形状和不同密度变化的数据集很难构建合适的相似图,且基于欧氏距离的高斯核函数的相似性度量忽略了全局一致性。针对该问题,提出一种基于共享最近邻的密度自适应邻域谱聚类算法(SC-DANSN)。通过一种无参数的密度自适应邻域构建方法构建无向图,将共享最近邻作为衡量样本之间的相似性度量进而消除参数对构建相似图的影响,体现全局和局部的一致性。实验结果表明,SC-DANSN算法相比K-means算法和基于K最近邻的谱聚类算法(SC-KNN)具有更高的聚类精度,同时相比SC-KNN算法对参数的选取敏感性更低。  相似文献   

5.
针对K-最近邻(KNN)分类算法时间复杂度与训练样本数量成正比而导致的计算量大的问题以及当前大数据背景下面临的传统架构处理速度慢的问题,提出了一种基于Spark框架与聚类优化的高效KNN分类算法。该算法首先利用引入收缩因子的优化K-medoids聚类算法对训练集进行两次裁剪;然后在分类过程中迭代K值获得分类结果,并在计算过程中结合Spark计算框架对数据进行分区迭代实现并行化。实验结果表明,在不同数据集中传统K-最近邻算法、基于K-medoids的K-最近邻算法所耗费时间是所提Spark框架下的K-最近邻算法的3.92~31.90倍,所提算法具有较高的计算效率,相较于Hadoop平台有较好的加速比,可有效地对大数据进行分类处理。  相似文献   

6.
该文用RBF神经网络建立了转炉提钒冷却剂预报模型。RBF网络的中心的选取采用了可以在线学习的最近邻聚类算法。为了进一步优化网络中心,提出了基于密度排名的最近邻聚类算法。该算法聚类前先将样本按其在样本空间的密度进行了排序,聚类过程始于样本空间最密集处。实践证明,该算法应用于提钒冷却剂预报模型的建立是合理的,可行的。  相似文献   

7.
针对协同训练方法在迭代时选择加入的无标记样本所隐含的有用信息不够,以及协同训练方法多个分类器标记不一致带来错误标记无标记样本的问题,提出了一种结合半监督聚类和加权[K]最近邻的协同训练方法。该方法在每次迭代过程中,先对训练集进行半监督聚类,选择隶属度高的无标记样本给朴素贝叶斯分类,再用加权[K]最近邻算法对多个分类器分类不一致的无标记样本重新分类。利用半监督聚类能够选择出较好表现数据空间结构的样本,而采用加权[K]最近邻算法为标记不一致的无标记样本重新标记能够解决标记不一致带来的分类精度降低问题。在UCI数据集上的对比实验验证了该算法的有效性。  相似文献   

8.
模糊C均值聚类(FCM)和可能性模糊C均值聚类(PFCM)没有考虑样本特征项及每个样本对聚类的贡献程度,存在对噪声较敏感的问题。特征减少的模糊聚类算法FRFCM可剔除数据集中无效特征量,且考虑了剩余特征量的权重,具有更好的聚类性能。对此,在可能性模糊C均值聚类算法(PFCM)的基础上将其与FRFCM算法相结合,提出新的特征逐减的可能性模糊C均值聚类算法(FRPFCM)。该算法解决了PFCM算法参数依赖的问题,且在迭代过程中可自动淘汰无效特征项并更新各特征项对聚类的贡献程度。对人工数据集以及UCI数据集进行测试的结果表明,提出的FRPFCM算法可得到更高的聚类准确率,所需迭代次数更少,算法收敛速度更快。  相似文献   

9.
本文通过研究KNN(K-最近邻)算法在疾病预测领域的使用与分析,总结出KNN的2点不足,针对不足进行相应改进并提出F_KNN(循环最近邻搜索)算法:1)针对KNN计算量大、效率低下的缺点,本文采用FLANN(快速最近邻搜索)循环搜索与待测样本距离最近的点,记录若干个最近邻点作为最近邻点子集,利用此子集取代全集对待测样本进行计算,可以降低计算量,极大地提高了KNN算法效率;2)针对KNN难以对高维数据集分类的缺点,本文采用AHP(层次分析法)对样本的特征属性进行相关性研究,使用合适的参数分配权重,提高了KNN算法准确率。本文采用一组脑中风数据集对优化后的算法进行实验,实验结果表明,F_KNN准确率达96.2%。与传统KNN相比,F_KNN提高了分类性能且极大地提高了算法效率。在处理高维且较大的数据集时,F_KNN算法优势明显,具有较好的应用前景。  相似文献   

10.
针对K最近邻算法测试复杂度至少为线性,导致其在大数据样本情况下的效率很低的问题,提出了一种应用于大数据下的快速KNN分类算法。该算法创新的在K最近邻算法中引入训练过程,即通过线性复杂度聚类方法对大数据样本进行分块,然后在测试过程中找出与待测样本距离最近的块,并将其作为新的训练样本进行K最近邻分类。这样的过程大幅度的减少了K最近邻算法的测试开销,使其能在大数据集中得以应用。实验表明,本文算法在与经典KNN分类准确率保持近似的情况下,分类的速度明显快于经典KNN算法。  相似文献   

11.
自适应遗传算法(AGA)是一种有效的全局优化概率搜索算法.把混沌优化算法引入到AGA中,提出了一种结合混沌搜索的自适应遗传算法(AGACCS).该算法保持了AGA的所有特点,进一步改善了AGA的全局寻优能力并有效防止局部收敛现象,提高了算法的收敛速度和计算精度.仿真函数结果表明,该算法的性能优于AGA.  相似文献   

12.
基于遗传聚类算法和小波变换特征的自动分类   总被引:1,自引:0,他引:1  
李霆  陈学佺  邹晓涛 《计算机工程》2003,29(2):153-154,254
研究了遥感影像的特点,提出了一种基于图像的正交小波变换构造特征,同时引入遗传聚类的分类方法,实现了遥感影像的自动分类。实验表明,将遗传聚类算法与小波特征相结合的分类方法具有自动、快速、自适应的优点,能克服传统分类方法中由于样本选择而产生的局限性,提高了识别的正确率。  相似文献   

13.
胡强  郝晓燕  雷蕾 《计算机科学》2016,43(Z6):37-39, 54
为了提高计算机辅助诊断系统中孤立性肺结节的良恶性诊断的准确性,提出了一种基于遗传算法和BP神经网的分类算法。该算法针对BP神经网络容易陷入局部最优的问题,综合考虑孤立性肺结节的医学诊断特性,采用遗传算法对基于BP神经网络的分类器进行优化,并通过对PET/CT图像进行处理,提取病灶的功能特征、结构特征以及临床信息作为神经网络分类器的输入样本,实现孤立性肺结节的良恶性分类。对医院以及网络公共数据库中的大量实验数据进行分类实验,结果表明优化后的算法在分类准确性上有较大的提高,说明该方法在肺结节临床分类方面是有效的。  相似文献   

14.
通过提出应用最广泛的混合型作业车间的调度问题以及遗传算法的基本原理,并结合生产车间调度问题的特点,对传统单种群遗传算法改进了改进。新遗传算法中加入辅助种群,保证种群的多样性,解决单个种群的遗传算法容易陷入局部收敛而出现早熟的情况。并应用实例对比分析,表明算法在车间调度系统的有效性和合理性。  相似文献   

15.
提出一种基于遗传算法的离线签名鉴定方法。将签名图像分成多个子区域,提取各区域的分形维数矢量来描述笔迹的抖动程度,在此基础上,以形状特征、伪动态特征、分形维数作为签名的特征;运用加权欧式距离法构建分类器,并运用遗传算法对不同人的签名样本进行最优阈值选择。实验结果表明该方法能够取得较高的鉴别率。  相似文献   

16.
针对UAV(Unmanned Aerial Vehicle)侦察目标识别中的实时性和鲁棒性的要求,提出一种基于SURF(Speeded Up Robust Features)的快速目标识别算法。对UAV侦察图像进行预处理,采用不变矩构造遗传算法的适应度函数,利用遗传算法的全局搜索能力快速地提取可能包含目标的ROI(Region Of Interesting)区域。在ROI区域和模板图像中提取SURF特征点,采用最近邻的匹配算法搜索匹配对,从而精确确定目标的位置。仿真结果显示,该算法可以明显地提高目标识别的实时性并具有相当的鲁棒性。  相似文献   

17.
针对入侵检测中存在样本少、特征多、难于将实际经验与现有算法有机结合的问题,将交互式遗传算法应用到入侵检测技术中,并结合SVM的特点,设计出改进后的分类识别算法。实验证明,将SVM与交互式遗传算法相结合应用于入侵检测领域中,算法有效、可行,而且能获得很好的检测率。  相似文献   

18.
把二进制粒子群优化算法(BPSO)应用到人脸识别中.对人脸图像进行二维离散余弦变换(DCT),获得人脸图像的特征向量,应用BPSO算法对得到的特征向量进行特征选择,得到最具代表性的人脸特征.与遗传算法(GA)相比,在选择的特征较少的情况下,BPSO算法比遗传算法有更好的识别率.实验结果表明,BPSO算法应用到人脸识别中有较高的识别率,是一种非常有效的特征提取方法.  相似文献   

19.
Tri-Training算法是半监督算法的一种,在学习过程中容易错误标注无标记样本,从而降低分类性能,为此提出一种ADP-Tri-Training(Adaptive Tri-Training)算法,改进协同工作方式,根据几何中心设置分类器组成,然后应用模糊数学理论将多个独立的分类器组合,使得算法可以在多因素下综合评价样本,并在此基础上引入遗传算法动态设置组合权重以适应于具体的样本集,从而尽可能降低样本标注的错误率,多个实验结果表明ADP-Tri-Training算法具有更好的分类性能.  相似文献   

20.
彭涛  桂卫华  吴敏  谢勇 《控制工程》2001,8(4):54-57
针对传统人工神经网络在故障诊断中应用的局限性 ,提出一种基于小波变换、遗传算法与神经网络的融合故障诊断方法。该方法先用小波变换对原始采样信号进行特征提取 ,再用遗传算法优化选择最为重要的特征作为神经网络的输入参数。最后 ,由神经网络进行状态识别和特征分类。这样不仅减少网络训练时间 ,降低网络计算量 ,而且有效提高分类的准确性及故障诊断的可靠性。轴承故障诊断实验结果表明 ,该方法是有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号