首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 250 毫秒
1.
杨晓月 《计算机与数字工程》2021,49(11):2305-2309,2330
不平衡数据的分类问题在数据挖掘和机器学习领域中,一直是备受关注的问题.论文从数据预处理方面出发,提出一种基于谱聚类的欠采样方法,以此来降低数据的不平衡程度.先对多类样本进行谱聚类,根据每个聚类簇的密集程度,以及到少类样本的平均距离,来计算每个聚类簇的采样数目和选取怎样的多类样本,此欠采样方法可以有效去除多数类的冗余数据.实验结果证明,该算法可以有效提升少类样本的分类效果.  相似文献   

2.
胡小生  张润晶  钟勇 《计算机科学》2013,40(11):271-275
类别不平衡数据分类是机器学习和数据挖掘研究的热点问题。传统分类算法有很大的偏向性,少数类分类效果不够理想。提出一种两层聚类的类别不平衡数据级联挖掘算法。算法首先进行基于聚类的欠采样,在多数类样本上进行聚类,之后提取聚类质心,获得与少数类样本数目相一致的聚类质心,再与所有少数类样例一起组成新的平衡训练集,为了避免少数类样本数量过少而使训练集过小导致分类精度下降的问题,使用SMOTE过采样结合聚类欠采样;然后在平衡的训练集上使用K均值聚类与C4.5决策树算法相级联的分类方法,通过K均值聚类将训练样例划分为K个簇,在每个聚类簇内使用C4.5算法构建决策树,通过K个聚簇上的决策树来改进优化分类决策边界。实验结果表明,该算法具有处理类别不平衡数据分类问题的优势。  相似文献   

3.
不平衡数据分类问题是数据挖掘领域的关键挑战之一。过抽样方法是解决不平衡分类问题的一种有效手段。传统过抽样方法没有考虑类内不平衡,为此提出基于改进谱聚类的过抽样方法。该方法首先自动确定聚类簇数,并对少数类样本进行谱聚类,再根据各类内包含样本数与总少数类样本数之比,确定在类内合成的样本数量,最后通过在类内进行过抽样,获得平衡的新数据集。在4个实际数据集上验证了算法的有效性。并在二维合成数据集上对比k均值聚类和改进谱聚类的结果,解释基于两种不同聚类的过抽样算法性能差异的原因。  相似文献   

4.
高性能互联网信息监控系统的研究和实现   总被引:4,自引:1,他引:3  
互联网信息监控系统应用网络多媒体内容采集、分析、融合与表达等技术.解决分类、聚类技术的综合应用与集成,完成针对网络信息的有效提取与分析研判.系统具有数据获取、数据处理、数据挖掘、信息展现和系统管理五大功能,可对各类信息进行高速智能分类、关联分析、聚类分析.实现无监督自学习和海量数据的挖掘功能.  相似文献   

5.
针对文本多分类算法中,由于不平衡数据集产生的小样本分类数据准确率低问题,提出基于轮廓系数动态K-means聚类的文本多分类混合式均分聚类采样算法.在不平衡数据集中针对小样本数据集利用聚类簇进行等比例过采样,针对大样本数据集利用聚类簇进行欠采样.基于微博灾害数据集,设计文本卷积神经网络,对该算法进行实验验证与分析,实验结果表明,该算法能够有效提升文本不平衡数据集的准确率和F1值,较好解决了不平衡文本数据集分类问题.  相似文献   

6.
不平衡分类在现实生活中有着广泛应用,提高不平衡数据的分类精度一直是相关领域中的热门课题。针对已有欠采样方法容易保留多数类噪声样本的问题,提出一种基于聚类融合欠采样的改进欠采样方法。结合聚类融合与孤立森林(Isolation Forest,iForest)方法,筛选、删除异常指数高的多数类噪声样本,有效提高模型中的样本质量,增强欠采样算法的抗噪声能力。在7个UCI和KEEL不平衡数据集上的实验结果表明,该算法在处理不平衡分类问题时,AUC值和F1值均有一定程度的提升。将算法应用在蛋白质定位预测,提升了预测效果。  相似文献   

7.
基于聚类融合的不平衡数据分类方法   总被引:2,自引:0,他引:2  
不平衡数据分类问题目前已成为数据挖掘和机器学习的研究热点。文中提出一类基于聚类融合的不平衡数据分类方法,旨在解决传统分类方法对少数类的识别率较低的问题。该方法通过引入“聚类一致性系数”找出处于少数类边界区域和处于多数类中心区域的样本,并分别使用改进的SMOTE过抽样方法和改进的随机欠抽样方法对训练集的少数类和多数类进行不同的处理,以改善不同类数据的平衡度,为分类算法提供更好的训练平台。通过实验对比8种方法在一些公共数据集上的分类性能,结果表明该方法对少数类和多数类均具有较高的识别率。  相似文献   

8.
《微型机与应用》2015,(17):81-84
针对极端学习机算法对不平衡数据分类问题的处理效果不够理想,提出了一种基于聚类欠采样的极端学习机算法。新算法首先对训练集的负类样本进行聚类生成不同的簇,然后在各簇中按规定的采样率对其进行欠采样,取出的样本组成新的负类数据集,从而使训练集正负类数据个数达到相对平衡,最后训练分类器对测试集进行测试。实验结果表明,新算法有效地降低了数据的不平衡对分类准确率的影响,具有更好的分类性能。  相似文献   

9.
不平衡数据分类是机器学习研究领域中的一个热点问题。针对传统分类算法处理不平衡数据的少数类识别率过低问题,文章提出了一种基于聚类的改进AdaBoost分类算法。算法首先进行基于聚类的欠采样,在多数类样本上进行K均值聚类,之后提取聚类质心,与少数类样本数目一致的聚类质心和所有少数类样本组成新的平衡训练集。为了避免少数类样本数量过少而使训练集过小导致分类精度下降,采用少数过采样技术过采样结合聚类欠采样。然后,借鉴代价敏感学习思想,对AdaBoost算法的基分类器分类误差函数进行改进,赋予不同类别样本非对称错分损失。实验结果表明,算法使模型训练样本具有较高的代表性,在保证总体分类性能的同时提高了少数类的分类精度。  相似文献   

10.
针对分类变量相似度定义存在的不足, 提出一种新的相似度定义. 利用新的相似度定义, 将数据集抽象为无向图, 将聚类过程转化为求无向图连通分量的过程, 进而提出一种基于连通分量的分类变量聚类算法. 为了定量地分析该算法的聚类效果, 针对类别归属已知的数据集, 提出一种新的聚类结果评价指标. 实验结果表明, 所提出的算法具有较高的聚类精度和聚类效率.  相似文献   

11.
针对大数据环境下高维数据聚类速度慢、准确率低的问题,提出了一种面向大数据的快速自动聚类算法(FACABD)。FACABD聚类算法利用谱聚类算法对大数据集进行归一化和列降维,提出了一种新的快速区域进化的粒子群算法(FRE-PSO),并利用该算法进行行降维;然后在降维处理后的数据基础上,引入聚类模糊隶属度基数,自动发现簇的数目,根据类簇数目,采用FRE-PSO算法结合模糊聚类算法快速完成自动聚类。在人工生成数据集和UCI机器学习数据集上的实验结果表明,该算法能够在数据驱动下快速自动聚类,有效地提高了运行速度和精度。  相似文献   

12.
针对网络故障检测中利用先验知识不足和多数谱聚类算法需事先确定聚类数的问题,提出一种新的基于成对约束信息传播与自动确定聚类数相结合的半监督自动谱聚类算法。通过学习一种新的相似性测度函数来满足约束条件,改进NJW聚类算法,对非规范化的Laplacian矩阵特征向量进行自动谱聚类,从而提高聚类性能。在UCI标准数据集和网络实测数据上的实验表明,该算法较相关比对算法聚类准确率更高,可满足网络故障检测的实际需要。  相似文献   

13.
一种基于混合重取样策略的非均衡数据集分类算法   总被引:1,自引:0,他引:1  
非均衡数据是分类中的常见问题,当一类实例远远多于另一类实例,则代表类非均衡,真实世界的分类问题存在很多类别非均衡的情况并得到众多专家学者的重视,非均衡数据的分类问题已成为数据挖掘和模式识别领域中新的研究热点,是对传统分类算法的重大挑战。本文提出了一种新型重取样算法,采用改进的SMOTE算法对少数类数据进行过取样,产生新的少数类样本,使类之间数据量基本均衡,然后再根据SMO算法的特点,提出使用聚类的数据欠取样方法,删除冗余或噪音数据。通过对数据集的过取样和清理之后,一些有用的样本被保留下来,减少了数据集规模,增强支持向量机训练执行的效率。实验结果表明,该方法在保持整体分类性能的情况下可以有效地提高少数类的分类精度。  相似文献   

14.
针对传统的模糊特征检测方法不适应当前应用的问题,提出一种基于数据聚类的网络安全防护态势优化新方法。首先,构建网络安全状态分布模型,采用大数据挖掘方法对网络安全信息进行数据挖掘。其次,利用新型入侵识别检测方法对所设计的网络安全估计状态进行自适应特征提取,提取网络安全状况的特征数据集和处理单元。然后采用模糊C平均数据聚类方法(FCM)提取综合信息。对入侵特征信息流进行分类,根据属性分类结果进行网络安全态势预测,实现安全态势评估。最后基于不同场景下进行实验,结果表明,所提算法适用于网络安全的场景,准确性和鲁棒性都得到了验证。  相似文献   

15.
基于集成聚类的流量分类架构   总被引:1,自引:0,他引:1  
鲁刚  余翔湛  张宏莉  郭荣华 《软件学报》2016,27(11):2870-2883
流量分类是优化网络服务质量的基础与关键.机器学习算法利用数据流统计特征分类流量,对于识别加密私有协议流量具有重要意义.然而,特征偏置和类别不平衡是基于机器学习的流量分类研究所面临的两大挑战.特征偏置是指一些数据流统计特征在提高部分应用识别准确率的同时也降低了另外一部分应用识别的准确率.类别不平衡是指机器学习流量分类器对样本数较少的应用识别的准确率较低.为解决上述问题,提出了基于集成聚类的流量分类架构(traffic classification framework based on ensemble clustering,简称TCFEC).TCFEC由多个基于不同特征子空间聚类的基分类器和一个最优决策部件构成,能够提高流量分类的准确率.具体而言,与传统的机器学习流量分类器相比,TCFEC的平均流准确率最高提升5%,字节准确率最高提升6%.  相似文献   

16.
针对在雪天环境下交通监控检测实时性差和准确率低的问题,提出了融合TDA的深度自编码网络车辆目标检测方法.该方法首先将监控视频帧的图像转化为点云数据;进而通过分割后提取车辆目标的点云数据并利用拓扑数据分析对车辆目标的点云数据进行处理;最后利用量化后的拓扑数据分析得到的车辆目标数据的单纯复形表示作为输入样本,对深度自编码网络进行训练,以栈式自编码结构的最后两层隐藏层作为输出构建车辆目标的特征模型,通过全连接层输入Softmax分类层做分类,使网络可以更加快速精确地对雪天环境下的目标和背景进行分类.实验结果表明,该方法能有效在雪天复杂环境下检测车辆目标并在精度以及速度上均有所提高.  相似文献   

17.
传统的分类算法大都默认所有类别的分类代价一致,导致样本数据非均衡时产生分类性能急剧下降的问题.对于非均衡数据分类问题,结合神经网络与降噪自编码器,提出一种改进的神经网络实现非均衡数据分类算法,在神经网络模型输入层与隐层之间加入一层特征受损层,致使部分冗余特征值丢失,降低数据集的不平衡度,训练模型得到最优参数后进行特征分类得到结果.选取UCI标准数据集的3组非均衡数据集进行实验,结果表明采用该算法对小数据集的分类精度有明显改善,但是数据集较大时,分类效果低于某些分类器.该算法的整体分类效果要优于其他分类器.  相似文献   

18.
引入信息增益的层次聚类算法   总被引:3,自引:0,他引:3  
层次聚类分析是模式识别和数据挖掘领域中一个非常重要的研究课题,具有广泛的应用前景。受决策树学习中选择最佳分类属性的启发,提出一种引入信息增益的层次聚类方法,该方法利用信息增益指导层次聚类中的属性加权,从而提高聚类结果质量。在UCI数据集上的实验结果表明,该算法性能明显优于原层次聚类算法。  相似文献   

19.
姜大庆  周勇  夏士雄 《计算机应用》2012,32(6):1522-1525
为了从多源复杂的网络性能数据中挖掘有用模式以提高网络服务质量,研究了基于本体的网络性能监测数据聚类分析方法。阐述了网络性能监测数据的语义描述方法,提出基于语义和属性数据相融合的网络性能数据相似性度量模型,并给出基于改进k-means的NJW谱聚类算法。通过在UCI数据集和校园网性能监测数据集上的实验表明, 本文所提方法较相关比对方法具有更高的聚类准确性和区分度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号