首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
传统的分类算法大多假设数据集是均衡的,追求整体的分类精度.而实际数据集经常是不均衡的,因此传统的分类算法在处理实际数据集时容易导致少数类样本有较高的分类错误率.现有针对不均衡数据集改进的分类方法主要有两类:一类是进行数据层面的改进,用过采样或欠采样的方法增加少数类数据或减少多数类数据;另一个是进行算法层面的改进.本文在原有的基于聚类的欠采样方法和集成学习方法的基础上,采用两种方法相结合的思想,对不均衡数据进行分类.即先在数据处理阶段采用基于聚类的欠采样方法形成均衡数据集,然后用AdaBoost集成算法对新的数据集进行分类训练,并在算法集成过程中引用权重来区分少数类数据和多数类数据对计算集成学习错误率的贡献,进而使算法更关注少数数据类,提高少数类数据的分类精度.  相似文献   

2.
郑嘉颖  王杰  付攀  李桢  边桂彬 《科学技术与工程》2023,23(29):12620-12627
为解决样本分布不均衡的连续动作序列分割识别精度不高的问题,提出一种基于深度学习的新型连续动作分割与识别模型,该模型能够从多维时间序列中提取更丰富全面的动作特征。使用基于双向长短时记忆网络(bidirectional long short-term memory networks, Bi-LSTM)的特征提取单元提取数据特征,利用基于注意力机制的特征融合模块融合多种模态的特征,并利用全连接层构建的解码器完成最终分类。实验中使用多种传感器采集了眼科手术中连续环形撕囊操作的连续动作多模态数据对算法进行验证实验。实验结果显示,与使用长短时记忆网络(LSTM)和门控循环单元(gated recurrent unit, GRU)的数据层融合算法以及4种特征层融合策略相比,所提出的模型具有更好的性能。对于数据量最小的动作类别,该算法的识别精度提高了14%以上,全局F1分数提升8%以上,整体识别准确度达到90.72%。这些结果表明,该模型能够有效解决样本分布不均衡的连续动作序列分割识别精度问题,并为多模态连续动作分割与样本不均衡问题的解决提供了新的思路和方法。  相似文献   

3.
一种基于投票的不平衡数据分类集成算法   总被引:1,自引:1,他引:0  
不平衡数据分类是机器学习的研究热点之一。传统的机器学习分类算法通常假定用于训练的数据集是平衡的,不能直接应用于不平衡数据分类。利用朴素贝叶斯和决策树对数据不平衡的敏感度不同,提出一种基于投票的不平衡数据分类集成算法。基分类器选择NB和C4.5,通过投票平均方法进行分类决策;并选择公开的不平衡数据集进行实验验证。实验结果表明,该算法能有效提高不平衡数据的分类性能,特别是对正类(少数类)的误报率较低,具有良好的鲁棒性。  相似文献   

4.
为了在围岩类别不平衡的条件下实现围岩类别有效判断,进而提高隧洞工程施工仿真准确性,基于改进极限梯度提升(XGBoost)不平衡围岩超前分类方法进行隧洞工程施工仿真研究。采用自动邻域确定合成过采样(AND-SMOTE)方法优化围岩类别不平衡性,并采用改进的XGBoost不平衡围岩超前分类模型进行围岩超前分类,进而优选仿真参数,提高仿真结果的准确性,其中,以模型交叉验证平均准确率为目标,采用哈里斯鹰优化(HHO)算法自动优化XGBoost超参数,以提高围岩分类精度。工程应用表明,相比未改进的XGBoost不平衡、KNN、SVC等6个模型,改进的XGBoost不平衡围岩超前分类模型分类精度更高;考虑围岩类别不平衡性后,改进的XGBoost不平衡围岩超前分类模型分类精度提高了8.6%;此外,基于围岩超前分类的隧洞工程施工仿真结果与实际进度的相对偏差相比传统仿真降低了11.3%,更符合工程实际。  相似文献   

5.
以中文情绪语料库(Ren-CECps)为基础,重点研究了句子级情绪识别方法.比较了不同特征以及不同机器学习分类方法(NB,SVM,ME)对情绪识别的影响.此外,针对情绪文本和非情绪文本在语料中的分布非常不平衡问题,通过集成学习的算法来实现不平衡情绪识别,用以提高情绪识别的整体性能.实验结果表明:使用基于样本的集成学习方法能够有效解决不平衡问题,明显提高情绪识别的分类性能.  相似文献   

6.
利用车辆传动系统试验数据对车辆进行故障诊断和性能评价可以实现车辆故障预警,提高可靠性,从而提高车辆性能,但测试数据有数据量大、不平衡、维度高、噪声多的特征,使得传统数据分析算法会产生次优的分类模型.针对上述问题,提出了一种改进的不平衡数据分类支持向量机算法.该算法赋予各样本不同的权值,用马氏距离改进模糊隶属度的设计以排除变量相关性干扰,同时可以输出正常状态下的故障概率.实验结果表明,该算法能够有效提高故障诊断的准确性,概率输出模型可用于故障预警和性能分析.   相似文献   

7.
具有不平衡类分布的数据集在许多实际应用中是很常见的,但由于类分布不平衡,给那些已有的分类算法带来了很多问题。一种为处理不平衡类问题而开发的基于决策树和人工神经网络的有效组合方法被讨论。它基于数据抽样的方法构建组合分类器,并利用ROC曲线(Receiver Operating Characteristic curve)作为评价挖掘性能的分析工具,最后在PAKDD2007竞赛活动提供的实际数据上进行了有效性验证。  相似文献   

8.
针对不平衡难分类条件下空中目标群组意图快速识别的难题,提出一种基于滑动窗口估计的时空卷积自注意力网络模型的意图识别方法。该方法根据特征数据的特点对其使用滑动窗口的预先处理,通过时空卷积网络快速提取多维时序特征数据的流信息;然后采用自注意力机制捕捉每个特征数据的关键特征并优化权重。仿真结果表明该方法有效提升了不平衡样本中难分类样本意图识别的训练效率和分类的准确率。  相似文献   

9.
万宇  齐金平  张儒  闫森 《科学技术与工程》2021,21(28):12080-12087
基于机器学习的煤与瓦斯分类预测方法中,各突出案例的数量不平衡会导致预测准确率降低。为了提升煤与瓦斯突出预测模型的准确率及稳定性,构建了过采样算法和支持向量机(support vector machine, SVM)组合的分类预测模型。首先,通过聚类分析将突出样本分成多个簇,在每个簇中对可能的噪声点按概率去除;然后通过过采样算法合成新样本,以减少样本数量不均衡对模型训练的影响;最后,用支持向量机模型结合粒子群算法对新数据集进行训练调优。实验结果表明:提出的模型在G-mean、曲线下面积(area under curve, AUC)值上均高于传统的分类模型,具有更强的算法鲁棒性,并且随着突出样本数量的减少,其优势更加明显。  相似文献   

10.
随机森林在分类不平衡数据时,容易偏向多数类而忽略少数类,可以将代价敏感用于分类器的训练,但在传统代价敏感随机森林算法中,代价函数没有考虑样本集实际分布与特征权重,且在随机森林投票阶段,没有考虑基分类器的性能差异。本文提出一种改进的代价敏感随机森林算法ICSRF,该算法首先根据不平衡数据集的实际分布构造代价函数,并将权重距离引入代价函数,然后根据基分类器的性能采取权重投票,提高分类准确率。实验结果表明,ICSRF算法能有效提高少数类的分类性能,可以较好的处理不平衡数据。  相似文献   

11.
数据流广泛应用于现实世界的多个领域,但是不平衡数据流的存在严重影响了传统数据流分类器的性能.针对不平衡数据流问题,提出了随机平衡采样算法(RBS)处理数据流的不平衡问题,并以RBS算法为基础提出了随机平衡采样数据流集成算法(RBSSEA)旨在解决不平衡数据流的分类问题.最后,分别采用合成和真实数据集对RBSSEA算法进行验证,实验结果证明RBSSEA算法在解决不平衡数据流分类问题具有一定的优势.  相似文献   

12.
针对人工检测桥梁表面缺陷存在精度低、速度慢和漏检率高等问题,该文提出了基于深度卷积生成式对抗网络(deep convolutional generative adversarial networks,DCGAN)和改进YOLOv5s的桥梁表面缺陷检测识别模型.首先,通过DCGAN网络对自主采集的桥梁表面缺陷图像进行数据增强,建立每类缺陷样本数量较为均衡的数据集; 其次,在YOLOv5s模型基础上嵌入CBAM注意力机制模块,使模型将注意力集中于缺陷区域,从而提升图像分类的准确率; 最后,为验证所提方法的适用性,将包含4类桥梁表面缺陷的数据集进行训练与测试.实验结果表明:该文提出的模型在桥梁表面缺陷检测上的准确率为92%,相比其他深度学习模型具有更高的检测精度和鲁棒性.  相似文献   

13.
针对单细胞转录组数据上细胞分类准确率较低的问题, 提出一种新的细胞集成分类算法. 该方法能充分利用不同分类模型的优点, 降低单细胞数据的分类误差. 分别在慢性粒细胞白血病单细胞测序数据和三阴性乳腺癌单细胞测序数据两个不同数据集上进行实验验证, 实验结果表明, 由集成算法划分的细胞分类更清晰准确, 验证了该算法的有效性.  相似文献   

14.
针对网络安全态势要素获取中大规模复杂攻击样本分类困难的问题,提出一种基于条件变分自编码网络的安全态势要素分类架构。该架构分为编码网络和生成网络两部分,均采用深度神经网络作为其基础框架。编码网络用于对高维数据进行降维,提取其隐含特征;生成网络用于对降维后的样本进行重构,生成新的样本。在生成网络中引入混合密度模型优化其特征提取能力,提高重构数据的准确性。采用训练数据对该架构进行训练,训练后的编码网络作为分类器,识别样本类型;生成网络生成指定类别的样本数据,以平衡复杂样本中各类攻击样本的数量,提高分类精度。仿真结果表明,与其他对比模型相比,所提分类架构具有较好的降维效果和较高的态势要素分类精度。  相似文献   

15.
自然场景下的行人属性识别是一个具有挑战性的研究课题,存在行人属性类别多样、行人视角和分辨率多样、样本不平衡等诸多难点,致使难以有效建模。为克服上述难点,本文提出基于多任务压缩激发(Squeeze-and-Excitation, SE)网络的行人属性识别方法,通过多任务卷积神经网络、联合压缩激发模块与残差模块、焦点损失函数三方面改进,研究了自然场景下行人属性识别效果提升的不同方式。结果表明,本文的方法相比基线模型在Market-1501数据集和DukeMTMC-reID数据集上的准确率和效率均有提升。可见,本文的方法具有普遍有效性。  相似文献   

16.
孙坚  杨宇兵 《科学技术与工程》2024,24(11):4501-4509
针对风机叶片结冰检测中现有集成方法不能充分发挥不同个体分类器优势的问题,提出了一种基于特征提取和最优加权集成学习的叶片结冰检测模型。首先,用堆叠降噪自动编码器提取结冰关联特征后,考虑不同单一分类器在二分类应用中的表现及其差异,选择随机森林、极限梯度提升树、轻量梯度提升机、K-近邻算法作为个体学习器,并用贝叶斯算法对其进行超参数优化。然后提出基于序列二次规划的最优加权集成策略对叶片状态进行判别。最后利用金风科技提供的15号和21号风机的历史数据进行了仿真实验,结果表明:所提出的检测模型与个体学习器及其他集成模型相比多项指标均有所提升,准确度达到了99.2%,在结冰检测方面具有一定的有效性。  相似文献   

17.
The Extreme Learning Machine(ELM) is an effective learning algorithm for a Single-Layer Feedforward Network(SLFN). It performs well in managing some problems due to its fast learning speed. However, in practical applications, its performance might be affected by the noise in the training data. To tackle the noise issue, we propose a novel heterogeneous ensemble of ELMs in this article. Specifically, the correntropy is used to achieve insensitive performance to outliers, while implementing Negative Correlation Learning(NCL) to enhance diversity among the ensemble. The proposed Heterogeneous Ensemble of ELMs(HE2 LM) for classification has different ELM algorithms including the Regularized ELM(RELM), the Kernel ELM(KELM), and the L2-norm-optimized ELM(ELML2). The ensemble is constructed by training a randomly selected ELM classifier on a subset of the training data selected through random resampling. Then, the class label of unseen data is predicted using a maximum weighted sum approach. After splitting the training data into subsets, the proposed HE2 LM is tested through classification and regression tasks on real-world benchmark datasets and synthetic datasets. Hence, the simulation results show that compared with other algorithms, our proposed method can achieve higher prediction accuracy, better generalization, and less sensitivity to outliers.  相似文献   

18.
针对目前大多数中医药数据挖掘研究中使用单一且基础的算法而出现的问题,设计并实现一种通过策略模式智能优选中医药数据挖掘方法的平台(TCM data strategy model analysis platform, TCMDP)。根据策略模式的思想,集成以下4个数据挖掘模块,统计学分析模块可对药物、药物种类、四气五味归经和药物功效进行统计学分析;关联规则挖掘模块可以分析处方中的药物关联性;聚类分析模块可获取药物组合得出聚类新方,通过分析结果来探讨肺癌处方的配伍规律;证型分类模块以电子病历的中医症状和四诊信息作为输入,将相关证型作为输出,构建证型分类模型。综上实现了基于策略模式的中医药数据智能挖掘平台,并运用该平台对中医临床治疗肺癌的中药处方进行用药规律和证型分类研究。结果表明:以痰瘀互结证肺癌病例为例,关联规则挖掘模块中WD-Get Rule算法的运行时间最少仅为0.038 s。聚类分析模块中CMC-DD算法分析时间略长但精确率高达87%。肺癌证型分类分析模块中PSO-ELM运行时间短为88.98 s,且模型平均精确率达88.44%,具有一定的临床参考价值。而本平台所采用的改进算法均优于...  相似文献   

19.
随着不断扩大的旅客运输量和航线网络规模,采用飞行计划结合空中交通管制的空中管理办法已经不能与当前民航需求和空中交通流量相匹配,直接影响到航班正常率和运行安全。为解决这一问题,国际民航组织(International Civil Aviation Organization, ICAO)提出了基于航迹运行(trajectory based operation, TBO)的下一代空中交通管理运行理念,中国民航也提出了智慧民航的建设方案和目标。其中4D航迹是TBO运行的核心组成部分,也是中国建设智慧民航的重要技术指标,其可以对航空器的运行进行精确地管理和控制。因此,提高4D航迹预测的准确性成为了目前急需解决的核心问题。面向航空器的飞行任务实施阶段,从4D航迹预测和冲突检测两个问题进行了研究。在航迹预测方面,采用了基于卷积神经网络-双向门控循环单元(convolutional neural networks-bidirectional gated recurrent unit, CNN-BiGRU)的模型对航迹进行高精度预测;在冲突检测方面,引入了航迹距离检测函数以检验预测模型生成的两条航迹是否...  相似文献   

20.
移动通信技术的飞速发展在提升用户通信体验的同时也为不良信息的散布提供了便利,针对如何在大量数据中进行不良内容的识别与过滤问题,提出一种基于深度模型集成的不良图像分类模型(EDM),通过集成多个结构不同、信息互补的深度模型来最优地区分分布差异较大的不良图像.为了验证本方法的有效性,建立一个真实移动通信场景下的不良图像数据集,并在此数据集上与基于传统支持向量机(SVM)的不良图像分类模型、基于深度卷积神经网络的Alexnet、VGG与Googlenet分类模型做对比.实验结果表明:本文所提深度模型集成方法在不良图像分类性能上明显优于其他模型,分类精度、精确率和召回率分别达到94%、84%和98%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号