首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 843 毫秒
1.
网络数据的正确分类对于网络环境的监控和维护具有重要作用。在数据不平衡状态下解决数据分类和处理复杂的特征关系尤为重要,为此提出一种改进SMOTE(synthetic minority over-sampling technique)+GA-XGBoost(genetic algorithm-extreme gradient boosting)的机器学习分类方法。将局部离群因子引入SMOTE插值过程,对少数类样本过采样,并对多数类样本随机欠采样,从而实现样本再平衡;同时,在模型训练过程中为增加模型拟合度,将具有进化迭代优势的遗传算法与XGBoost相结合,解决XGBoost参数众多、特征学习收敛较慢等问题。实验采用UNSW_NB15数据集,选择多层感知机、K近邻、决策树等机器学习算法及SMOTE+XGBoost等不平衡数据训练方法进行试验对比,结果表明该方法具有较好的分类预测准确率(97.40%)及较高的平均召回率(70.2%)和平均F1-score(68.8%)。并在本实验室工业信息安全平台采集的数据进行实验研究,分类准确率为99%,进一步验证了该方法的有效性和可行...  相似文献   

2.
为了在围岩类别不平衡的条件下实现围岩类别有效判断,进而提高隧洞工程施工仿真准确性,基于改进极限梯度提升(XGBoost)不平衡围岩超前分类方法进行隧洞工程施工仿真研究。采用自动邻域确定合成过采样(AND-SMOTE)方法优化围岩类别不平衡性,并采用改进的XGBoost不平衡围岩超前分类模型进行围岩超前分类,进而优选仿真参数,提高仿真结果的准确性,其中,以模型交叉验证平均准确率为目标,采用哈里斯鹰优化(HHO)算法自动优化XGBoost超参数,以提高围岩分类精度。工程应用表明,相比未改进的XGBoost不平衡、KNN、SVC等6个模型,改进的XGBoost不平衡围岩超前分类模型分类精度更高;考虑围岩类别不平衡性后,改进的XGBoost不平衡围岩超前分类模型分类精度提高了8.6%;此外,基于围岩超前分类的隧洞工程施工仿真结果与实际进度的相对偏差相比传统仿真降低了11.3%,更符合工程实际。  相似文献   

3.
不平衡数据广泛存在于现实世界中,严重影响了传统分类器的分类性能。本文提出了随机平衡采样算法(random balance sampling,RBS),并以此为基础提出了随机平衡采样bagging算法(RBSBagging)用于解决不平衡数据集的分类问题。最后,采用6组UCI数据集对提出的分类算法进行验证,结果表明本文提出的RBSBagging算法可以较好地解决不平衡数据集的分类问题。  相似文献   

4.
针对探地雷达(GPR)数据解译依赖于人工经验,存在费时费力和主观偏差的问题,提出了基于极限梯度提升(XGBoost)和GPR时频特征的水泥路面脱空识别方法。采用正演模拟、室内试验和现场试验获得了脱空病害数据源,建立含有标签的脱空GPR数据集;通过重采样方法统一GPR数据采样频率,并对预处理后的GPR数据进行时频域特征提取,建立了包含18个时域和12个频域特征的数据集。以时频域特征为输入,是否存在脱空病害为输出,采用XGBoost算法构建脱空识别模型,并与随机森林(RF)和人工神经网络(ANN)算法进行对比。结果表明,模型的识别准确率排序为XGBoost(98.10%)>ANN(95.10%)>RF(93.17%),XGBoost模型识别精度最高,并能在实际路面上准确定位脱空区域。  相似文献   

5.
针对神经网络分类模型对美国联邦运输统计局(Bureau of Transportation Statistics, BTS)航班数据集中的不均衡数据预测误差较大的问题,采用自适应合成采样算法(adaptive synthetic sampling approach, ADASYN)和合成少数类过采样算法(synthetic minority over-sampling technique, SMOTE)对航班延误类别进行平衡处理,并用随机森林(random forest, RF)模型进行训练和贝叶斯调参。结果表明:与不经过平衡采样的方法比较,该方法在权重平均下的精确率、召回率和F1评分分别提高了19%、8%和16%;分类预测准确率提升8.03%,模型拟合指数AUC(area under curve)提升5.4%。同时,采用多特征相融合的图神经网络模型Graph WaveNet对航班平均延误时间进行预测。实验结果表明:与单特征模型比较,该模型平均绝对误差和均方根误差分别降低了16%和12.45%。这些方法和结果对研究航班延误分类和预测算法研究具有参考价值。  相似文献   

6.
为解决癌症基因组图谱中DNA甲基化数据不平衡导致假阴率上升的问题,提出一种基于TCGA数据库不平衡数据的改进分类方法.使用合成少数类过采样技术和Tomek Link算法进行混合采样,解决数据不平衡问题.在此基础上,将经特征选择后的训练集数据输入改进模型进行训练、学习及分类.基于TCGA数据库6种癌症DNA甲基化数据的实验结果表明:改进方法对少数类样本的分类性能有显著提高,对多数类样本的分类性能也有一定的提升.  相似文献   

7.
根据生产制造企业网络的特点,在智能故障诊断中,提出了一种基于分类采样的随机森林算法(CSRF).该算法结合随机森林算法基本原理,使用分类采样技术生成所需的训练样本,很大程度上解决了数据不均衡带来的问题.该算法为随机森林的每一棵分类回归树(CART)生成相应的训练数据,缓解了采样偏置,提高了算法的性能.实验表明:该算法与随机森林算法相比在准确率上提升了约4%,有效降低了故障诊断的风险.  相似文献   

8.
采用少类样本合成过采样技术(SMOTE)与二叉树多类支持向量机(BTSVM)相结合的入侵检测算法来解决实际应用中经常遇到的类别不平衡的分类问题.该方法首先对不平衡类别的训练集使用BTSVM分类,然后对求出各分类器中的支持向量使用SMOTE方法进行向上采样,最后用不平衡类别的测试集在新的分类模型中进行测试.实验结果表明本算法能够有效地提高不平衡数据集的分类性能.  相似文献   

9.
数据流广泛应用于现实世界的多个领域,但是不平衡数据流的存在严重影响了传统数据流分类器的性能.针对不平衡数据流问题,提出了随机平衡采样算法(RBS)处理数据流的不平衡问题,并以RBS算法为基础提出了随机平衡采样数据流集成算法(RBSSEA)旨在解决不平衡数据流的分类问题.最后,分别采用合成和真实数据集对RBSSEA算法进行验证,实验结果证明RBSSEA算法在解决不平衡数据流分类问题具有一定的优势.  相似文献   

10.
针对目前不平衡大数据分类算法分类效果较差的问题,提出基于随机森林模型的不平衡大数据分类算法。首先采用SVM(Support Vector Machine)支持向量机算法对不平衡大数据进行信息过滤,然后利用反k近邻法检测并消除离群点,通过增量主成分分析法去掉不平衡大数据中协方差矩阵存在的奇异性,并依据熵值法对其展开权重解析,进而提取不平衡大数据特征信息。将CART(Classification and Regression Trees)决策树当作不平衡大数据的基分类器,进而构建随机森林决策树分类器,最后将提取的不平衡大数据特征信息输入分类器中,实现不平衡大数据分类。实验结果表明,该算法对不平衡大数据的采样效果较好,并且分类精准度、稳定性和性能都较高。  相似文献   

11.
Nowadays aviation accidents have become one of the major causes of severe injuries and fatalities around the world. This attracts the research community to look into aviation safety by applying data analysis techniques based on an advanced machine learning algorithm. An ensemble classification model based on Aviation Safety Reporting System(ASRS) has been proposed to analyze aviation safety targeting the people injured in the system.The ensemble classification model shall contain two modules: the data-driven module consisting of data cleaning, feature selection,and imbalanced data division and reorganization, and the modeldriven module stacked by Random Forest(RF), XGBoost(XGB),and Light Gradient Boosting Machine(LGBM) separately. The results indicate that the ensemble model could solve the data imbalance while vastly improving accuracy. LGBM illustrates higher accuracy and faster run in the analysis of a single model of the ASRS-based imbalanced data, while the ensemble model has the best performance in classification at the same time. The ensemble model proposed for imbalanced data classification can provide a certain reference for similar data processing while improving the safety of civil aviation.  相似文献   

12.
针对网络个人信用有效评分缺失的问题,分析了互联网信贷个人信用评估数据的特点,选用支持向量机、随机森林和XGBoost分别建立了信用预测模型,并对3种单一模型进行了投票加权融合. 基于互联网信贷数据的特点,在特征工程中对样本集特征进行了离散化、归一化和特征组合等处理. 为增加对比,对实验数据集进行了FICO评估核心Logistic回归分析. 实验结果表明:3种单一算法性能均优于Logistic回归,XGBoost表现优于支持向量机和随机森林模型,预测相对准确;投票融合模型的表现比单一模型更好,模型分辨能力更优秀,预测精度更高,更适用于互联网信贷个人信用评估.  相似文献   

13.
针对传统的协同过滤推荐算法中评分矩阵过于稀疏和算法准确度不高的问题,提出一种融合矩阵分解和XGBoost算法的推荐算法(MFXGB,Matrix Factorization XGBoost),其特点是利用SVD++算法(SVD,Singular Value Decomposition)对用户项目评分矩阵进行填充,避免过多的缺失值对算法精确度的影响,再利用XGBoost(eXtreme Gradient Boosting)算法训练有监督的模型用于预测用户评分.为了克服计算成本过高的困难,提出利用K-均值聚类方法进行特征提取用于训练XGBoost模型.将MFXGB算法应用于MovieLens数据集进行实验分析,结果显示,MFXGB算法的推荐精确度比传统的3种方法分别提高了8.91%、10.18%和11.79%,效果明显优于传统的推荐算法.  相似文献   

14.
针对目前高炉炼铁模型精度不高问题,提出建立高炉生产过程中精确的多目标优化模型.首先对高炉的海量数据进行了数据预处理,其次采用支持向量机、随机森林、梯度提升树、XGBoost、LightGBM、人工神经网络6种机器学习算法对高炉焦比、K值进行了预测,并采用特征工程和超参调优对机器学习预测进行了优化,最后采用新的集成学习方法进行预测.预测结果不仅精准度高而且具有很好的鲁棒性.在机器学习的基础之上,采用NSGA-Ⅱ遗传算法对高炉参数进行了多目标优化分析,得到了Pareto最优解,高炉操作者可以根据该多目标优化结果针对不同的需求选择相应的控制参数.  相似文献   

15.
地震属性可以用来解释与预测地质构造,因此地震属性被广泛地运用在煤矿地质构造的识别。但一般情况下,勘探区中无构造区域与有构造区域分布不均衡,无构造区域远远多于有构造区域。机器学习中,传统的分类器更习惯于偏向多数类,这使得如何有效地识别出构造体成为一个难题。为了解决这一问题,提出了一种针对不平衡数据集的改进极限梯度提升(extreme gradient boosting, XGBoost)构造识别方法。该方法的原理是,首先,以基于三维地震勘探成果数据体提取的12种地震属性为数据集特征,以实际揭露后的地质构造为数据集标签构建多属性数据集,然后以特征对标签的相关性为标准,过滤掉冗余的特征;其次,将边界样本分类算法(boundary sample classification, BSC)与合成少数类过采样技术(synthetic minority over-sampling technique, SMOTE)相结合形成BSC-SMOTE算法。用BSC-SMOTE算法对原始数据集进行平衡,再利用平衡后的数据集训练XGBoost分类器,并用贝叶斯优化(Bayesian optimization, B...  相似文献   

16.
针对短时交通流具有随机性和不确定性等特征,本文提出一种基于小波分析和集成学习的组合预测模型。首先对原始交通流数据的平均行程时间序列应用Mallat算法进行多尺度小波分解,且对各尺度上分量进行单支重构;然后对于各重构的单支序列分别使用极端梯度提升模型(extreme gradient boosting, XGBoost)进行预测得到多个子模型,同时利用贝叶斯优化算法进行子模型的最佳参数选择;最后把所有子模型的预测值代数求和,得到总体交通流的预测结果。采用美国纽约布鲁克林地区某路段实际交通流数据进行预测,并对预测结果与其他模型进行比较分析。研究结果表明:小波分析和XGBoost组合模型预测效果优于传统线性模型及单一XGBoost模型,从而更好地为交通管理提供指导意见。  相似文献   

17.
以湖北洪湖湿地自然保护区为研究区,采用随机森林算法对研究区内湿地信息提取.以Sentinel-2A遥感影像为数据源提取光谱特征、植被指数、水体指数、红边指数、纹理特征等特征变量,在随机森林算法框架下,对不同特征变量进行特征重要性评估,比较分类后精度并对特征组合进行优选.将基于随机森林算法的分类精度与传统的基于像元的支持向量机分类方法和最大似然分类方法的分类精度相比较,并通过双比例Z检验比较各算法中正确分类像元的比例统计各分类算法之间的分布差异.结果表明: 1) 特征个数为13时,分类精度达到最大,随着特征个数的增多,分类精度呈现波动减小的趋势; 2) 特征变量中蓝光波段重要性得分最高,达到2.85,可见光(B2、B3)与红边指数(IRECI、MCARI)重要性排名靠前,对于提取湖泊湿地信息具有重要意义; 3) 基于特征优选的随机森林方法分类精度优于支持向量机和最大似然法分类后的精度,其总体精度分别高出6.02%和7.57%;经检验, χ2分别达到25.891和38.895,具有显著差异,表明基于特征优选的随机森林算法分类对湿地信息提取发挥重要作用。  相似文献   

18.
高血压是一种常见的慢性病,若能早发现、早采取措施可降低其引发并发症的风险。尽管高血压的产生与发展与诸多因素有关,但饮食被公认为影响高血压的主要因素之一。机器学习模型可以对疾病进行有效预测,并提供辅助治疗。笔者提出一种基于XGBoost的通过分析营养成分预测高血压的方案,该方案由数据转换、特征选择、数据清理与标准化、模型搭建、分类与评估5部分组成。实验结果表明,XGBoost在高血压预测中获得了0.859的F1分数且准确率超过85%,高于随机森林、支持向量机与人工神经网络。此外通过分析不同营养成分对高血压预测的影响因素,获得了影响高血压的前10个营养特征,大部分与医学结论相同,验证了模型的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号