首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
针对传统房价评估方法中存在的数据源单一、过分依赖主观经验、考虑因素理想化等问题,提出一种基于多源数据和集成学习的智能评估方法。首先,从多源数据中构造特征集,并利用Pearson相关系数与序列前向选择法提取最优特征子集;然后,基于构造的特征,以Bagging集成策略作为结合方法集成多个轻量级梯度提升机(LightGBM),并利用贝叶斯优化算法对模型进行优化;最后,将该方法应用于房价评估问题,实现房价的智能评估。在真实的房价数据集上进行的实验表明,相较于支持向量机(SVM)、随机森林等传统模型,引入集成学习和贝叶斯优化的新模型的评估精度提升了3.15%,并且百分误差在10%以内的评估结果占比84.09%。说明所提模型能够很好地应用于房价评估领域,得到的评估结果更准确。  相似文献   

2.
针对传统单个分类器在不平衡数据上分类效果有限的问题,基于对抗生成网络(GAN)和集成学习方法,提出一种新的针对二类不平衡数据集的分类方法——对抗生成网络-自适应增强-决策树(GAN-AdaBoost-DT)算法。首先,利用GAN训练得到生成模型,生成模型生成少数类样本,降低数据的不平衡性;其次,将生成的少数类样本代入自适应增强(AdaBoost)模型框架,更改权重,改进AdaBoost模型,提升以决策树(DT)为基分类器的AdaBoost模型的分类性能。使用受测者工作特征曲线下面积(AUC)作为分类评价指标,在信用卡诈骗数据集上的实验分析表明,该算法与合成少数类样本集成学习相比,准确率提高了4.5%,受测者工作特征曲线下面积提高了6.5%;对比改进的合成少数类样本集成学习,准确率提高了4.9%,AUC值提高了5.9%;对比随机欠采样集成学习,准确率提高了4.5%,受测者工作特征曲线下面积提高了5.4%。在UCI和KEEL的其他数据集上的实验结果表明,该算法在不平衡二分类问题上能提高总体的准确率,优化分类器性能。  相似文献   

3.
投资组合问题是量化交易领域中的热点问题。针对现有基于深度强化学习的投资组合模型无法实现自适应的交易策略和有效利用有监督信息的缺陷,提出一种集成的深度强化学习投资组合模型(IDRLPM)。首先,采用多智能体方法构造多个基智能体并设计不同交易风格的奖励函数,以表示不同的交易策略;其次,利用集成学习方法对基智能体的策略网络进行特征融合,得到自适应市场环境的集成智能体;然后,在集成智能体中嵌入基于卷积块注意力模块(CBAM)的趋势预测网络,趋势预测网络输出引导集成策略网络自适应选择交易比重;最后,在有监督深度学习和强化学习交替迭代训练下,IDRLPM有效利用训练数据中的监督信息以增强模型盈利能力。在上证50的成分股和中证500的成分股数据集中,IDRLPM的夏普比率(SR)达到了1.87和1.88,累计收益(CR)达到了2.02和1.34;相较于集合式的深度强化学习(EDRL)交易模型,SR提高了105%和55%,CR提高了124%和79%。实验结果表明,IDRLPM能够有效解决投资组合问题。  相似文献   

4.
目前客户流失预测任务中常用的模型集成方法采用传统机器学习模型作为基学习器。而传统机器学习模型相比于深度学习模型,存在无法对时序数据进行有效建模、特征工程对模型效果影响较大等缺点。针对这些问题,提出基于LSTM的模型集成方法。采用LSTM作为基学习器进行时序数据建模;改进snapshot模型集成方法,增加样本权重调整方法,在训练单个LSTM模型的过程中得到多个具有不同权值的模型;利用得到的多个模型构造新数据集,在新数据集上训练逻辑回归模型。实验结果表明,该方法相比于单模型LSTM,可以在仅花费其1.8倍训练时间的前提下,将查准率和PR-AUC分别提升4.67%和3.74%,显著提高了客户流失预测效果。  相似文献   

5.
特征提取是模式识别中的关键问题之一,对提高系统分类性能具有重要意义。常用的特征提取方法包括主成分分析、线性鉴别分析、典型相关分析等等,多重集典型相关分析是基于传统的典型相关分析基础上发展而来,利用多组(大于2)特征数据集进行特征提取。基于集成学习的多重集典型相关分析的方法(EMCCA),是通过将样本化分成若干小的样本,形成若干个特征数据集,利用多重集典型相关分析对这组数据集做特征提取,并结合集成学习对样本进行分类。在UCI上的多特征手写体数据集上的实验结果表明:相比于传统的PCA,CCA特征提取方法,多重集典型相关分析具有更优的特征提取效果,结合集成学习后具有更好的分类效果。  相似文献   

6.
集成学习算法的差异性及性能比较   总被引:1,自引:0,他引:1       下载免费PDF全文
从差异性出发,研究了基于特征集技术(通过一定的策略选取不同特征集以组成训练集)与数据技术(通过取样技术选取不同的训练集)的集成学习算法,分析了两种集成学习算法产生差异性的方法。针对决策树与神经网络模型,在标准数据集中对集成学习算法的性能进行实验研究,结果表明集成学习算法的性能依赖于数据集的特性以及产生差异性的方法等因素。从总体性能考虑,基于数据的集成学习算法在大多数数据集上优于基于特征集的集成学习算法。  相似文献   

7.
文章提出了一种基于混合模型的电力用户信用评估方案。考虑到数据维度高、属性关系复杂,提出基于改进的自适应弹性网络模型从大量电力信用数据中提取重要特征;为缓解数据中存在的噪声问题,提出利用自适应孤立森林方法构建噪声增强数据集,提升模型鲁棒性;基于双层集成模型对ELM模型分类器进行组合优化,最大化分类器之间的多样性。  相似文献   

8.
为了点对点自动学习脑电信号(Electroencephalogram,EEG)空间与时间维度上的情感相关特征,提高脑电信号情感识别的准确率,基于DEAP数据集中EEG信号的时域、频域特征及其组合特征,提出一种基于卷积神经网络(Convolution Neural Network,CNN)模型的EEG情感特征学习与分类算法。采用包括集成决策树、支持向量机、线性判别分析和贝叶斯线性判别分析算法在内的浅层机器学习模型与CNN深度学习模型对DEAP数据集进行效价和唤醒度两个维度上的情感分类实验。实验结果表明,在效价和唤醒度两个维度上,深度CNN模型在时域和频域组合特征上均取得了目前最好的两类识别性能,在效价维度上比最佳的传统分类器集成决策树模型提高了3.58%,在唤醒度上比集成决策树模型的最好性能提高了3.29%。  相似文献   

9.
针对瓦斯灾害危险性预测中预测性能低的问题,对一种基于矿井内瓦斯浓度与环境因素相关性分析的瓦斯灾害选择集成预测方法进行了研究。首先,分析实验数据中样本属性与瓦斯浓度的相关性,并根据相关性分析结果进行属性约简得到新的数据集;其次,训练基学习器并应用优化集成前序选择方法建立选择集成回归学习模型;最后,将模型应用于瓦斯灾害预测。实验结果表明,基于相关性分析的选择集成回归学习模型对瓦斯灾害危险性的识别率比未进行相关性分析的四个基学习器平均提高了24%,比未进行相关性分析的选择集成回归学习模型提高了7.6%。  相似文献   

10.
田臣  周丽娟 《计算机应用》2019,39(6):1707-1712
针对信用评估中最为常见的不均衡数据集问题以及单个分类器在不平衡数据上分类效果有限的问题,提出了一种基于带多数类权重的少数类过采样技术和随机森林(MWMOTE-RF)结合的信用评估方法。首先,在数据预处理过程中利用MWMOTE技术增加少数类别样本的样本数;然后,在预处理后的较平衡的新数据集上利用监督式机器学习算法中的随机森林算法对数据进行分类预测。使用受测者工作特征曲线下面积(AUC)作为分类评价指标,在UCI机器学习数据库中的德国信用卡数据集和某公司的汽车违约贷款数据集上的仿真实验表明,在相同数据集上,MWMOTE-RF方法与随机森林方法和朴素贝叶斯方法相比,AUC值分别提高了18%和20%。与此同时,随机森林方法分别与合成少数类过采样技术(SMOTE)方法和自适应综合过采样(ADASYN)方法结合,MWMOTE-RF方法与它们相比,AUC值分别提高了1.47%和2.34%,从而验证了所提方法的有效性及其对分类器性能的优化。  相似文献   

11.
针对支持向量机(SVM)、长短期记忆(LSTM)网络等智能算法在股市波动预测过程中股票评价特征选择困难及时序关系维度特征缺失的问题,为能够准确预测股票波动、有效防范金融市场风险,提出了一种基于改进遗传算法(IGA)和图神经网络(GNN)的股市波动预测方法——IGA-GNN。首先,利用相邻交易日间的时序关系构建股市交易指标图数据;其次,通过评价指标特性优化交叉、变异概率来改进遗传算法(GA),从而实现节点特征选择;然后,建立图数据的边与节点特征的权重矩阵;最后,运用GNN进行图数据节点的聚合与分类,实现了股市波动预测。在实验阶段,所研究的股票总评价指标数为130个,其中IGA在GNN方法下提取的有效评价指标87个,使指标数量降低了33.08%。应用所提IGA在智能算法中进行特征提取,得到的算法与未进行特征提取的智能算法相比,预测准确率整体提升了7.38个百分点;而与应用传统GA进行智能算法的特征提取相比,应用所提IGA进行智能算法的特征提取的总训练时间缩短了17.97%。其中,IGA-GNN方法的预测准确率最高,相较未进行特征提取的GNN方法的预测准确率整体提高了19.62个百分点;而该方法与用传统GA进行特征提取的GNN方法相比,训练时间平均缩短了15.97%。实验结果表明,所提方法可对股票特征进行有效提取,预测效果较好。  相似文献   

12.
为扩大电力市场交易量与下调市场电价,需要提升电煤价格预测的可靠性与准确性.为此本文提出了多智能集成学习的中短期电煤价格预测方法.首先,阐述了Stacking集成学习的结构和原理;然后,介绍了数种智能电煤价格的预测模型,并通过算例证明了不同单智能模型对数据的感知能力存在差异性;进而,通过比较单智能模型预测结果的差异值均差,筛选出预测性能优异并且数据感知角度差异性明显的智能模型组.为了充分发挥个模型感知能力差异性的优势,利用Stacking融合各模型,得到一种适用于电煤价格滚动预测的集成模型.最后,通过滚动预测2019至2020年的电煤价格,对集成模型的有效性进行验证.  相似文献   

13.
针对传统数据处理技术存在模型过时、泛化能力减弱以及并未考虑多源数据安全性的问题,提出一种面向区块链的在线联邦增量学习算法。该算法将集成学习与增量学习应用到联邦学习的框架下,使用stacking集成算法来整合多方本地模型,且将模型训练阶段的模型参数上传至区块链并快速同步,使得在建立的全局模型准确率仅下降1%的情况下,模型在训练阶段与存储阶段的安全性均得到了提升,降低了数据存储与模型参数传输的成本,同时也降低了因模型梯度更新造成数据泄漏的风险。实验结果表明,在公开的数据集上进行训练,各时间段内模型的准确度均在91.5%以上,且方差均低于10-5;与传统整合数据训练模型相比,该模型在准确率上略有下降,但能够在保证模型准确率的同时提高数据与模型的安全性。  相似文献   

14.
Credit scoring is an effective tool for banks to properly guide decision profitably on granting loans. Ensemble methods, which according to their structures can be divided into parallel and sequential ensembles, have been recently developed in the credit scoring domain. These methods have proven their superiority in discriminating borrowers accurately. However, among the ensemble models, little consideration has been provided to the following: (1) highlighting the hyper-parameter tuning of base learner despite being critical to well-performed ensemble models; (2) building sequential models (i.e., boosting, as most have focused on developing the same or different algorithms in parallel); and (3) focusing on the comprehensibility of models. This paper aims to propose a sequential ensemble credit scoring model based on a variant of gradient boosting machine (i.e., extreme gradient boosting (XGBoost)). The model mainly comprises three steps. First, data pre-processing is employed to scale the data and handle missing values. Second, a model-based feature selection system based on the relative feature importance scores is utilized to remove redundant variables. Third, the hyper-parameters of XGBoost are adaptively tuned with Bayesian hyper-parameter optimization and used to train the model with selected feature subset. Several hyper-parameter optimization methods and baseline classifiers are considered as reference points in the experiment. Results demonstrate that Bayesian hyper-parameter optimization performs better than random search, grid search, and manual search. Moreover, the proposed model outperforms baseline models on average over four evaluation measures: accuracy, error rate, the area under the curve (AUC) H measure (AUC-H measure), and Brier score. The proposed model also provides feature importance scores and decision chart, which enhance the interpretability of credit scoring model.  相似文献   

15.
In this research, we propose a facial expression recognition system with a layered encoding cascade optimization model. Since generating an effective facial representation is a vital step to the success of facial emotion recognition, a modified Local Gabor Binary Pattern operator is first employed to derive a refined initial face representation and we then propose two evolutionary algorithms for feature optimization including (i) direct similarity and (ii) Pareto-based feature selection, under the layered cascade model. The direct similarity feature selection considers characteristics within the same emotion category that give the minimum within-class variation while the Pareto-based feature optimization focuses on features that best represent each expression category and at the same time provide the most distinctions to other expressions. Both a neural network and an ensemble classifier with weighted majority vote are implemented for the recognition of seven expressions based on the selected optimized features. The ensemble model also automatically updates itself with the most recent concepts in the data. Evaluated with the Cohn–Kanade database, our system achieves the best accuracies when the ensemble classifier is applied, and outperforms other research reported in the literature with 96.8% for direct similarity based optimization and 97.4% for the Pareto-based feature selection. Cross-database evaluation with frontal images from the MMI database has also been conducted to further prove system efficiency where it achieves 97.5% for Pareto-based approach and 90.7% for direct similarity-based feature selection and outperforms related research for MMI. When evaluated with 90° side-view images extracted from the videos of the MMI database, the system achieves superior performances with >80% accuracies for both optimization algorithms. Experiments with other weighting and meta-learning combination methods for the construction of ensembles are also explored with our proposed ensemble showing great adpativity to new test data stream for cross-database evaluation. In future work, we aim to incorporate other filtering techniques and evolutionary algorithms into the optimization models to further enhance the recognition performance.  相似文献   

16.
针对传统朴素贝叶斯分类模型应用过程中存在的特征项冗余问题,使用遗传禁忌算法对特征项集进行优化,并在此优化结果的基础上,提出了一种改进的朴素贝叶斯分类方法来解决用户模板中存在的单类别词汇问题。经实验证明,该方法比传统的朴素贝叶斯分类模型具有更好的鲁棒性和分类性能。  相似文献   

17.
Financial time series forecasting using LPP and SVM optimized by PSO   总被引:2,自引:1,他引:1  
In this paper, a predicting model is constructed to forecast stock market behavior with the aid of locality preserving projection, particle swarm optimization, and a support vector machine. First, four stock market technique variables are selected as the input feature, and a slide window is used to obtain the input raw data of the model. Second, the locality preserving projection method is utilized to reduce the dimension of the raw data and to extract the intrinsic feature to improve the performance of the predicting model. Finally, a support vector machine optimized using particle swarm optimization is applied to forecast the next day’s price movement. The proposed model is used with the Shanghai stock market index and the Dow Jones index, and experimental results show that the proposed model performs better than other models in the areas of prediction accuracy rate and profit.  相似文献   

18.
杜璞 《计算机仿真》2020,37(1):343-346,447
传统的目标网络多源数据调度方法通常以时间或费用为单一调度优化目标,无法实现任务完成时间以及任务执行成本之间的均衡,造成系统资源利用率较低。针对上述问题,提出一种基于多目标数学规划的网络多源数据调度方法。使用DAG构建网络多源数据流,确定多源数据调度任务模型的信任关系,以任务完成时间、任务完成成本、资源利用率为优化目标,建立多目标调度任务模型。对模型进行求解,在遗传算法变异操作中加入粒子群算法,对数据变异的方向与幅度进行调整,完成网络多源数据调度。仿真证明,所提方法相较于传统方法,在多源数据的调度上成本更低、资源利用率更高,并且调度任务目标完成时间更短。  相似文献   

19.
In order to improve the ability of multi-source database cache conflict adjustment, a multi-source database cache conflict automatic processing method based on rough set is proposed. The multi-source database cache data channeling model is constructed, the load balance scheduling method is used to balance the multi-source database cache, the multi-source database cache data feature mining is carried out with the fuzzy rough set feature extraction method, and the rough set features of multi-source database cache data are extracted. The multi-source database cache conflict is adjusted adaptively by multiple information reorganization and big data information fusion method. Through the distributed attributes of rough set, the cache conflict of multi-source database can be handled automatically. The simulation results show that the multi-source database cache has better equalization configuration ability, reduces the risk of data congestion, the number of rounds of conflict and the number of dead nodes, and improves the balance and security of multi-source database cache.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号