首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 312 毫秒
1.
[目的]由于购买商品的消费者数量远小于未购买商品的消费者数量,网购意愿预测研究是典型的不平衡数据分类问题.研究不平衡数据的分类问题以提升网购意愿预测的分类准确率,该问题主要存在少数类样本识别准确率远小于多数类样本的问题.[方法]提出一种基于贝叶斯优化的代价敏感轻量梯度提升机(Light Gradient Boosting Machine, LightGBM)模型.首先引入误分类代价作为惩罚因子修正LightGBM的损失函数,其次通过阈值移动降低模型的分类阈值以提高针对少数类样本的预测准确率,最后利用贝叶斯优化算法优化误分类代价参数、分类阈值及其他参数.[结果]从KEEL数据库中选取5个典型的不平衡数据集进行对比实验,相较于标准LightGBM模型,改进LightGBM模型的AUC值和G-mean值均提升了10%左右;相较于遗传算法优化代价敏感LightGBM模型和粒子群优化代价敏感LightGBM模型,改进LightGBM模型的AUC值和G-mean值普遍提升了4%左右;相较于ADASYN-LightGBM模型和BorderlineSMOTE-LightGBM模型,改进LightGBM...  相似文献   

2.
首次将蛋白质结构域边界检测问题归结为非平衡数据学习问题, 提出一种新的欠采样方法, 即在支持向量机特征空间中对与正类样本具有距离最大熵值的负类样本进行采样. 以经过筛选的蛋白质结构域数据库作为实验数据, 支持向量机学习系统的平均预测准确率可达80%, 同时具有较高的敏感性和特异性.  相似文献   

3.
基于CNN-BiLSTM的自动睡眠分期方法   总被引:1,自引:0,他引:1  
针对目前睡眠分期存在的依赖人工特征提取、无法识别长时关联数据中的时序模式、模型对EEG时序数据分期不准确等问题,提出一种基于CNN-BiLSTM的自动睡眠分期方法.将原始数据通过改进MSMOTE算法进行过采样形成类平衡数据,再通过CNN表达其高级特征,并馈送至BiLSTM中挖掘各睡眠阶段间的依赖关系,实现睡眠数据分期特征的自动学习和睡眠周期判定.在Sleep-EDF公开数据集上的实验结果表明,CNN-BiLSTM模型的分类准确率为92.21%.同时引入改进的MSMOTE过采样技术缓解因数据不平衡所导致的少数类睡眠期判定不准确问题.在原始数据集类不平衡的情况下,实现了睡眠数据自动分期,有效提高了睡眠分期模型的准确率,具有一定的实用价值.   相似文献   

4.
为解决癌症基因组图谱中DNA甲基化数据不平衡导致假阴率上升的问题,提出一种基于TCGA数据库不平衡数据的改进分类方法.使用合成少数类过采样技术和Tomek Link算法进行混合采样,解决数据不平衡问题.在此基础上,将经特征选择后的训练集数据输入改进模型进行训练、学习及分类.基于TCGA数据库6种癌症DNA甲基化数据的实验结果表明:改进方法对少数类样本的分类性能有显著提高,对多数类样本的分类性能也有一定的提升.  相似文献   

5.
针对神经网络分类模型对美国联邦运输统计局(Bureau of Transportation Statistics, BTS)航班数据集中的不均衡数据预测误差较大的问题,采用自适应合成采样算法(adaptive synthetic sampling approach, ADASYN)和合成少数类过采样算法(synthetic minority over-sampling technique, SMOTE)对航班延误类别进行平衡处理,并用随机森林(random forest, RF)模型进行训练和贝叶斯调参。结果表明:与不经过平衡采样的方法比较,该方法在权重平均下的精确率、召回率和F1评分分别提高了19%、8%和16%;分类预测准确率提升8.03%,模型拟合指数AUC(area under curve)提升5.4%。同时,采用多特征相融合的图神经网络模型Graph WaveNet对航班平均延误时间进行预测。实验结果表明:与单特征模型比较,该模型平均绝对误差和均方根误差分别降低了16%和12.45%。这些方法和结果对研究航班延误分类和预测算法研究具有参考价值。  相似文献   

6.
基于模糊信息粒化软测量建模方法研究   总被引:1,自引:1,他引:0  
提出了一种模糊信息粒化方法和支持向量机相结合的软测量建模方法.利用模糊信息粒化方法对样本数据进行特征提取,降低样本的维数;利用提取的特征作为支持向量机的输入进行建模.用该方法建立柴油凝点的软测量模型,结果表明,该模型具有很好的预测精度和泛化性能,是一种有效的数据建模方法.  相似文献   

7.
庚烷-苯-N-甲酰吗啉体系液液平衡研究   总被引:3,自引:0,他引:3  
在常压,298.15,313.15,333.15,353.15 K 4个温度下,测定了庚烷-苯-N-甲酰吗啉三元体系的液液平衡数据,得到三元体系平衡相图,节点数据的实验可靠性用Othmer-Tobias和Bachman方程进行了检验,实验数据点用UNIQUAC和NRTL模型进行了关联,分别得出了庚-苯-N-甲酰吗啉体系的模型参数,结果表明2种模型都能对该体系进行较准确的预测,相比之下,NRTL更能拟合实验结果;同时从分配系数,分离因子和选择性对N-甲酰吗啉萃取苯的性能进行了研究.图12,表4,参14.  相似文献   

8.
为准确预测城市不同区域的共享单车需求量,解决区域间供需不平衡问题,在对上海市共享单车数据进行时空特征可视化分析的基础上,研究共享单车的出行分布规律. 针对时间出行分布的非严格周期性,提出了一种引入注意力机制的长短时记忆网络预测模型AM-LSTM. 利用Spearman相关性分析法分析特征影响因素,提取模型特征值. 分别构建不同输入序列的预测模型,与传统时序预测模型进行对比分析. 结果表明,采用30 min时间间隔的输入序列具有较高的预测精度,AM-LSTM模型能够较好地预测共享单车的出行需求量,预测精度优于单一的LSTM模型. 最后对预测曲线进行相关度分析,验证了AM-LSTM模型的预测性能,可以为城市共享单车的调度及分配提供有效信息.  相似文献   

9.
化合物毒性预测中所使用的有标签数据较少且存在数据类别不平衡问题,因此为了解决这个问题,提高预测准确率,本文提出了一种自编码器-辅助分类器的生成对抗网络(AE-ACGAN)分子生成模型.该模型使用自编码器处理化合物数据得到特征向量,然后将其作为ACGAN模型的输入,生成的输出通过解码器解码得到新的化合物分子,在原始的ACGAN基础上进行改良,引入wasserstein距离解决原始模型的模式坍塌问题,同时对模型中的判别器的结构进行改良,在ACGAN模型的输入中加入真实的无标签数据来增强判别器的鉴别能力,使得无标签的数据也能得到充分的利用.实验结果表明,本文所提出的模型可以生成新颖的化合物分子,而且与原始数据具有相同的特征,可以加入到原始数据集中进行数据扩充,平衡后的数据集能够提升预测模型的准确率.  相似文献   

10.
高价值移动通信用户预测是电信客户关系管理中的一项重要内容。针对建立预测模型时遇到的高维、大规模、类不平衡等数据处理问题,提出了一种基于有效特征选择的预测方法。利用欠采样方式从初始不平衡数据集提取多个平衡训练集,使用结合Pearson相关性分析和随机森林特征重要性评估的特征选择策略,在集成学习方法中嵌入加权和投票机制获得最优的特征子集,最后采用随机森林算法建立预测模型。实验结果表明,该预测模型可以有效降低特征集的维度并提升对高价值移动通信用户的预测性能。  相似文献   

11.
科技型中小企业的创新关乎中国创新驱动发展战略能否成功.股权结构会影响企业创新行为,股权集中可以使大股东有足够的实力与动力监督管理层,却又可能导致大股东掏空等私利行为;股权制衡可以防止大股东权力滥用,却又带来更多的决策成本,降低大股东工作积极性.基于此,研究选取2011~2018年709个创业板上市企业为样本,实证研究发现,股权集中度与创业板企业的创新绩效正相关,股权制衡度与之负相关,进一步分析发现在成立时间较短的企业、第1大股东绝对控股的企业中尤为如此.研究丰富了股权结构及企业创新影响因素研究,而且对现实中科技型中小企业的公司治理提供新思路.  相似文献   

12.
有破产成本的风险债务估值未定权益分析   总被引:1,自引:0,他引:1       下载免费PDF全文
破产成本是企业破产时发生的费用,从而降低了企业资产价值。破产时,债权人只能得到扣除破产成本后的企业资产价值,因而对企业的债务价值有影响。运用未定权益分析方法,给出风险债务估值的基本思路及风险债务价值满足的微分方程,得到永久性债务估值模型,可作为长期债务估值的近似。运用未定权益定价和随机计算,导出了一个包含破产成本的风险债务估值公式,该公式能说明投资策略、股利策略对风险债务价值的影响。最后将得到的结果与默顿、布莱克等人的工作进行了比较。  相似文献   

13.
针对已有的输电线路覆冰预测模型鲜有考虑覆冰过程中的空间特征信息,从而导致预测精度欠佳的问题,本文从时空序列预测的角度建立输电线路覆冰方面的预测体系,采用图卷积网络(Graph Convolutional Network, GCN)构建输电线路覆冰预测模型,基于图神经网络设计对输电线路覆冰拉力的图数据进行深度特征学习与图特征向量表示,以更好地提取电网塔杆覆冰拉力值的时空分布特征,从而准确预测未来的拉力值。基于南方电网的真实实验数据,设计一套可靠的数据预处理流程,将电网覆冰拉力数据转化为可以深度学习的时空序列大数据进行训练和验证。实验结果表明,本文提出的模型较已有的主流覆冰预测模型具有更加优异和稳定的预测结果,能够为输电线路及时除冰工作提供决策参考。  相似文献   

14.
针对数据分布不均匀且因素多而容易造成预测不精确的问题,提出一种结合由粗到精与特征筛选的精确回归预测方法.首先,由于数据分布不均匀且预测区间大,直接预测难以精确地拟合,提出一种由粗到精的预测方法,并使用决策树进行粗分类,预测目标所在的子区间,然后在子区间内实现精确的回归预测.其次,如果数据量少且特征因素多会引起过拟合,而且部分冗余特征会影响模型的预测精度,因此,提出一种基于特征筛选的回归预测方法以提高预测精度.在大学生的英语成绩与其人格因素数据集上进行相关实验,结果证明了由粗到精和特征筛选方法与传统回归模型相比精度更高且稳定性更好.通过提出的人格因素与英语成绩回归预测模型,可以制定合理的培养方案弥补学生人格因素中的短板,提升学生的自身竞争能力,从而更好地推动中国的英语教育.  相似文献   

15.
为更充分挖掘多元负荷序列间的有效信息,从而提高预测精度,提出了一种集成贝叶斯超参数优化算法、注意力机制的长期和短期时间序列网络(long and short-term time-series network with attention,LSTNet-attention)以及误差修正的短期负荷预测模型。首先,构建基于贝叶斯优化的LSTNet-attention模型进行初步预测,利用贝叶斯算法优化模型多个结构参数,降低人工设置参数的随机性,并通过注意力机制合理分配特征权重;然后,通过基于贝叶斯参数优化的极端梯度提升算法(extreme gradient boosting,XGBoost)误差修正模型来挖掘初步预测误差序列中潜在、未被利用的有效信息,进行误差预测和修正,进而得到最终的预测结果。通过使用澳大利亚某地真实负荷数据进行实证分析,实验结果表明,所提预测模型相较于其它模型具有更好的预测效果,可为负荷预测等工作提供一定参考。  相似文献   

16.
针对井口压力控制作业中传统方法过度依赖专家经验和数学模型运算精度的问题,提出一种基于随机森林(Random Forest,RF)的多模型融合算法对压井方式进行分类判断.首先,将专家经验结构化、数据化,转化成可被机器学习模型使用的数据形式,同时,结合油气井的基础数据和工况参数,作为智能模型的重要参数来描述压井作业的特征空...  相似文献   

17.
评分预测是推荐系统研究的核心问题,通过用户的历史行为来预测用户对商品的评分,根据评分高低来推荐用户喜欢的商品.当前基于评论评分预测推荐系统普遍只使用卷积神经网络捕获局部特征或者循环神经网络捕获全局特征,忽略了将这两类特征的有效融合.针对现存问题,本文提出基于评论特征提取和隐因子模型的评分预测推荐模型,使用自适应感受野的卷积神经网络(CNN)提取局部特征,同时使用门控循环单元(GRU)提取全局特征,将不同特征融合为评论的嵌入表达.再结合隐因子模型(LFM)对用户的特征偏好和商品的特征属性进行建模.最后,通过对用户和商品的嵌入表达进行评分预测.实验结果表明,本文模型在5个数据集上均高于现有基线模型.  相似文献   

18.
为了有效地监管网络舆情,辅助管理人员进行决策,微博信息传播预测方法的研究具有重要应用价值。针对传统微博信息传播预测方法存在指标单一、预测效果较差问题,提出一种基于XGBoost模型的融合多特征微博信息传播预测方法。首先,分析微博传播网络和用户节点特性,提取出博主特征、微博内容特征、传播特征3类特征并构建数据集;接着,基于XGBoost方法分别构建微博累计转发量预测模型和微博最大转发深度预测模型;最后,通过模型在测试数据集上的平均绝对误差验证模型的预测效果。通过与线性回归等传统的预测方法比较分析可以看出,提出的预测方法能够取得良好的预测效果。  相似文献   

19.
魏东  张天祎  冉义兵 《科学技术与工程》2021,21(28):11910-11920
基于警务数据和时空数据构建犯罪预测模型,利用机器学习手段进行案事件预测,在国家安全稳定领域具有重要的意义。犯罪预测涉及三个主要方面:特征选择与处理、预测模型和地理信息可视化。分析了犯罪预测理论与方法的基本思想,在探索犯罪的生成机理和演化规律基础上,对经验模型和时空模型研究成果进行了综述。在此基础上,对根据不同预测特征选取最优算法的策略进行了讨论,同时对比简述了各类算法的特点,并对现存问题和未来研究方向进行了探讨。  相似文献   

20.
为了克服传统机器学习算法产量预测模型的缺点,以深度森林算法理论为基础,综合油井相关各项数据,建立了油井产量预测新模型。首先应用KNN最邻近方法和Z-Score标准化方法对油井相关数据进行预处理,利用MDI特征选择方法选择对油井产量影响最大的特征向量,然后将选出的特征向量作为深度森林模型的输入变量,建立深度森林产量预测模型,利用网格化搜索优化模型参数,最后在测试集上运行模型,对模型性能进行评估。研究结果表明,相对于BP神经网络等传统机器学习算法模型,深度森林模型的产量预测精度更高,可以准确预测油井产量,同时相对于深度神经网络等复杂学习算法,该算法参数少、调参及应用简单,为油井产量预测提供了一种新的方法和思路。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号