首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 234 毫秒
1.
非平衡问题是数据挖掘领域中普遍存在的一个问题,数据的偏态分布会使得分类器的分类效果不理想.卷积神经网络作为一种高效的数据挖掘工具,被广泛应用于分类任务,但其训练过程若受到数据非平衡的不利影响,则将导致少数类的分类准确率下降.针对二分类非平衡数据分类问题,文中提出了一种基于代价敏感卷积神经网络的非平衡问题混合方法.首先将密度峰值聚类算法与SMOTE相结合,通过过采样对数据进行预处理,降低原始数据集的不平衡程度;然后利用代价敏感思想对非平衡数据中的不同类别给予不同权重,并考虑预测值与标签值之间的欧氏距离,对非平衡数据中多数类和少数类赋予不同的代价损失,构建代价敏感卷积神经网络模型,以提高卷积神经网络对少数类的识别率.选取6个不同的数据集,用于验证所提方法的有效性.实验结果表明,所提方法可以提高卷积神经网络模型对非平衡数据的分类性能.  相似文献   

2.
针对传统机器学习算法对于流量分类的瓶颈问题,提出基于一维卷积神经网络模型的应用程序流量分类算法。将网络流量数据集进行数据预处理,去除无关数据字段,并使数据满足卷积神经网络的输入特性。设计了一种新的一维卷积神经网络模型,从网络结构、超参数空间以及参数优化方面入手构造了最优分类模型。该模型通过卷积层自主学习数据特征,解决了传统基于机器学习的流量分类算法中特征选择问题。通过网络公开数据集进行模型测试,相比于传统的一维卷积神经网络模型,所设计的神经网络模型的分类准确率提升了16.4%,总分类时间节省了71.48%。另外在类精度、召回率以及[F1]分数方面都有较好的提升。  相似文献   

3.
刘子巍  骆曦  李克  陈富强 《计算机工程》2022,48(11):111-119
以卷积神经网络(CNN)为代表的深度学习模型主要面向图像、语音等均匀采样的同质欧氏空间数据,通常不适用于大量存在于工业等领域的异质、非均匀稀疏采样的结构化数据。针对异质、非均匀稀疏采样结构化数据集的预测任务,提出一种基于k近邻(kNN)算法和CNN的超球卷积神经网络学习模型。通过kNN预处理建立各样本在高维属性空间中的结构关系,将样本邻域内各样本的标记作为其属性重构样本集合,实现数据属性集从异质到同质的转化,进而通过合理设计CNN的卷积窗,有效提取和利用各样本的邻域空间中样本的标记分布特征,完成对未知样本的预测。在不同邻域尺度、软硬标记以及混淆非混淆等条件下进行实验,结果表明,该模型预测准确率达到98.04%,其准确率和召回率较FC-CNN、CNN、kNN和Radar-CNN算法分别提升0.28%~1.66%和4.78%~31.92%。  相似文献   

4.
何韩森  孙国梓 《计算机应用》2020,40(8):2189-2193
针对假新闻内容检测中分类算法模型的检测性能与泛化性能无法兼顾的问题,提出了一种基于特征聚合的假新闻检测模型CCNN。首先,通过双向长短时循环神经网络提取文本的全局时序特征,并采用卷积神经网络(CNN)提取窗口范围内的词语或词组特征;然后,在卷积神经网络池化层之后,采用基于双中心损失训练的特征聚合层;最后,将双向长短时记忆网络(Bi-LSTM)和CNN的特征数据按深度方向拼接成一个向量之后提供给全连接层,采用均匀损失函数uniform-sigmoid训练模型后输出最终的分类结果。实验结果表明,该模型的F1值为80.5%,在训练集和验证集上的差值为1.3个百分点;与传统的支持向量机(SVM)、朴素贝叶斯(NB)和随机森林(RF)模型相比,所提模型的F1值提升了9~14个百分点;与长短时记忆网络(LSTM)、快速文本分类(FastText)等神经网络模型相比,所提模型的泛化性能提升了1.3~2.5个百分点。由此可见,所提模型能够在提高分类性能的同时保证一定的泛化能力,提升整体性能。  相似文献   

5.
近几年来,随着词向量和各种神经网络模型在自然语言处理上的成功应用,基于神经网络的文本分类方法开始成为研究主流.但是当不同类别的训练数据不均衡时,训练得到的神经网络模型会由多数类所主导,分类结果往往倾向多数类,极大彩响了分类效果.针对这种情况,本文在卷积神经网络训练过程中,损失函数引入类别标签权重,强化少数类对模型参数的影响.在复旦大学文本分类数据集上进行测试,实验表明本文提出的方法相比于基线系统宏平均F1值提高了4.49%,较好地解决数据不平衡分类问题.  相似文献   

6.
基于双通道卷积神经网络的航班延误预测模型   总被引:1,自引:0,他引:1  
针对航班延误预测数据量大、特征提取困难而传统算法处理能力有限的问题,提出一种基于双通道卷积神经网络(DCNN)的航班延误预测模型。首先,该模型将航班数据和气象数据进行融合,应用DCNN进行自动特征提取,采用批归一化(BN)和Padding策略优化,提升到港延误等级的分类预测性能;然后,在卷积神经网络(CNN)基础上加入直通通道,以保证特征矩阵的无损传输,增强深度网络的畅通性;同时引入卷积衰减因子对卷积通道的特征矩阵进行稀疏性限制,控制不同网络深度的特征叠加比例,维持模型的稳定性。实验结果表明,所提模型与传统模型相比,具有更强的数据处理能力。通过数据融合,航班延误预测准确率可提高1个百分点;加深网络深度后,该模型能保证梯度的稳定,从而训练更深的网络,使准确率提升至92.1%。该基于DCNN算法的模型特征提取充分,预测性能优于对比模型,可更好地服务于民航决策。  相似文献   

7.
声呐图像被广泛应用于复杂海况的水下救援和海底探测中,长时的人工搜索极易造成视觉疲劳而错失目标。无人潜航器可大幅降低搜索工作量和主观误差,但这取决于无人自主系统的能效和自动分类性能。卷积神经网络的训练和推理需要比较高的能耗,难以在无人潜航器的移动环境下部署和应用,而且声呐图像训练数据稀少和样本不平衡也增加了模型训练的难度。脉冲神经网络通过二进制离散的时序脉冲信号可以避免卷积神经网络中高昂的乘法计算代价,具有低能耗和高精度的特性。构建了可用于合成孔径声呐图像分类的浅层脉冲神经网络,设计了一种基于脉冲神经网络的小样本水下目标分类算法。采用基于风格迁移的模拟声呐图像生成方法和加权随机采样方法,缓解了声呐图像训练数据稀少和样本不平衡问题。实验表明,在声呐图像样本稀少和不平衡的情况下,算法的分类准确率高于ResNet50、VGG19和MobileNet V2等架构的卷积神经网络,达到91.11%。计算复杂度和能耗分析也表明,脉冲神经网络相比于卷积神经网络具有很大优势。脉冲神经网络是研究和实现类脑计算非常合适的模型,可满足无人水下航行器的移动计算需求,该研究对实现无人自主设备的智能应用具有先进的技术...  相似文献   

8.
陈海龙  杨畅  杜梅  张颖宇 《计算机应用》2022,42(7):2256-2264
针对信用风险评估中数据集不平衡影响模型预测效果的问题,提出一种基于边界自适应合成少数类过采样方法(BA-SMOTE)和利用Focal Loss函数改进LightGBM损失函数的算法(FLLightGBM)相结合的信用风险预测模型。首先,在边界合成少数类过采样(Borderline-SMOTE)的基础上,引入自适应思想和新的插值方式,使每个处于边界的少数类样本生成不同数量的新样本,并且新样本的位置更靠近原少数类样本,以此来平衡数据集;其次,利用Focal Loss函数来改进LightGBM算法的损失函数,并以改进的算法训练新的数据集以得到最终结合BA-SMOTE方法和FLLightGBM算法建立的BA-SMOTE-FLLightGBM模型;最后,在Lending Club数据集上进行信用风险预测。实验结果表明,与其他不平衡分类算法RUSBoost、CUSBoost、KSMOTE-AdaBoost和AK-SMOTE-Catboost相比,所建立的模型在G-mean和AUC两个指标上都有明显的提升,提升了9.0%~31.3%和5.0%~14.1%。以上结果验证了所提出的模型在信用风险评估中具有更好的违约预测效果。  相似文献   

9.
数据不平衡会严重影响传统分类算法的性能,不平衡数据分类是机器学习领域的一个热点和难点问题.为提高不平衡数据集中少数类样本的检出率,提出一种改进的随机森林算法.该算法的核心是对每一棵通过Bootstrap采样后的随机森林子树数据集进行混合采样.首先采用基于高斯混合模型的逆权重上采样,然后基于SMOTE-borderline1算法进行级联上采样,再用随机下采样方式进行下采样,得到每棵子树的平衡训练子集,最后以决策树为基学习器实现改进机随机森林不平衡数据分类算法.此外,以G-mean和AUC为评价指标,在15个公开数据集上将所提算法与10种不同算法进行比较,结果显示其两项指标的平均排名和平均值均为第一.进一步,在其中9个数据集上将其与6种state-of-the-art算法进行比较,在32次结果对比中,所提算法有28次取得的成绩都优于其他算法.实验结果表明,所提算法有助于提高少数类的检出率,具有更好的分类性能.  相似文献   

10.
针对文本多分类算法中,由于不平衡数据集产生的小样本分类数据准确率低问题,提出基于轮廓系数动态K-means聚类的文本多分类混合式均分聚类采样算法.在不平衡数据集中针对小样本数据集利用聚类簇进行等比例过采样,针对大样本数据集利用聚类簇进行欠采样.基于微博灾害数据集,设计文本卷积神经网络,对该算法进行实验验证与分析,实验结果表明,该算法能够有效提升文本不平衡数据集的准确率和F1值,较好解决了不平衡文本数据集分类问题.  相似文献   

11.
相比于单一语言的短文本情感分类而言,混合语言由于其表达情感的单词语言不唯一,语法结构复杂,仅使用传统词嵌入的方法无法使分类器学到足够有用的特征,导致分类效果不佳。针对这些问题,提出一种融合字词特征的双通道复合模型。首先,针对数据集不平衡问题,提出一种基于Bert语义相似度的数据集欠采样算法;其次,构建双通道深度学习网络,分别将以字、词方式嵌入的原始数据通过两个通道送入CNN和带有注意力机制的LSTM组成的模块中进行多粒度特征提取;最后融合多通道的特征进行分类。在NLPCC2018任务1公布的混合语言五分类数据集上的实验表明,该模型的整体性能较目前有代表性的深度学习模型有进一步提高。  相似文献   

12.
针对少数类样本合成过采样技术(Synthetic Minority Over-Sampling Technique, SMOTE)在合成少数类新样本时会带来噪音问题,提出了一种改进降噪自编码神经网络不平衡数据分类算法(SMOTE-SDAE)。该算法首先通过SMOTE方法合成少数类新样本以均衡原始数据集,考虑到合成样本过程中会产生噪音的影响,利用降噪自编码神经网络算法的逐层无监督降噪学习和有监督微调过程,有效实现对过采样数据集的降噪处理与数据分类。在UCI不平衡数据集上实验结果表明,相比传统SVM算法,该算法显著提高了不平衡数据集中少数类的分类精度。  相似文献   

13.
现实中的数据集普遍具有非均衡性。针对不平衡分类问题,建立数据集网络结构来充分挖掘隐藏在样本点位置信息外的拓扑特征,分析网络节点的连接特性并赋予节点不同的效率。计算待测节点与每个子网络的相似性测度,依据新型的概率模型,进一步推算出该节点与各子网络的整体性测度。构建了一种基于网络拓扑特征的不平衡数据分类方法,算法中引入不平衡因子c用以减小由正负类样本数量差异所带来的影响。实验结果表明,该算法能有效提高分类精度,特别是对拓扑特征明显的数据集,在分类性能和适应能力上相比传统分类方法都得到进一步提升。  相似文献   

14.
针对油田局域网络环境中,传统基于流量的分析方法无法实现应用系统的有效识别问题,本文设计一种面向不平衡数据集的应用系统识别框架WEBCLA,该框架采用基于基尼增益的SMOTE改进算法(GSMOTE)与XGBoost分类算法相结合的方式对基于网页的应用系统进行有效识别。具体地,本文提出的GSMOTE算法对少数类进行过采样,有效缓解识别样本不平衡问题,并结合XGBoost分类算法进行应用系统的识别。通过在真实数据集上进行实验,结果表明,本文提出的方法在召回率上较传统方法有较明显的提升,比普通集成方法提高约112.8%,比未经过采样处理的方法提升约10.8%,可有效解决油田局域网中的应用系统识别问题。  相似文献   

15.
针对交互式网络电视(IPTV)用户报障因素复杂、故障样本相对贫瘠的问题,基于相关向量机(RVM)高稀疏性的建模特点提出一种结合RVM参数优化和混合采样的IPTV用户报障预测方法(LFOA-HSRVM)。该方法将IPTV的用户报障预测视为一个针对非均衡数据集的二分类问题,克服了传统RVM算法在处理非均衡数据时决策边界偏向少数类样本的问题。实验表明,与其他相关算法相比,该算法的少数类分类性能和总体分类性能均有较大提升,能获得更好的报障预测效果。  相似文献   

16.
为了使得优质石墨资源得到优质优用, 提出利用迁移学习和焦点损失卷积神经网络的石墨分类识别算法.在自建的初始数据集基础上, 通过对数据集的离线扩充与在线增强, 有效扩大数据集并减低深层CNN过拟合的风险. 以VGG16、ResNet34和MobileNet V2为基础模型, 重新设计新的输出模块载入全连接层, 提高了模型...  相似文献   

17.
王林  郭娜娜 《计算机应用》2017,37(4):1032-1037
针对传统分类技术对不均衡电信客户数据集中流失客户识别能力不足的问题,提出一种基于差异度的改进型不均衡数据分类(IDBC)算法。该算法在基于差异度分类(DBC)算法的基础上改进了原型选择策略。在原型选择阶段,利用改进型的样本子集优化方法从整体数据集中选择最具参考价值的原型集,从而避免了随机选择所带来的不确定性;在分类阶段,分别利用训练集和原型集、测试集和原型集样本之间的差异性构建相应的特征空间,进而采用传统的分类预测算法对映射到相应特征空间内的差异度数据集进行学习。最后选用了UCI数据库中的电信客户数据集和另外6个普通的不均衡数据集对该算法进行验证,相对于传统基于特征的不均衡数据分类算法,DBC算法对稀有类的识别率平均提高了8.3%,IDBC算法对稀有类的识别率平均提高了11.3%。实验结果表明,所提IDBC算法不受类别分布的影响,而且对不均衡数据集中稀有类的识别能力优于已有的先进分类技术。  相似文献   

18.
张永宏  葛涛涛  田伟  夏广浩  何静 《计算机应用》2018,38(11):3319-3325
在地质大数据背景下,为了更加精准、客观地评估泥石流易发程度,提出一种基于神经网络的区域泥石流易发性评价模型,并结合使用平均影响值算法(MIV)、遗传算法(GA)、Borderline-SMOTE算法提升模型精度。在预处理阶段使用Borderline-SMOTE算法处理非平衡数据集的分类问题,之后采用神经网络拟合主要指标与易发程度的非线性关系并结合遗传算法提升拟合速度,最后结合MIV算法定量分析指标与易发程度相关性。选取雅鲁藏布江中上游流域作为研究区域,实验结果显示,模型能够有效降低非平衡数据集的过拟合,优化原始输入维度,同时在拟合速度上有了很大提升。采用AUC指标检验评价结果,测试集的分类精度达到97.95%,说明模型能够在非平衡数据集下为评价研究区域泥石流易发程度提供参考。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号