首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
针对传统的钓鱼站点攻击检测模型时延高、效率低、特征提取复杂的问题,提出一种使用长短期记忆网络(long short term memory,LSTM)和随机森林的混合算法模型。该模型主要包括网址上下文特征提取和混合特征分类两部分。首先,根据循环神经网络特点建立128步长的深度网络结构。实验数据参考开源社区提供的钓鱼网站网址和正常网址情报。利用自然语言处理技术对网址数据进行编码得到具有局部特征的网址序列。通过构建的LSTM网络对网址序列进行字符上下文特征提取,结合传统检测方法中的非字符序列特征,共同构成实验特征集。随后,利用随机森林获取每一个特征的最佳分裂点,构建混合特征分类模型。该模型以网址数据为检测源,一方面降低了随机森林的字符序列特征维度,另一方面结合传统钓鱼网址检测中的非序列特征,弥补了LSTM算法检测特征单一的问题。为验证该模型的有效性,设计了本文模型与随机森林算法、LSTM算法的对比实验,并进一步对不同LSTM训练规模的时间成本进行分析。从实验中发现,基于LSTM与随机森林的混合模型大幅度提高了钓鱼网站的识别准确率,模型准确率达到98.52%,比相同训练规模的LSTM准确率高3%,比实验中的单一随机森林准确率高7%。同时,相比于LSTM算法同等幅度的准确率提升,该混合算法具有更小的时间代价。实验结果表明,作者提出的混合模型克服了传统识别模型在特征提取、识别效率上的问题,适合于海量钓鱼网站攻击的快速识别。  相似文献   

2.
基于传感器的人类活动识别(HAR)在健康医疗领域具有重要的研究价值及研究意义。以往的关于传感器人类活动分类识别算法的研究,并没有考虑不同类别行为数据间的不平衡性。为了解决不同行为类别数据间的不平衡性影响算法精确度的问题,此算法采用下采样方法从大类和小类数据集中随机抽取选出若干组数量上相等的两种数据的集合,将多个不平衡数据变成平衡数据。其次,多个平衡数据集上训练多个弱分类器。然后,此算法以弱分类器的负相关和预测精度为代价函数,使用遗传算法挑选出能够使代价函数值最高的弱分类器来构成集成分类器。使集成算法内的弱学习器具有较高预测精度和多样性。最后,此算法使用挑选出的弱学习器构成集成学习器对人的行为进行集成分类。此算法在已有的行为数据集上进行了仿真实验研究,实验结果证明本文提出的基于遗传的负相关剪切集成不平衡行为识别算法相对于传统算法能够有效提高不平衡行为识别的正确率。  相似文献   

3.
高维小样本数据作为数据挖掘的难点,用传统的随机森林算法进行特征选择时极易出现分类结果过拟合而导致的特征重要度排序稳定性差、精度低等问题。针对随机森林在小样本数据降维过程中出现的难点,提出了一种基于小样本数据特征提取算法OTE-GWRFFS。基于生成对抗网络GAN进行样本扩充,避免传统随机森林在小样本分类过程中的过拟合现象;在数据扩充的基础上采用基于权重的最优树集合算法,减小生成数据分布误差对特征提取精度的影响,提升决策树集合的整体稳定性;采用单棵决策树的权重与特征重要性度量值加权平均得到特征重要性排序,从而解决了小样本数据特征选择过程中精度低稳定性差的问题。通过UCI数据集将所提算法与传统随机森林以及基于权重的随机森林算法进行实验对比,OTE-GWRFFS算法在处理高维小样本数据时具有更高的稳定性和精度。  相似文献   

4.
首先研究傅里叶图像形状特征提取算法和灰度共生矩阵纹理特征提取算法;其次使用傅里叶图像形状特征提取算法对中药材牡丹皮图像的形状特征进行提取,并且用灰度共生矩阵纹理特征提取算法提取中药材牡丹皮图像纹理数据;最后运用DBT-SVM算法对两种融合数据进行分类,并分析权重、训练集和测试集占比对分类准确率的影响。实验结果优于传统的SVM算法。  相似文献   

5.
为提高民航运输的高效性和安全性,利用随机森林模型,结合多普勒激光雷达技术,提出一种基于径向速度极差特征和边缘轮廓特征融合的方法,实现对飞机尾流的准确识别。将在双流机场采集的数据样本进行速度极差特征提取,同时将样本数据映射成灰度图,通过形态学梯度提取图像轮廓特征,再将二者融合,并以此构建随机森林尾流识别模型,最后进行对比实验。实验结果表明,特征融合后随机森林模型的分类准确率、精确率、召回率、F1-score分别为95.8%、87.3%、89.4%、88.4%,高于单一特征方式和决策树模型识别结果。本文提出的方法能够对具有复杂背景风场中的尾涡进行检测。  相似文献   

6.
传统过采样算法通过合成少数类样本来改善不平衡问题,但未考虑产生噪点与样本分布不均匀等问题,针对该类问题,提出了一种基于聚类与对改进SMOTE的过采样算法SK-SMOTE。该算法在聚类前,先合成一部分少数样本,以此提高少数类样本数量,同时根据合成的少数类样本的邻居样本的类别和距离赋予权重,通过权重总和是否大于设定的值来决定该样本是否可以被保留。在提高少数类样本数量后,再使用KMeans算法进行聚类,然后保留少数样本较多的簇。在簇内进行过采样,相对稀疏的簇将合成更多的少数类样本。选取UCI和KEEL数据库中的不平衡数据集,将SVM、RF、KNN作为分类算法,并选用几种经典的SMOTE算法与SK-SMOTE进行多组对比实验。实验结果表明,SK-SMOTE算法可有效平衡不平衡数据集,且在不平衡比例较高的数据集上取得了比传统过采样算法更好的结果。  相似文献   

7.
针对传统工况识别方法在应对生产波动异常数据干扰时,容易发生工况误判的情形,提出了采用窗口样本相似因子分析的方法来合理表征不同工况下的数据特性,以窗口样本间的相似因子来衡量不同样本数据的相似性.采用改进的K-means聚类算法根据窗口样本相似因子对不同工况下的生产特征参数进行聚类分析,完成多工况的识别过程.根据辽河油田生产数据进行实验验证,结果表明,该方法能够有效消除异常数据对工况数据特性的影响,减少工况误判情况的发生.  相似文献   

8.
针对浮选泡沫视觉特征的多样性和重要度差异以及浮选工况样本数分布不平衡等问题,提出一种基于在线泡沫视觉表观特征加权支持向量机的浮选工况识别方法.通过色彩空间变换,在CIE-Lab空间计算泡沫颜色,采用多方向融合的空间灰度共生矩阵提取泡沫纹理特征,以视觉特征的信息增益评价该特征的重要度,再利用不同工况的样本数加权策略消除样本数不平衡的影响,采用支持向量机方法实现了浮选工况的自动识别.工业运行数据测试结果表明:该方法能够在线识别浮选工况,自动识别准确率达98%,比人工识别率高6%,比传统灰度共生矩阵方法高2%.  相似文献   

9.
如何准确检测出用户侧窃电行为是长期存在于各供电公司一个难点,传统的窃电检测方案均存在一定的局限性。针对窃电检测领域正负类样本高度不平衡,且单一分类模型表现不佳的问题,提出一种基于改进旋转森林算法的窃电检测方法。旋转森林算法采用主成分分析(principal component analysis,PCA)进行特征提取,利用原始训练集的所有主成分训练每个基分类器。在经典的旋转森林算法基础上,使用改进合成少数类过采样(synthetic minority oversampling technique,SMOTE)算法平衡样本子集中的正负类样本;使用Bagging算法中的Bootstrap抽样对训练子集进一步抽样;按准确率对基分类器进行选择性集成等3个方面的改进。算例使用华东某地区实际用户数据,结果表明所提窃电检测方法对比单一分类模型和现有集成学习策略,在多项评价指标下均取得更好的效果。  相似文献   

10.
数据高维且不平衡时,产生的分类器易过度拟合且倾向于牺牲少数类准确率.为降低分类器复杂度且提高少数类识别率,提出了一种代价敏感随机森林算法.以随机森林算法框架为基础,利用Bagging平衡数据,并在基分类器属性分裂度量以及评价函数中引入误分类和测试双重代价,其中测试代价由分裂属性与少数类的相关度决定,使得基决策树在建模过程中向少数类倾斜.与随机森林和仅引入误分类代价的随机森林相比,引入双重代价的随机森林的分类准确率较高,尤其在少数类识别上具有较大优势.  相似文献   

11.
用于心律失常识别的LSTM和CNN并行组合模型   总被引:2,自引:1,他引:1  
心脏病是导致人类死亡的首要原因,而大部分心血管疾病往往伴随着心律失常出现.为实现对不同类型心电图信号的自动分析、识别异常心律,研究并提出了一种基于深度学习的心拍分类算法.考虑到心电图自身的特性,使用长短时记忆网络来捕捉心电序列数据的前后依赖关系,结合卷积神经网络提取局部相关特征,自动识别5种不同类型的心拍.基于LSTM和CNN的深度学习方法将经过预处理的心电信号后直接作为网络的输入,将心电分类的特征提取、分类两个步骤融合为单个学习器.针对类别数据不平衡问题,通过对少数类样本滑窗采样获得更多训练数据.使用MIT-BIH数据集验证模型的有效性,最终在测试集2万多个心拍记录中分类结果准确率达到99.11%,特异性为99.44%,灵敏度为97.27%,此外滑窗采样操作对少数类样本的灵敏度有明显改善.实验结果表明,相比传统的SVM和随机森林等方法,基于LSTM和CNN的并行组合模型不需要人工提取复杂特征,且达到了更好的分类性能,适合用于可穿戴式心电设备和远程监护领域.  相似文献   

12.
在网络恶意流量识别任务中,存在恶意流量样本数量与正常流量样本比例不平衡问题,从而导致训练出的机器学习模型泛化能力差、识别准确率低。为此,在网络流量图片化的基础上提出一种利用具有梯度惩罚项的条件Wasserstein生成对抗网络(CWGAN-GP)对少量数据类进行平衡的分类方法。该方法首先借助网络流量图片化方法将原始流量PCAP数据按照流为单位进行切分、填充、映射到灰度图片中;然后使用CWGAN-GP方法实现数据集的平衡;最后,在公开数据集USTC-TFC2016和CICIDS2017上使用CNN模型对不平衡数据集和平衡后的数据集进行分类测试。实验结果表明,使用CWGAN-GP的平衡方法在精确度、召回率、F1这3个指标上均优于随机过采样、SMOTE、GAN以及WGAN平衡方法。  相似文献   

13.
垃圾网页检测存在数据不平衡、特征空间维度较高的问题,为此,提出一种基于随机混合采样和遗传算法的集成分类算法.首先,使用随机混合采样技术,通过随机抽样,减少多数类样本数量,用少数类样本合成过采样技术方法生成少数类样本,获得多个平衡的训练数据子集;然后使用改进的遗传算法对训练数据集进行降维,得到多个具有最优特征的训练数据子集;使用极端梯度算法(XGBoost)作为分类器,训练多个平衡数据子集,用简单投票法对多个分类器进行集成,得到新的分类器;最后对测试集进行预测,得到最终预测结果.实验结果表明,提出算法的分类结果与XGBoost的结果相比,准确率提高了约19.25%,且减少了建立学习模型的时间,提高了分类性能,是一种较好的分类算法.  相似文献   

14.
为提高森林火灾检测识别率,同时降低漏检、误检率,缩减后续救援时间,提出一种基于改进YOLO v5的森林火灾目标检测算法。针对火灾目标漏检问题,在YOLO v5骨干网络加入卷积注意力机制(CBAM),对森林火灾的小目标在通道和空间进行特征提取;针对火灾目标重合问题,把路径聚合网络(PANet)替换为加权双向特征金字塔网络(BiFPN),增强模型识别能力;针对YOLO v5中原始采样方式无法将特征信息完全捕获的问题,所以将CARAFE上采样作为最新的上采样方式,提高采样效率。实验结果表明,与其它主流算法相比较,该算法拥有更好的检测效果,其检测性能相比于原始算法提升了2.6%,更适用于森林火灾检测。  相似文献   

15.
基于独立分量分析的系统性能监控方法研究   总被引:10,自引:2,他引:8  
为了提高故障检测和诊断的性能,提出了一种基于独立分量分析和支撑向量机对系统性能进行监控的整体框架,这一框架包括特征提取和故障识别两部分.独立分量分析被用来从当前工况的数据矩阵中提取出代表当前工况特征的投影系数矩阵,而这些投影系数矩阵则被用来训练多个支撑向量机,从而利用它们实现故障类型的识别.Tennessee Eastman 过程的仿真研究证实了该算法的可行性,且与传统的基于主元分析的算法相比,能够更早地检测出故障的发生.  相似文献   

16.
中国新疆克拉玛依油田七区砂砾岩油藏岩性多样,隔夹层发育,常规取心识别方法成本高,在非取心段识别精度低,导致储层划分困难.为实现岩性的快速准确识别,根据地质资料将研究区内岩性划分为泥岩、粗砂岩、中-细砂岩、粗砾岩、中-细砾岩和煤层6种.基于敏感性分析,优选测井参数提取主成分,建立岩性识别图版,识别准确率达81.37%.针对不均衡样本导致的少数类识别率低的问题,提出一种基于k均值聚类人工少数类过采样(k-means synthetic minority oversampling technique, KMSMOTE)与随机森林结合的智能岩性识别模型,通过对少数类样本过采样提升识别精度,该模型的识别准确率达到92.94%.将图版法和KMSMOTE-随机森林应用于邻井进行岩性识别并对比分析结果发现,KMSMOTE-随机森林识别准确率为95.71%,优于图版法的82.91%.同时,对各类岩性的识别准确率均高于传统的随机森林模型,证明KMSMOTE和随机森林结合的智能岩性识别模型在不均衡岩性样本识别问题上具有较好的适用性,泛化能力强,能够快速、准确地识别地层岩性.研究结果为不均衡岩性样本识别提供了...  相似文献   

17.
为解决车道线识别实时性差问题,提出了基于DSP的直线特征提取算法.基于DM6437视频采集系统,通过CCD摄像头采集图像数据,对感兴趣区域提取灰度,以减少实时算法的计算量;在此基础上,通过对有效区域进行改进算法的中值滤波,有效选择噪声和信号点的灰度值进行中值处理,实现道路有效区域边缘保护和消除噪声的功能;再通过提取直线特征边缘检测,根据需要进行Sobel边缘检测,结合直方图筛选、直线连通性分析能有效的平滑噪声并细化边缘,能够达到道路图像的分割、配准和识别的效果,提高算法的准确性和实时性;最后,结合霍夫变换算法,在边缘检测的基础上得到直线参数方程,并且通过先验知识改进Hough变换算法提高算法实时性,准确找出直线位置.  相似文献   

18.
为了解决因软件缺陷数据存在数据不平衡问题限制了分类器的性能,将POSS(pareto optimization for subset selection)特征选择算法和随机欠采样技术引入到软件缺陷检测中,并利用支持向量机(support vector machine, SVM)构建预测模型。试验结果表明,通过多次随机欠采样可以有效地解决软件缺陷数据不平衡问题,同时使用POSS方法对目标子集进行双向优化,从而提高分类的准确率,其结果要优于Relief、Fisher、MI(mutual information)特征选择算法。  相似文献   

19.
提出了一种基于HSV(Hue-Saturation-Value)空间的Haar小波特征和多SVM(Support Vector Machine)分类器的摩托车识别算法,以解决因样本比例不平衡所导致的对摩托车识别性能差的问题.首先在HSV颜色空间基于无符号小波系数构造特征提取算法,然后对训练数据应用所提出的样本重构方法得到若干训练子集,基于各个训练子集训练相应的SVM分类器,识别时将各SVM的输出结果进行融合即可得到最终识别结果.实验结果表明:该方法识别性能高,鲁棒性好,对于受数据的不平衡性严重影响的对象识别具有较好的应用和推广价值.  相似文献   

20.
针对不平衡数据集分类,现有的过采样算法更多地解决了类间不平衡问题,而未考虑少数类的类内不平衡,未筛选进行过采样的样本及未去除噪音,且合成过程中存在样本重叠及样本分布"边缘化"等问题,提出一种基于层次聚类和改进SMOTE的过采样算法AGNES-SMOTE.该算法对多数类和少数类样本分别进行层次聚类,并根据获得的多数类簇划...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号