首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
网络入侵检测系统存在着检测网络未知攻击困难、漏报率高、自身性能难以适应大规模网络数据的处理等缺点.在入侵检测过程中引入了一种大规模数据筛选算法,并对其进行改进,有效地进行了数据的约简,约简后的小样本数据应用于基于支持向量机的网络入侵检测系统中,使其能够在较短时间内处理大规模网络数据.实验结果表明,该改进算法能有效地筛选出边界向量,在很少降低检测精度的情况下有效地减少了检测模型的建立时间,从而提高了检测速度.  相似文献   

2.
基于Hadoop 的高效连接查询处理算法CHMJ   总被引:3,自引:0,他引:3  
赵彦荣  王伟平  孟丹  张书彬  李均 《软件学报》2012,23(8):2032-2041
提出了一种并行连接查询处理算法CoLocationHashMapJoin(CHMJ).首先,设计了多副本一致性哈希算法,将具有连接关系的表根据其连接属性的哈希值在机群中进行分布,在提升了连接查询处理中数据本地性的同时,保证了数据的可用性;其次,基于多副本一致性哈希数据分布,提出了HashMapJoin并行连接查询处理算法,有效地提高了连接查询的处理效率.CHMJ算法在腾讯公司的数据仓库系统中进行了应用,结果表明,CHMJ连接查询的处理效率比Hive系统提高了近5倍.  相似文献   

3.
基于数据取样的DBSCAN算法   总被引:14,自引:1,他引:13  
取类是数据挖掘领域中的一个重要研究课题。聚类技术在许多领域有着广泛的应用,基于密度的聚类算法DBSCAN是一种有效的空间聚类算法,它能够发现任意形状的类并且有效地处理噪声,用户只需输入一个参数就可以进行聚类分析,但是,DBSCAN算法在对大规模空间数据库进行聚类分析时需要较大的内存支持和I/O消耗。本文在分析DBSCAN算法不足的基础上,提出一种基于数据取样的DBSCAN算法,使之能够有效地处理大规模空间数据库。二维空间数据测试结果表明本文算法是可行、有效的。  相似文献   

4.
针对滑坡危险性预测中降雨等不确定诱发因素难以有效处理,CFSFDP算法需要人工尝试设置密度阈值以及对大规模数据集无法进行准确聚类等问题,为了提高滑坡危险性预测准确度,提出一种基于网格与类合并的不确定CFSFDP (简称不确定GM-CFSFDP)聚类算法.该算法首先引入不确定数据处理方法,设计了E-ML距离公式,有效刻画降雨不确定因素;其次通过网格划分的思想把大规模数据集划分到多个网格空间中,实现大规模数据有效编码;计算网格平均密度,建立网格密度阈值分布模型,动态获得网格密度阈值;最后利用层次聚类思想对关联性较高的类进行合并,构建不确定GM-CFSFDP算法模型,在延安宝塔区进行滑坡实例验证.实验结果表明不确定GM-CFSFDP聚类算法获得较高的预测精度,从而验证了该算法在滑坡危险性预测中的可行性和先进性.  相似文献   

5.
在分析模式匹配算法的基础上,提出了一种改进的模式匹配算法,并将该算法应用于大规模数据分析软件设计之中。在数据分析的初始阶段,通过该模式匹配算法建立一张数据索引表,随后分析软件借助于索引表和帧结构分布表,对原始数据进行分析和处理。该算法的应用,有效的解决了大规模数据处理过程中的难题,提高了大规模数据处理软件的效率。  相似文献   

6.
工业企业在生产制造过程中积累了大量的生产数据.海量的工业数据蕴含了价值巨大的信息,通过分析、挖掘这些工业数据能够提升企业数字化管理与质量数据分析能力.本文以轮胎行业制造大数据的应用为背景,分析了轮胎行业制造大数据的质量分析需求与数据特征,将轮胎生产各个环节的多源异构数据有效整合,经过数据预处理流程,构建了结构化的生产制造与质量检测关联分析数据集.针对传统ADTree算法性能较低的问题,本文使用优化后的自底向上的归纳方法进行了改进,充分利用已知数据,减少了建树时分裂测试评估的计算量.实验证明,改进后的ADTree算法更适用于大数据量的数据挖掘.ADTree的挖掘结果经过整理,可以找出影响轮胎质量的重要因素.  相似文献   

7.
陈燕  于放  田月  刘璐 《计算机系统应用》2018,27(10):268-272
随着互联网技术的快速发展,各行各业所产生的信息数据也在以指数级的速度增长.传统的车辆调度算法已经不能够很好地解决车辆调度问题中出现的实时性,大规模等问题.因此,本文构建了一种基于Hadoop的动态车辆调度并行智能优化算法.该算法以传统遗传算法为基础,通过改善遗传算法全局优化能力弱和收敛于局部次优解的问题,并利用Hadoop平台的并行计算机制对传统遗传算法进行改进,使其能够有效应对大规模、快速响应的车辆调度.数值计算结果表明:基于Hadoop的车辆调度算法能够有效提升传统调度算法的优化性能,在处理大规模车辆调度问题时具有良好的加速比.  相似文献   

8.
应用计算智能方法分析,有效地处理现实世界中的大规模数据,是当今人工智能、机器学习等领域所追求的目标之一.简单综述了SVM用于处理大规模数据方法的发展现状,并针对蛋白质结构预测中数据量庞大、数据维数过高等问题,提出了SVM基于分解算法的蛋白质二级结构预测的实现方法,并应用固定长度的字符串核对多类分类SVM算法进行了改进.实验表明,该方法是行之有效的.  相似文献   

9.
针对风电机组各部件性能分析过程繁琐低效、预测精度不高以及经济效益不足的非正常风电机组状态问题,提出一种基于风电SCADA数据定子温度的预处理算法.通过分析风电SCADA系统采集的各部件数据,对于其中发电机的定子温度,优化数据处理与分析的过程,改进现有的最优组内方差预处理算法,监测定子温度的趋势与非正常温度的状态,提高了对发电机定子的维修效率.通过实例分析表明改进后的最优组方差算法可行且高效,能够准确处理发电机定子温度曲线数据并通过使用神经网络进行预测,显著提高了风电机组中发电机定子温度预测的准确性.  相似文献   

10.
唐胜  胡洁  赵京虎 《计算机科学》2012,39(105):318-321,327
提出了一种基于海量数据挖掘的设备状态预警算法。工业设备有大量的历史运行数据,并且实时采样的数据维度多,数据量大,算法首先对设备良好运行状态下的大量历史数据进行自适应聚类分析,建立设备的数学模型,并根据此类模型和设备运行的实时状态值对设备的运行状态进行预测。该算法充分考虑工业应用的实际需求,自动确定聚类的数目,解决了传统聚类算法处理海量历史数据时的开销大和效率低的问题,并且保证了回归预测过程的高效性。仿真实验表明,该算法能够有效地处理海量数据,并且能够实时得到预测值,实现对设备的实时监控预测。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号