首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
在高性能计算作业调度系统中,许多调度算法依赖于对作业运行时间的准确估计,尤其是以EASY为代表的回填算法,而使用用户提供的作业运行时间往往会降低调度性能。提出了一种基于分类和实例学习相结合的作业运行时间预测算法--GA-Sim,该算法在考虑预测准确性的同时考虑了低估问题。在两个实际调度日志上的数值实验结果表明,相较于IRPA和TRIP算法,GA-Sim在取得更高预测精度的同时降低了低估率。 对数值实验结果进行了深入分析,并给出了不同情形下选择恰当预测算法的建议。  相似文献   

2.
分布式大数据计算引擎是科研机构、互联网企业和政府部门处理大规模数据必不可少的工具,它们的使用和推广促进了各个领域的快速发展,为社会进步做出了巨大贡献。但是,在多作业处理的情况下,目前主流的大数据计算引擎在资源分配和作业调度方面仍有许多不足之处,它们通常对多作业平均划分内存资源并以先进先出FIFO的方式调度作业,这样简单的资源划分方式和作业调度机制并不能充分利用系统性能。针对此问题,从计算引擎的作业层面做出了改进:在资源划分方面,通过提取作业特征对作业的任务量进行预估,判断作业任务量和作业预分配资源间的差异,合并对集群资源浪费较高的作业,充分利用计算资源;在作业调度方面,对作业池中的作业进行特征提取,使用多路K-means算法对作业进行聚类分析,然后基于分析的结果,使用自平衡轮询调度算法对作业进行调度,达到负载均衡的目的。为了验证所提算法的有效性,使用大规模文本数据集在分布式集群环境中进行对比实验,实验结果表明,提出的作业合并算法和多作业调度算法可以减少5%~23%的作业运行时间,提高了7.5%~29%的系统吞吐量,在最好情况下可减少40%的线程启动数。  相似文献   

3.
Spark SQL在超大规模集群和数据集上存在易用性问题,如Catalyst最优执行计划的选择,Shuffle Partition的配置对性能有较大的影响,数据倾斜往往导致集群性能变差。为了在作业执行之前准确预测执行时间,更加充分地使用运行时数据,选择最优执行计划,提出通过决策树及其组合算法的回归模型预测作业执行时间的方法。采用交叉验证方法优化模型超参数,通过剪枝和组合算法优化过度拟合问题,选择相关指标评估机器学习模型预测的准确性。实验表明,梯度提升树回归模型预测作业执行时间的R 2超过0.8,且能够满足在线预测的实时性要求,模型评估指标达到预期效果,相对于线性回归模型的评估指标具有一定的优势。  相似文献   

4.
Spark作为目前大数据处理领域广泛使用的计算平台,合理分配集群资源对Spark作业性能优化有着重要的作用.性能预测是集群资源分配优化的基础和关键,本文正是基于此提出了一种Spark性能预测模型.文中选取作业执行时间作为Spark性能衡量指标,提出了Spark作业关键阶段的概念,通过运行小批量数据集来获取关键阶段的运行时间和作业输入数据量之间关系,从而构建了Spark性能预测模型.实验结果表明该模型较为有效.  相似文献   

5.
新兴分布式计算框架ApacheFlink支持在集群上执行大规模的迭代程序,但其默认的静态资源分配机制导致无法进行合理的资源配置来使迭代作业按时完成.针对这一问题,应该依靠用户来主动表达性能约束而不是被动地进行资源保留,故提出了一种基于运行时间预测的动态资源分配策略RABORP (resource allocation based on runtimeprediction),来为具有明确运行时限的Flink迭代作业制定动态资源分配计划并实施.其主要思想是:通过预测各个迭代超步的运行时间,然后根据预测结果在迭代作业提交时和超步间的同步屏障处分别进行资源的初始分配和动态调整,以保证可使用最小资源集,使迭代作业在用户规定的运行时限内完成.通过在不同数据集下执行多种典型的Flink迭代作业进行了相关对比实验,实验结果表明,所建立的运行时间预测模型能够对各个超步的运行时间进行准确预测,而且在单作业和多作业场景下,采用所提出的动态资源分配策略相比于目前最先进算法在各项性能指标上都有所提升.  相似文献   

6.
软件缺陷预测是典型的类不均衡学习问题,其中有缺陷的样本数量远少于无缺陷的样本数量,但有缺陷的样本通常是预测的重点。现有的软件预测模型大多建立在基于静态度量元的软件缺陷数据集上,重点关注如何平衡类分布,而忽略了数据集中属性特征对软件缺陷的判别能力。当软件缺陷数据集中的属性特征对类目标概念缺乏判别能力时,传统机器学习算法难以构建有效的软件缺陷预测模型,从而无法获得有效的预测性能。为此,提出了一种基于不相似性的软件缺陷预测算法,通过改善软件缺陷数据集中属性的判别能力,进而提升软件缺陷预测性能。实验证明:基于不相似性的软件缺陷预测算法能够有效地改善传统机器学习算法在软件缺陷数据集上的预测性能。  相似文献   

7.
传统基于用户预估的执行时间通常准确性较差。结合分类和基于实例的学习方法,综合使用模板相似和数值相似方法,在历史调度数据中获取当前作业的相似作业,并使用其历史信息预测当前作业执行时间。使用调度历史中的用户名、分组名、队列名、应用名、用户请求处理器数、用户请求(预估)执行时间和用户请求内存量等属性进行训练和预测,算法中涉及的参数使用遗传算法确定。数值实验表明,相较于已有文献,本方法在使用更少参数的前提下得到了与文献结果中相近的低估率,并获得了更低的平均绝对误差。在HPC2N04和HPC2N05日志数据集上,平均绝对误差分别降低了43%和77%。研究了使用在线预测替换用户估计对作业调度的影响,对结果进行了初步分析并指出了今后的改进方向。  相似文献   

8.
针对Hadoop异构集群中计算和数据资源的不一致分布所导致的调度性能较低的缺点,设计了一种基于Hadoop集群和改进Late算法的并行作业调度算法;首先,介绍了基于Hadoop框架和Map-Reduce模型的调度原理,然后,在经典的Late调度算法的基础上,对Map任务和Reduce任务的各阶段执行时间进度比例进行存储和更新,为了进一步地提高调度效率,将慢任务迁移到本地化节点或离数据资源较近的物理节点上,并给了基于改进Late算法的作业调度流程;为了验证文中方法,在Hadoop集群系统上测试,设定1个为Jobtracker主控节点和7个为TaskTracker节点,实验结果表明文中方法能实现异构集群的作业调度,且与其它方法比较,具有较低的预测误差和较高的调度效率。  相似文献   

9.
数据中心工作负载混合部署在显著提升云数据中心的资源利用率的同时,也增加了调度的复杂性和作业的失效率.以阿里云发布的数据中心日志数据集cluster-trace-v2018为例,从离线批处理工作负载角度出发,详细地分析了不同类型工作负载在成功率和资源利用上的特征.主要发现如下:1)少量类型作业的失效会影响集群整体作业成功率并造成集群资源的浪费;2)伏羲分布式调度系统在任务故障切换执行时间上满足高斯分布,在任务调度延迟方面满足齐夫分布;3)通过分析失败实例在集群节点上的分布,发现集群作业发生失败在空间上具有随机性,且失败的实例很容易再次发生失败,而在时间上集群整体失败率则存在不平衡性;4)以任务实例的失效为基准,计算了集群节点的平均无故障时间,大部分节点的平均无故障时间在1000 s左右,小部分节点的任务实例失效率低,其平均无故障时间可达10000 s以上.  相似文献   

10.
加密货币挖矿恶意软件的高盈利性和匿名性,对计算机用户造成了巨大威胁和损失。为了对抗挖矿恶意软件带来的威胁,基于软件静态特征的机器学习检测器通常选取单一类型的静态特征,或者通过集成学习来融合不同种类静态特征的检测结果,忽略了不同种类静态特征之间的内在联系,其检测率有待提升。文章从挖矿恶意软件的内在层级联系出发,自下而上提取样本的基本块、控制流程图和函数调用图作为静态特征,训练三层模型以将这些特征分别嵌入向量化,并逐渐汇集从底层到高层的特征,最终输入分类器实现对挖矿恶意软件的检测。为了模拟真实环境中的检测情形,先在一个小的实验数据集上训练模型,再在另一个更大的数据集上测试模型的性能。实验结果表明,三层嵌入模型在挖矿恶意软件检测上的性能领先于近年提出的机器学习模型,在召回率和准确率上相比其他模型分别提高了7%和3%以上。  相似文献   

11.
GA-based learning bias selection mechanism for real-time scheduling systems   总被引:1,自引:0,他引:1  
The use of machine learning technologies in order to develop knowledge bases (KBs) for real-time scheduling (RTS) problems has produced encouraging results in recent researches. However, few researches focus on the manner of selecting proper learning biases in the early developing stage of the RTS system to enhance the generalization ability of the resulting KBs. The selected learning bias usually assumes a set of proper system features that are known in advance. Moreover, the machine learning algorithm for developing scheduling KBs is predetermined. The purpose of this study is to develop a genetic algorithm (GA)-based learning bias selection mechanism to determine an appropriate learning bias that includes the machine learning algorithm, feature subset, and learning parameters. Three machine learning algorithms are considered: the back propagation neural network (BPNN), C4.5 decision tree (DT) learning, and support vector machines (SVMs). The proposed GA-based learning bias selection mechanism can search the best machine learning algorithm and simultaneously determine the optimal subset of features and the learning parameters used to build the RTS system KBs. In terms of the accuracy of prediction of unseen data under various performance criteria, it also offers better generalization ability as compared to the case where the learning bias selection mechanism is not used. Furthermore, the proposed approach to build RTS system KBs can improve the system performance as compared to other classifier KBs under various performance criteria over a long period.  相似文献   

12.
Existing thermal comfort prediction approaches by machine learning models have been achieving great success based on large datasets in sustainable Industry 4.0 environment. However, the industrial Internet of Things (IoT) environment generates small-scale datasets where each dataset may contain lots of worker’s private data. The latter is challenging the current prediction approaches as small datasets running a large number of iterations can result in overfitting. Moreover, worker’s privacy has been a public concern throughout recent years. Therefore, there must be a trade-off between developing accurate thermal comfort prediction models and worker’s privacy-preserving. To tackle this challenge, we present a privacy-preserving machine learning technique, federated learning (FL), where an FL-based neural network algorithm (Fed-NN) is proposed for thermal comfort prediction. Fed-NN departs from current centralized machine learning approaches where a universal learning model is updated through a secured parameter aggregation process in place of sharing raw data among different industrial IoT environments. Besides, we designed a branch selection protocol to solve the problem of communication overhead in federating learning. Experimental studies on a real dataset reveal the robustness, accuracy, and stability of our algorithm in comparison to other machine learning algorithms while taking privacy into consideration.  相似文献   

13.
由于共享单车的流动性强,随机性很高,因此快速精确地预测出城市共享单车的短时需求量具有十分重要的意义。采用随机森林、极端随机树、支持向量机、人工神经网络、XGBoost这5种机器学习方法,基于美国华盛顿共享单车项目数据,分析时间因子、气象因子等对单车需求量的影响,实现对共享单车短时需求量的预测。仿真结果表明,影响单车需求量的主要因素包括温度、节假日、季节以及早晚高峰时间段等因素;极端随机树的预测效果最优,MAE和RMSE最小,为22.93和36.84,训练集得分和验证集得分最高,为1.0和0.941,与随机森林和其它算法相比,鲁棒性高,泛化能力强,且预测结果曲线与真实结果曲线相吻合,预测精度高,可为实际的车辆预测和调度提供参考依据。  相似文献   

14.
遥感图像飞机目标分类的卷积神经网络方法   总被引:2,自引:0,他引:2       下载免费PDF全文
目的 遥感图像飞机目标分类,利用可见光遥感图像对飞机类型进行有效区分,对提供军事作战信息有重要意义。针对该问题,目前存在一些传统机器学习方法,但这些方法需人工提取特征,且难以适应真实遥感图像的复杂背景。近年来,深度卷积神经网络方法兴起,网络能自动学习图像特征且泛化能力强,在计算机视觉各领域应用广泛。但深度卷积神经网络在遥感图像飞机分类问题上应用少见。本文旨在将深度卷积神经网络应用于遥感图像飞机目标分类问题。方法 在缺乏公开数据集的情况下,收集了真实可见光遥感图像中的8种飞机数据,按大致4∶1的比例分为训练集和测试集,并对训练集进行合理扩充。然后针对遥感图像与飞机分类的特殊性,结合深度学习卷积神经网络相关理论,有的放矢地设计了一个5层卷积神经网络。结果 首先,在逐步扩充的训练集上分别训练该卷积神经网络,并分别用同一测试集进行测试,实验表明训练集扩充有利于网络训练,测试准确率从72.4%提升至97.2%。在扩充后训练集上,分别对经典传统机器学习方法、经典卷积神经网络LeNet-5和本文设计的卷积神经网络进行训练,并在同一测试集上测试,实验表明该卷积神经网络的分类准确率高于其他两种方法,最终能在测试集上达到97.2%的准确率,其余两者准确率分别为82.3%、88.7%。结论 在少见使用深度卷积神经网络的遥感图像飞机目标分类问题上,本文设计了一个5层卷积神经网络加以应用。实验结果表明,该网络能适应图像场景,自动学习特征,分类效果良好。  相似文献   

15.
共享单车系统日益普及,积累了海量的出行轨迹数据.在共享单车系统中,用户的借车和还车行为是随机的,且受天气、时间等动态因素影响,使得共享单车调度不平衡,影响单车用户体验,并给运营商造成巨大经济损失.提出了新型基于站点聚类的共享单车需求预测算法,通过构建单车转移网络计算站点活跃度,充分考虑站点地理位置和单车转移模式因素,基...  相似文献   

16.
为了充分利用电力信息系统中的异构数据源挖掘出电网中存在的安全威胁, 本文提出了基于受限玻尔兹曼机(Restricted Boltzmann Machine, RBM)的多源日志综合特征提取方法, 首先采用受限玻尔兹曼机神经网络对各类日志信息进行规范化编码, 随后采用对比散度快速学习方法优化网络权值, 利用随机梯度上升法最大化对数似然函数对RBM模型进行训练学习, 通过对规范化编码后的日志信息进行处理, 实现了数据降维并得到融合后的综合特征, 有效解决了日志数据异构性带来的问题. 通过在电力信息系统中搭建大数据威胁预警监测实验环境, 并进行了安全日志综合特征提取及算法验证, 实验结果表明, 本文所提出的基于RBM的多源日志综合特征提取方法能用于聚类分析、异常检测等各类安全分析, 在提取电力信息系统中日志特征时有较高的准确率, 进而提高了网络安全态势预测的速度和预测精度.  相似文献   

17.
目的 传统的遥感影像分割方法需要大量人工参与特征选取以及参数选择,同时浅层的机器学习算法无法取得高精度的分割结果。因此,利用卷积神经网络能够自动学习特征的特性,借鉴处理自然图像语义分割的优秀网络结构,针对遥感数据集的特点提出新的基于全卷积神经网络的遥感影像分割方法。方法 针对遥感影像中目标排列紧凑、尺寸变化大的特点,提出基于金字塔池化和DUC(dense upsampling convolution)结构的全卷积神经网络。该网络结构使用改进的DenseNet作为基础网络提取影像特征,使用空间金字塔池化结构获取上下文信息,使用DUC结构进行上采样以恢复细节信息。在数据处理阶段,结合遥感知识将波段融合生成多源数据,生成植被指数和归一化水指数,增加特征。针对遥感影像尺寸较大、采用普通预测方法会出现拼接痕迹的问题,提出基于集成学习的滑动步长预测方法,对每个像素预测14次,每次预测像素都位于不同图像块的不同位置,对多次预测得到的结果进行投票。在预测结束后,使用全连接条件随机场(CRFs)对预测结果进行后处理,细化地物边界,优化分割结果。结果 结合遥感知识将波段融合生成多源数据可使分割精度提高3.19%;采用基于集成学习的滑动步长预测方法可使分割精度较不使用该方法时提高1.44%;使用全连接CRFs对预测结果进行后处理可使分割精度提高1.03%。结论 针对宁夏特殊地形的遥感影像语义分割问题,提出基于全卷积神经网络的新的网络结构,在此基础上采用集成学习的滑动步长预测方法,使用全连接条件随机场进行影像后处理可优化分割结果,提高遥感影像语义分割精度。  相似文献   

18.
李洪亮  张弄  孙婷  李想 《计算机应用》2022,42(6):1649-1655
通过分析分布式机器学习中作业性能干扰的问题,发现性能干扰是由于内存过载、带宽竞争等GPU资源分配不均导致的,为此设计并实现了快速预测作业间性能干扰的机制,该预测机制能够根据给定的GPU参数和作业类型自适应地预测作业干扰程度。首先,通过实验获取分布式机器学习作业运行时的GPU参数和干扰率,并分析出各类参数对性能干扰的影响;其次,依托多种预测技术建立GPU参数-干扰率模型进行作业干扰率误差分析;最后,建立自适应的作业干扰率预测算法,面向给定的设备环境和作业集合自动选择误差最小的预测模型,快速、准确地预测作业干扰率。选取5种常用的神经网络作业,在两种GPU设备上设计实验并进行结果分析。结果显示,所提出的自适应干扰预测(AIP)机制能够在不提供任何预先假设信息的前提下快速完成预测模型的选择和性能干扰预测,耗时在300 s以内,预测干扰率误差在2%~13%,可应用于作业调度和负载均衡等场景。  相似文献   

19.
乳腺癌一直是影响女性健康最重要的问题之一,已经成为全球女性发病率最高的恶性肿瘤。近年来,利用机器学习和深度学习方法来诊断癌症已经成为发展较快的一个分支。通过使用逻辑回归模型(LR)、高斯核函数支持向量机(SVM)、前馈神经网络(MLP)对同一数据集进行预测,得出其中SVM迭代时间最短,前馈神经网络预测准确率最高。为了减少前馈神经网络的迭代时间,提出了基于SVM优化的前馈神经网络分类乳腺癌模型,实验结果表明:基于SVM优化后的前馈神经网络模型与Logistic模型、传统SVM模型相比具有更高的分类准确率,且迭代时间相对减少。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号