首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 859 毫秒
1.
搬运系统作业分配问题的小脑模型关节控制器Q学习算法   总被引:1,自引:1,他引:0  
研究两机器人高速搬运系统的作业分配问题. 在系统的Markov决策过程(MDP)模型中, 状态变量具有连续取值和离散取值的混杂性, 状态空间复杂且存在“维数灾”问题, 传统的数值优化难以进行. 根据小脑模型关节控制器(CMAC)具有收敛速度快和适应性强的特点, 运用该结构作为Q值函数的逼近器, 并与Q学习和性能势概念相结合, 给出了一种适用于平均或折扣性能准则的CMAC-Q学习优化算法. 仿真结果说明, 这种神经元动态规划方法比常规的Q学习算法具有节省存储空间, 优化精度高和优化速度快的优势.  相似文献   

2.
平均奖赏强化学习算法研究   总被引:7,自引:0,他引:7  
高阳  周如益  王皓  曹志新 《计算机学报》2007,30(8):1372-1378
顺序决策问题常用马尔可夫决策过程(MDP)建模.当决策行为执行从时刻点扩展到连续时间上时,经典的马尔可夫决策过程模型也扩展到半马尔可夫决策过程模型(SMDP).当系统参数未知时,强化学习技术被用来学习最优策略.文中基于性能势理论,证明了平均奖赏强化学习的逼近定理.通过逼近相对参考状态的性能势值函数,研究一个新的平均奖赏强化学习算法--G-学习算法.G-学习算法既可以用于MDP,也可以用于SMDP.不同于经典的R-学习算法,G-学习算法采用相对参考状态的性能势值函数替代相对平均奖赏和的相对值函数.在顾客访问控制和生产库存仿真实验中,G-学习算法表现出优于R-学习算法和SMART算法的性能.  相似文献   

3.
本文通过引入马氏决策过程中的迭代算法,研究了计时离散事件系统的随机优化监控综合问题。为了对不确定的人造系统实施监控,在考虑事件的操作时间的基础上,利用带有发生事件概率分布函数的随机计时离散事件系统模型对系统建模。为了对这类随机系统实施监控,在传统方法中,采用控制任务的最大可控子语言设计控制器,不能体现系统模型的随机特性。本文提出利用软控制任务代替原控制任务的方法,使其超出原控制任务的概率在给定的容许度约束范围内。首先,通过在计时离散事件系统中定义计时事件的发生概率映射和发生费用函数,利用离散事件系统的逻辑特性,构造事件发生序列的期望费用函数,进而确立马氏决策过程的最优方程,建立软控制任务与期望费用函数之间的关系。然后,通过计算事件发生序列的费用值,提出利用有限费用值可以用来确定软控制任务,进而基于逻辑监控方法,确定最优监控器。最后,利用计算有限费用值的迭代过程,提出迭代算法,并给出了计算实例。  相似文献   

4.
针对多无人作战飞机动态任务分配问题,以马尔科夫决策过程理论为基础,建立基于多智能体马尔科夫决策过程MMDP(Multi-Agent Markov Decision Process)的动态任务分配模型;系统中状态信息、目标的出现和收益值等均服从概率分布;改进的MM-DP寻优算法以多UCAV在有限时间内执行任务收益值最大为评价函数,并应用遗传算法在所有可选决策集中确定最优任务分配策略;数值仿真验证了算法的有效性。  相似文献   

5.
基于性能势的方法 ,研究了一类半Markov过程 (SMP)的性能灵敏度分析和平均费用下的性能优化问题 .将SMP转化为与之等价的离散时间Markov链 (DTMC) ,利用DTMC的性能势 ,对SMP进行灵敏度分析和性能优化 ,得到了SMP基于DTMC性能势的灵敏度分析公式和最优性方程 .最后给出了一个数值例子以表明该方法的应用 .  相似文献   

6.
本文在对离散事件动态系统(DEDS)进行仿真研究的基础上,提出了一种基于仿真优化的DEDS控制方法。它首先通过离线仿真优化建立DEDS控制数据库,然后在系统的运行过程中,不断地检测系统的状态,并根据状态值,检索控制数据库,实施控制.以得到对离散事件动态系统进行控制的目的。  相似文献   

7.
平均和折扣准则MDP基于TD(0)学习的统一NDP方法   总被引:3,自引:0,他引:3  
为适应实际大规模M arkov系统的需要,讨论M arkov决策过程(MDP)基于仿真的学习优化问题.根据定义式,建立性能势在平均和折扣性能准则下统一的即时差分公式,并利用一个神经元网络来表示性能势的估计值,导出参数TD(0)学习公式和算法,进行逼近策略评估;然后,根据性能势的逼近值,通过逼近策略迭代来实现两种准则下统一的神经元动态规划(neuro-dynam ic programm ing,NDP)优化方法.研究结果适用于半M arkov决策过程,并通过一个数值例子,说明了文中的神经元策略迭代算法对两种准则都适用,验证了平均问题是折扣问题当折扣因子趋近于零时的极限情况.  相似文献   

8.
对话策略是人机对话系统中的重要组成成分,其性能的优劣直接影响对话系统的性能.在面对完全没有数据的冷启动场景时,收集对话数据进行对话策略学习的过程非常复杂和耗时.为在冷启动场景下能够保持良好性能,提出一种融合马尔科夫决策过程与信息熵的对话算法.利用马尔科夫决策过程快速获得下一步最优对话状态,并结合知识库通过引入属性信息熵方法排除多个状态值函数相同的最优状态,从而获取最优的系统响应动作.在音乐搜索领域数据集上的实验结果表明,与随机策略、基于规则和基于信息熵的算法相比,该算法分别缩短了2.24、0.84和0.03个对话轮次,且能够有效提高对话任务完成率.  相似文献   

9.
对话策略是人机对话系统中的重要组成成分,其性能的优劣直接影响对话系统的性能.在面对完全没有数据的冷启动场景时,收集对话数据进行对话策略学习的过程非常复杂和耗时.为在冷启动场景下能够保持良好性能,提出一种融合马尔科夫决策过程与信息熵的对话算法.利用马尔科夫决策过程快速获得下一步最优对话状态,并结合知识库通过引入属性信息熵方法排除多个状态值函数相同的最优状态,从而获取最优的系统响应动作.在音乐搜索领域数据集上的实验结果表明,与随机策略、基于规则和基于信息熵的算法相比,该算法分别缩短了2.24、0.84和0.03个对话轮次,且能够有效提高对话任务完成率.  相似文献   

10.
乐观策略下并行离散事件仿真动态负载划分优化算法   总被引:4,自引:0,他引:4  
动态负载划分是提高并行离散事件仿真运行性能的有效途径之一.现有研究往往孤立地考虑计算负载平衡和通信负载优化,使得复杂应用背景下整体性能低下.论文综合考虑仿真模型计算负载和交互模式,提出了一个基于带权重无向图有限容量k划分问题的并行离散事件仿真负载划分模型,并配合一套通用的仿真运行性能度量方法,提出了一个基于顶点交换的启发式局部搜索近似划分算法,实现了在计算负载平衡的前提下系统通信负载最优化,其近似解与全局最优解比值不小于(1-1/|N|)(1-ε).实验证明了该动态负载划分算法的有效性和实用性.  相似文献   

11.
随着高性能计算技术的不断发展,并行程序的设计、调试、优化逐渐成为并行技术应用的关键,而性能工具在提高并行程序的执行效率方面发挥着重要的作用。本文阐述了并行程序性能工具的系统结构,以及各个模块功能的原理,并实现了一个基于MPI消息统计的性能工具。  相似文献   

12.
基于构件的软件性能模型及评估技术研究   总被引:1,自引:1,他引:1  
该文讲述了在基于构件的软件开发中,建立应用系统的性能模型,以及对系统的性能进行预测和评估的方法,并介绍了构建一个满足预期性能目标的软件系统的步骤。  相似文献   

13.
As to control systems, transient performance is as important as steady-state performance. For some special dynamic systems, transient performance is a more prior index in comparison with the steady-state one. Prescribed performance control (PPC) has been proved to be a powerful tool that guarantees control system outputs/errors with desired transient performance as well as steady-state performance. The purpose of this paper is to give a comprehensive review on the latest developments of PPC theories and applications. The existing performance functions are classified into five different categories, and their features are comprehensively compared, providing a useful guidance for further applications. Then, the latest developments of PPC's applications in all kinds of control systems are recalled. Specially, the faced challenges and theoretical defects of PPC are discussed, which is expected to point out the further research direction for PPC.  相似文献   

14.
Ling  Yibei  Chen  Shigang  Lin  Xiaola 《World Wide Web》2004,7(3):241-258
The performance regularity is concerned with the overall performance behavior of a system in the full spectrum of working area. Such a performance characteristic is generally overlooked and does not receive proper attention. The aim of this paper is twofold. First, it raises awareness of the importance of the performance regularity of a Web server. Secondly, it introduces the Gini performance coefficient (GPC) as a scale-invariant metric for measuring the performance regularity. In this paper, we present the theorems that relate the performance regularity of a Web server to the GPC, thereby providing a quantitative yardstick that complements the system capacity metric such as maximum throughput for measuring the system performance. To illustrate the use of the proposed approach, we calculate the values of GPC for several representative systems that were used in the public SPECweb96 benchmark study. The results are completely in line with our theoretical analysis.  相似文献   

15.
This paper presents a survey of the existing work in the area of interval-based performance analysis of computing systems. Intervals in performance analysis is required when uncertainties or variabilities exist in the workload parameters for the performance model of the system. Intervals are also useful for computing upper and lower bounds on system performance. Most conventional analytic models accept a set of single valued parameters and produce a single valued model output. Adaptation of these existing models to handle interval parameters require new techniques that use interval arithmetic. Experiences with relational interval arithmetic provided by a constraint logic programming language in solving a number of performance analysis problems in conventional multiprogrammed computers as well as distributed processing systems are described.  相似文献   

16.
描述了系统性能极限理论的研究对象、背景和意义,并简要介绍了系统性能极限理论所涉及到的四个相关问题,如:左可逆与右可逆系统、零点与零点方向、极点与极点方向以及灵敏度函数与互补灵敏度函数.同时,从H2型性能极限、频域及H∞型性能极限、时域及其他性能极限三方面综述了系统性能极限理论的研究现状,并对其未来的发展进行了展望.  相似文献   

17.
The identification of performance issues and the diagnosis of their root causes are time‐consuming and complex tasks, especially in clustered environments. To simplify these tasks, researchers have been developing tools with built‐in expertise for practitioners. However, various limitations exist in these tools that prevent their efficient usage in the performance testing of clusters (e.g. the need of manually analysing huge volumes of distributed results). In a previous work, we introduced a policy‐based adaptive framework (PHOEBE) that automates the usage of diagnosis tools in the performance testing of clustered systems, in order to improve a tester's productivity, by decreasing the effort and expertise needed to effectively use such tools. This paper extends that work by broadening the set of policies available in PHOEBE, as well as by performing a comprehensive assessment of PHOEBE in terms of its benefits, costs and generality (with respect to the used diagnosis tool). The performed evaluation involved a set of experiments in assessing the different trade‐offs commonly experienced by a tester when using a performance diagnosis tool, as well as the time savings that PHOEBE can bring to the performance testing and analysis processes. Our results have shown that PHOEBE can drastically reduce the effort required by a tester to do performance testing and analysis in a cluster. PHOEBE also exhibited consistent behaviour (i.e. similar time‐savings and resource utilisations), when applied to a set of commonly used diagnosis tools, demonstrating its generality. Finally, PHOEBE proved to be capable of simplifying the configuration of a diagnosis tool. This was achieved by addressing the identified trade‐offs without the need for manual intervention from the tester. Copyright © 2017 John Wiley & Sons, Ltd.  相似文献   

18.
一种新的计算机抗攻击自身免疫模型   总被引:1,自引:1,他引:0  
提出了一种新的计算机抗攻击自身免疫模型,形式化地阐述了模型如何使得不合法的程序和代码不能够执行,合法的程序和代码不能够执行未授权访问;合法的程序和代码的可疑行为受到严格的控制但是可以根据不同的阈值来保证实用性。这种模型不需要计算和识别计算机攻击的具体特征,而通过直接消除攻击能够实施破坏和传播的前提条件,使得计算机系统对攻击具备自身免疫能力。  相似文献   

19.
面向对象冗余服务系统的性能分析与测试   总被引:1,自引:0,他引:1  
通过对面向对象冗余服务系统的性能指标分析 ,结合实际应用中用户最为关心的性能价格比问题 ,利用数学分析模型 ,找出了满足冗余系统服务的最优解 ,并在此基础之上 ,对冗余系统的性能进行了分析与测试  相似文献   

20.
苗学问  杨云  雷迅  张卫 《测控技术》2011,30(12):106-110
基于健康退化曲线对军用飞机故障预测与健康管理( PHM)技术的内涵、基本功能和能力需求进行探讨,在此基础上,以科学评价PHM( prognostics and health management)系统的诊断和预测能力为目标,从能力需求出发提出PHM系统性能度量方法体系(包括诊断性能度量、预测性能度量以及综合度量),并对...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号