排序方式: 共有73条查询结果,搜索用时 218 毫秒
1.
强化学习问题中,同一状态下不同动作所对应的状态-动作值存在差距过小的现象,Q-Learning算法采用MAX进行动作选择时会出现过估计问题,且结合了Q-Learning的深度Q网络(Deep Q Net)同样存在过估计问题。为了缓解深度Q网络中存在的过估计问题,提出一种基于优势学习的深度Q网络,通过优势学习的方法构造一个更正项,利用目标值网络对更正项进行建模,同时与深度Q网络的评估函数进行求和作为新的评估函数。当选择的动作是最优动作时,更正项为零,不对评估函数的值进行改动,当选择的动作不是最优动作时,更正项的值为负,降低了非最优动作的评估值。和传统的深度Q网络相比,基于优势学习的深度Q网络在Playing Atari 2600的控制问题breakout、seaquest、phoenix、amidar中取得了更高的平均奖赏值,在krull、seaquest中取得了更加稳定的策略。 相似文献
2.
针对分层强化学习需要人工给出层次结构这一问题,同时考虑到基于状态空间的自动分层方法在环境状态中没有明显子目标时分层效果并不理想的情况,提出一种基于动作空间的自动构造层次结构方法。首先,根据动作影响的状态分量将动作集合划分为多个不相交的子集;然后,分析Agent在不同状态下的可用动作,并识别瓶颈动作;最后,由瓶颈动作与执行次序确定动作子集之间的上下层关系,并构造层次结构。此外,对MAXQ方法中子任务的终止条件进行修改,使所提算法构造的层次结构可以通过MAXQ方法找到最优策略。实验结果表明,所提算法可以自动构造层次结构,而不会受环境变化的干扰。与Q学习、Sarsa算法相比,MAXQ方法根据该结构得到最优策略的时间更短,获得回报更高。验证了所提算法能够有效地自动构造MAXQ层次结构,并使寻找最优策略更加高效。 相似文献
3.
根据卫生部药政发(94)第530号文精神及卫生部(93)S-59号新生物制品批件要求,由广州市卫生防疫站、中国药品生物制品检定所等单位对卫生部生物制品总公司协作组、长春等5个生研所试生产的吸附精制百白破混合制剂(APDT)进行了回期临床反应观察。旨在通过本次大规模的婴幼儿人群接种反应观察,了解该制剂有无严重异常反应发生及其发生率,以便对该制剂的安全性作出进一步评价,为该制剂获取正式生产文号以及在全国范围内推广应用提供新的科学依据。观察于1995年4月开始,到1996年8月底为止,为期1年4个月,在广州市8个区(市)中进行… 相似文献
4.
缝纫泡沫夹芯复合材料中的纤维柱在拔出过程中的破坏行为复杂导致结构承载性能难以预测。采用真空辅助树脂注射(VARI)工艺制备了缝纫泡沫夹芯复合材料,并使用层间拉伸试验(ITT)研究了缝纫泡沫夹芯复合材料中含有单根缝线纤维柱细观试件的破坏过程。讨论了不同破坏现象对缝线纤维柱拔出摩擦过程的影响,并分析了缝纫泡沫夹芯复合材料的破坏模式。分析了缝线粗细的变化对试件破坏过程中关键的力、位移等参数及能量吸收性能的影响。研究了由于成型工艺所导致的缺胶现象对缝纫泡沫夹芯复合材料性能的影响。结果表明:缝纫泡沫夹芯复合材料的能量吸收性能、关键位移参数及最大载荷都随着缝线变粗而增大。但是缝纫泡沫夹芯复合材料的破坏模式对其也有一定的影响,导致了变化趋势的波动;缺胶缝纫泡沫夹芯复合材料由于缺陷的存在,最大破坏载荷和能量吸收性能均有所下降。 相似文献
5.
通过对典型振冲挤密法施工方法的研究,分析了该方法的加固机理,指出它可提高地基承载力、减少沉降和不均匀沉降,且能达到地基抗地震、抗液化能力的效果。 相似文献
6.
目的 为了解洪涝灾害对钩端螺旋体 (钩体 )病流行菌型的影响 ,在我国钩体病流行比较严重的省市地区进行菌株分离观察。方法 采用经典的显微镜凝集试验和交叉凝集素吸收试验进行血清学分类比较。结果 6省市的 2 8株钩体菌株分属 7个血清群 9个血清型 ,其中发现 2个新的血清型 ,暂定为贺岩型和沅江型 ,代表菌分别为L2 31株和沅江 2 7株。结论 对流行区的 2 8株钩体菌株进行了血清学分类 ,为钩体病的诊断提供了新的依据。 相似文献
7.
为了解由卫生部生物制品总公司协作组和长春生物制品研究所等单位研制的吸附精制百白破混合制剂(aPDT)的免疫持久性和加强免疫的时间,在浙江省余杭县选择了3~5月龄健康婴幼儿,按随机双盲分成两组,分别注射aPDT和吸附全菌体百白破混合制剂(aPDT)进行比较。每组IOO人左右,先进行基础免疫,臀部肌肉注射3次,每次0.sml,间隔4周,基免后回年再加强注射1次,剂量为0.sml。于全程基免前后1月以及1年后加强注射前后卫月和1年分别取手指末端血检测百日咳凝集素、抗PT、抗FHA及白喉、破伤风血凝抗体。结果证明:1.aPDT与wPDT… 相似文献
8.
9.
提出一种在玻璃纤维/环氧树脂复合材料表面化学镀镍的简化工艺,首先在复合材料表面引入含有镀镍短纤维的过渡层,复合材料与过渡层共固化成型。通过机械粗化、酸化、化学镀工艺成功地在玻璃纤维/环氧树脂复合材料表面沉积一层连续致密的Ni-P镀层。采用超景深显微镜观察化学镀后镀层的表面形貌,并采用SEM对镀层截面特征进行观测。系统地研究了化学镀时间、装载量对镀层表面形貌、镀层厚度与镀层沉积速度的影响规律,并测量了复合材料/镍镀层界面结合强度。试验结果表明,当化学镀时间为8 h、装载量为1.25 dm2/L时,镀层厚度能达到38.96μm,镀层结合强度达到8.45 MPa。 相似文献
10.
目的提高当前图像匹配算法的匹配精度与鲁棒性。方法引入Forstner算子,精确提取图像特征点;采用一阶Haar小波来生成特征点主方向,并通过求取Haar小波响应来生成特征描述子;利用特征向量构建余弦约束模型,联合特征向量的距离度量方法构成双重匹配约束,从而完成特征点之间的匹配;引入投票机制对RANSAC方法进行改进,制定多重筛选方法对伪匹配点进行剔除,完成图像匹配。结果与目前图像匹配方法相比,文中提出的算法具有更强的鲁棒性与匹配精度,在特征总数为200个时,所提算法的匹配正确数量达到196个。结论所提匹配技术具有较好的匹配正确率,对包装印刷产品的识别以及信息安全检测等领域具有较好的应用价值。 相似文献