期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

杜嘻嘻程华房一泉《计算机应用》2021,41(3):699-705

针对长文本自动摘要任务中抽取式模型摘要较为冗余,而生成式摘要模型时常有关键信息丢失、摘要不准确和生成内容重复等问题,提出一种面向长文本的基于优势演员-评论家算法的强化自动摘要模型（A2C-RLAS）。首先,用基于卷积神经网络（CNN）和循环神经网络（RNN）的混合神经网络的抽取器（extractor）来提取原文关键句;然后,用基于拷贝机制和注意力机制的重写器（rewriter）来精炼关键句;最后,使用强化学习的优势演员-评论家（A2C）算法训练整个网络,把重写摘要和参考摘要的语义相似性（BERTScore值）作为奖励（reward）来指导抽取过程,从而提高抽取器提取句子的质量。在CNN/Daily Mail数据集上的实验结果表明,与基于强化学习的抽取式摘要（Refresh）模型、基于循环神经网络的抽取式摘要序列模型（SummaRuNNer）和分布语义奖励（DSR）模型等模型相比,A2C-RLAS的最终摘要内容更加准确、语言更加流畅,冗余的内容有效减少,且A2C-RLAS的ROUGE和BERTScore指标均有提升。相较于Refresh模型和SummaRuNNer模型,A2C-RLAS模型的ROUGE-L值分别提高了6.3%和10.2%;相较于DSR模型,A2C-RLAS模型的F1值提高了30.5%。相似文献

2.

基于自注意力网络的共享账户跨域序列推荐

郭磊李秋菊刘方爱王新华《计算机研究与发展》2021,58(11):2524-2537

共享账户跨域序列推荐(shared-account cross-domain sequential recommendation,SCSR)是指在多个用户共同使用一个账户和用户的行为会在多个域中产生的情况下,给该账户推荐下一个可能会点击的项目.与传统的序列推荐任务相比,共享账户跨域序列推荐主要面临2方面的挑战:1)每一个账户里的交互行为是由多个用户产生的,并且这些用户的行为是混合在一起的;2)用户在1个域中产生的交互行为可能会提升推荐系统对该用户在其他域的推荐质量.目前,已有的一些相关工作大都是基于循环神经网络(recurrent neural network,RNN)的方法,但由于RNN本身固有的一些缺陷,导致基于RNN的方法不仅非常耗时,而且不能够很好地捕获交互行为之间的长期依赖关系针对SCSR问题,提出了基于自注意力的跨域推荐模型(self-attention-based cross-domain recommendation model,SCRM)来解决这2个挑战具体而言,首先引入1个多头自注意力网络来建模1个共享账户中多个用户参与的交互行为.然后,提出了一个基于多层交叉映射感知网络的跨域传输单元,以实现借助一个域的信息来提高另一个域的推荐质量最后,通过一个混合推荐解码器整合了来自2个域的信息以实现在不同域中的推荐.在真实数据集HVIDEO上进行了实验,实验结果表明,与目前最新的基准方法相比,所提出的模型能在MRR和Recall 这 2个指标上取得了更加优异的结果;在运行效率上,比基于RNN的方法取得了更短的训练和学习时间. 相似文献

3.

基于深度学习的藏文分词方法

李博涵刘汇丹龙从军吴健《计算机工程与设计》2018,(1):194-198

重点研究将深度学习技术应用于藏文分词任务,采用多种深度神经网络模型,包括循环神经网络(RNN)、双向循环神经网络(Bi RNN)、层叠循环神经网络(Stacked RNN)、长短期记忆模型(LSTM)和编码器-标注器长短期记忆模型(Encoder-Labeler LSTM)。多种模型在以法律文本、政府公文、新闻为主的分词语料中进行实验,实验数据表明,编码器-标注器长短期记忆模型得到的分词结果最好,分词准确率可以达到92.96%,召回率为93.30%,F值为93.13%。相似文献

4.

基于最佳子策略记忆的强化探索策略

周瑞朋秦进《计算机工程》2022,48(2):106-112

现有强化学习探索策略存在过度探索的问题,导致智能体收敛速度减慢。通过设计一个基于奖励排序的存储表（M表）和ε-greedy改进算法,提出基于最佳子策略记忆的强化探索策略。将奖励值大于零的样本以子策略的形式存入M表,使其基于奖励降序排序,在整个训练过程中,使用与表中相似且奖励值较高的样本以子策略形式替换表中子策略,从而在表中形成一个能有效产生目前最优奖励的动作集合,提高探索的针对性,而不是随机探索。同时,在ε-greedy算法基础上按一定的概率分配,使智能体通过使用M表探索得到MEG探索策略。基于此,智能体在一定概率下将当前状态与M表中子策略匹配,若相似,则将表中与其相似的子策略对应动作反馈给智能体,智能体执行该动作。实验结果表明,该策略能够有效缓解过度探索现象,与DQN系列算法和非DQN系列的A2C算法相比,其在Playing Atari 2600游戏的控制问题中获得了更高的平均奖励值。相似文献

5.

使用GNN与RNN实现用户行为分析

王晓东赵一宁肖海力王小宁迟学斌《计算机科学与探索》2021,15(5):838-847

随着国家高性能计算环境(CNGrid)各个节点产生日志数量不断增加,采用传统的人工方式进行用户行为分析已不能满足日常的分析需求。近年来,深度学习在入侵检测、图像识别、自然语言处理和恶意软件检测等与计算机科学相关的关键任务中取得了良好的效果。演示了如何将深度学习模型应用于用户行为分析。为此,在CNGrid中对用户行为进行分类,提取大量绑定到会话的用户操作序列,然后将这些序列放入抽象的深度学习模型中。提出了一种基于图神经网络(GNN)和循环神经网络(RNN)的深度学习模型来预测用户行为。图神经网络能够捕捉用户局部行为的隐藏状态,可以作为预处理步骤。循环神经网络能够捕捉时间序列的信息。因此,通过将GNN和RNN相结合的方式来构建该模型,以获得两者的优点。为了验证模型的有效性,在CNGrid的真实用户行为数据集上进行了实验,并在实验中与多种不同的其他方法进行对比。实验结果证明了这种新的深度学习模型的有效性。相似文献

6.

融合认知行为模型的深度强化学习框架及算法

陈浩李嘉祥黄健王菖刘权张中杰《控制与决策》2023,38(11):3209-3218

面对高维连续状态空间或稀疏奖励等复杂任务时,仅依靠深度强化学习算法从零学习最优策略十分困难,如何将已有知识表示为人与学习型智能体之间相互可理解的形式,并有效地加速策略收敛仍是一个难题.对此,提出一种融合认知行为模型的深度强化学习框架,将领域内先验知识建模为基于信念-愿望-意图(belief- desire-intention, BDI)的认知行为模型,用于引导智能体策略学习.基于此框架,分别提出融合认知行为模型的深度Q学习算法和近端策略优化算法,并定量化设计认知行为模型对智能体策略更新的引导方式.最后,通过典型gym环境和空战机动决策对抗环境,验证所提出算法可以高效利用认知行为模型加速策略学习,有效缓解状态空间巨大和环境奖励稀疏的影响. 相似文献

7.

RNN编码器-解码器在维汉机器翻译中的应用

下载免费PDF全文

帕丽旦·木合塔尔吾守尔·斯拉木买买提阿依甫努尔麦麦提·尤鲁瓦斯《计算机工程与应用》2018,54(15):235-240

将RNN编码器-解码器作为传统的基于短语的PSMT系统的一部分,在传统统计机器翻译基础上,集成RNN解码器-编码器,兼容PSMT创建了新联合模型（RNN+PSMT）。新的模型不仅在维-汉、汉-英机器翻译的应用中取得了成效,而且能够捕捉到语言的规律,使得机器翻译中的一个重要评价指标的BLEU值得到了显著提高。实验结果表明,系统的整体性能超过了传统统计机器翻译。相似文献

8.

基于AM-RPPO的双足机器人适应性行走控制算法

马璐刘成菊林立民徐斌辰陈启军《机器人》2019,41(6):731-741

提出了一种带有注意力机制和循环近端策略优化(AM-RPPO)的深度强化学习(DRL)方法并将其应用于双足机器人的适应性行走控制.首先,对未知环境下双足机器人关节空间行走控制问题依照部分可观测马尔可夫决策过程(POMDP)进行建模,指出了DRL算法近端策略优化(PPO)对真实状态的估计存在偏差的问题.其次,引入循环神经网络(RNN)架构,分析了RNN对时序环境观测状态不同于多层感知机的正向传播过程,说明了RNN相对于传统神经网络的优势,并且将RNN分别嵌入动作生成网络和价值函数生成网络中.再次,引入在深度学习诸多领域应用广泛的注意力机制(AM),利用AM建立基于不同时间步的状态,求得最终价值函数的权重差异化模型.最后,通过仿真实验验证了提出的AM-RPPO算法对存在高维状态信息输入的双足机器人控制问题的有效性. 相似文献

9.

基于RNN的中文二分结构句法分析

谷波王瑞波李济洪李国臣《中文信息学报》2019,33(1):35-45

为了构建一个简单易扩展的中文句法分析器,我们依据朱德熙和陆俭明先生的中文二分结构的层次分析句法理论,手工构建了一个3万句的二分结构的中文句法树库,并使用哈夫曼编码方式来简化表示完全二叉树的层次结构。该文将中文句法分析转换为迭代二分的序列标注问题,并根据该任务的特点,提出了在词的间隔上进行标记的序列标注模型(RNN-Interval,RNN-INT),与常用的循环神经网络模型(RNN,LSTM)和条件随机场模型(CRF)进行对比实验,使用mx2交叉验证序贯t-检验来比较模型。实验结果表明,RNN-INT模型在窗口为1的词特征就可达到最好的性能,并好于其他窗口大小和其他序列标注模型(RNN,LSTM,CRF)。最后,在测试集上,在人工分词下,RNN-INT在短语级别的F₁值(块F₁) 达到71.25%,在句子级别的准确率达到约43%。相似文献

10.

基于元学习的自适应视频流算法

易令李泽平《计算机工程与设计》2023,(3):641-647

针对现有的码率自适应(adaptive bitrate, ABR)算法存在控制规则简单，不能有效提升用户体验质量(quality of experience, QoE),提出一种基于元学习的LABR(reinforcement learning based ABR)算法。采用策略梯度训练策略网络，利用元学习(meta-learning)方法学习基线(baseline)函数来减少因网络吞吐量差异产生的方差，进一步提高模型的准确性和鲁棒性；通过在策略函数中加入熵损失方法提高累计期望奖励值。实验结果表明，LABR算法具有泛化性与鲁棒性，能有效提高用户的视频体验质量。相似文献