一类基于高效跟踪的广义平均奖励激励学习算法

一、一类基于有效跟踪的广义平均奖赏激励学习算法（论文文献综述）

王磊^[1]（2021）在《大学生锻炼坚持行为影响因素及促进策略研究》文中研究表明大学生是国家的未来和民族的希望,欲文明其精神,先自野蛮其体魄。大学生的体质健康与锻炼坚持状况,对体育强国建设和中华民族伟大复兴中国梦的实现具有重大意义。锻炼坚持是指个体持续在一段时间内进行规律锻炼并长期保持的行为,是个体通过体育锻炼增强体魄、健康生活、健全人格、锤炼意志的必要条件。《体育强国建设纲要》中明确“要将促进青少年提高身体素养和养成健康生活方式作为学校体育教育的重要内容”。高校体育不但肩负体育教育职能,更兼具促进锻炼坚持、增强学生体质、建设校园体育、建树正确体育观的育人责任。但至今为止,大学生身体活动不足、锻炼坚持困难,依旧是学校体育的突出问题。体育领域学者对大学生锻炼坚持行为的研究由来已久,取得了丰富的研究成果,在梳理时发现,相关研究历经探索与奠基、起步与发展、成熟与融合三个阶段,形成了以健康信念模型、计划行为理论、社会认知理论等为核心的理论框架,但缺乏对决策过程的关注;且近年来信息技术发展赋能大学生锻炼行为虚拟化,虚拟体育社交与用户生成内容知识共享等,改变了传统锻炼坚持行为的研究场域,相关适应性研究稀缺。基于此,提出了大学生锻炼坚持行为影响因素与促进策略的研究问题。本研究综合运用用户生成内容分析与挖掘、文献资料、专家访谈、问卷调查、数理统计、机器学习和逻辑归纳等研究方法,从我国大学生锻炼坚持行为研究历程梳理入手,结合虚拟锻炼社区用户生成内容分析与访谈资料的交互验证,识别大学生锻炼坚持行为的影响因素,理顺大学生锻炼坚持行为的决策过程、建立模型验证影响因素间的作用机制,并细化锻炼坚持行为分类、制定促进策略,通过系统研究得出如下结论:（1）大学生锻炼坚持行为受生活方式自评、健康认知自评、运动认知自评、个人投入、社会支持、锻炼氛围、场地器材、锻炼获益感知、锻炼风险感知、锻炼动机、锻炼自我效能、锻炼坚持时间、锻炼坚持质量等13个因素的影响。这13个因素构成大学生锻炼坚持行为模型的五大因素即健康自我评价、锻炼条件、锻炼效果感知、锻炼内驱力和锻炼坚持行为。（2）大学生锻炼坚持行为模型五大因素之间存在“感知输入-决策-驱动-行为输出”的四层决策逻辑,形成一个链式中介模型,可归纳为具有五因素四层次的“SCeiP”行为模型。该模型是以大学生锻炼坚持行为为研究对象,以促进和优化锻炼坚持相关因素及决策过程为目标,通过不断完善锻炼坚持行为相关因素作用及协同,促进大学生持续做出锻炼坚持决策的行为模型。（3）锻炼内驱力是锻炼坚持行为的动力来源,是“SCeiP”模型中的核心中介变量,且根据个体所处行为阶段不同,影响不同。模型内部两条促进路径和外部两条反馈路径,均遵循“客观-主观-客观”的作用逻辑,说明锻炼坚持是客观因素通过主观因素发挥能动作用的结果,研究既要关注客观影响因素,更要关注主观作用机制。（4）大学生容易受到外界信息的影响,单次锻炼的效果感知与经验总结,会影响后续决策。锻炼坚持实质上是一个动态变化、螺旋发展的系统,是个体针对“是否进行锻炼”做出理性决策的过程。在一段时期内,每次决策及行为输出结果均会反馈至输入层,影响新一轮决策。在虚拟锻炼社区调研中发现锻炼者偏好对锻炼效果进行成本效益分析,只有锻炼获益大于锻炼风险时,个体才会产生足够的锻炼内驱力,选择坚持锻炼。（5）虚拟锻炼社区汇集大学生锻炼坚持及衍生的锻炼知识共享与社交行为,锻炼坚持行为理论在虚拟化锻炼场域中具有一定适应性,但仍需不断拓展。大学生信息化锻炼虚拟社区与平台是新时代锻炼坚持行为叙述规则和价值逻辑建立的主战场,需要着力设计与打造。基于“SCeiP”模型形成了高校大学生锻炼坚持行为线上线下双循环促进的总体思路。根据巴纳姆效应理论,利用信息化平台知识共享塑造科学体育观导向,在尊重学生个体行为差异的前提下,发挥学生体育锻炼坚持价值认同的聚合效应,以促进大学生锻炼坚持。（6）为实现“因人而异”“因材施教”的大学生锻炼坚持行为预测与导向内容推荐,实现分类促进策略,本研究选用PCA-GS-SVM算法训练大学生锻炼坚持行为数据分类器,训练效率高且正确率在训练集及测试集中均高于87%,能够满足大学生锻炼坚持行为信息化平台分类促进策略的应用要求,有效支撑“SCeiP”模型实践应用。将锻炼坚持行为分为八类,针对不同类别行为特点,制定具体分类促进策略。（7）设计实现大学生锻炼坚持行为促进信息化平台,为实现“因人而异”“因材施教”的锻炼坚持促进提供平台策略及保障策略。从应用需求出发设计平台功能,将“SCeiP”行为模型中涉及的理论概念具象化,融合反馈机制、激励体系、粘性强化等,设计锻炼坚持行为信息化促进方法,为“SCeiP”行为模型的应用落地打造良好基础。并针对锻炼坚持行为促进信息化平台的推广应用,从组织保障策略、制度保障策略、监管反馈策略等三个方面,制定保障策略。本研究创新性主要集中于以下三点:第一,研究引入管理学理论拓展锻炼坚持研究理论架构,拓宽现有锻炼行为研究的应用场景;第二,集成大数据研究方法,拓展虚拟锻炼社区用户分类和用户生成内容分析研究路径,丰富了锻炼坚持行为研究的方法论体系;第三,自行发展大学生锻炼坚持行为问卷,为大学生锻炼坚持行为量化研究提供有效量具及实证基础。

郭亚奇^[2]（2021）在《基于强化学习的张拉整体机器人运动控制研究》文中研究说明张拉整体结构是由一组离散受压构件包含于连续的受拉构件而组成的稳定自平衡系统。张拉整体结构最初兴起在雕塑领域,后因为其造型新颖,构思奇特,质量轻并具备一定的刚度在许多大跨度的结构工程中被采用。近年来因其高强度质量比、可分散内力、低成本的特性,成为机器人研究中比较活跃的一个领域。球形张拉整体机器人被用作太空探索机器人而展开研究。然而,由于其非常规的结构以及高耦合动力学,张拉整体结构的高效运动控制问题仍然是项难题。使用传统的控制算法难以实现有效的运动控制。深度强化学习算法由于其强大的感知和决策能力,已被用于许多机器人任务。然而,其通常需要收集大量的样本,这限制了它的应用。基于模型的算法可以用较少的样本学习,但由于模型误差累积而具有次优结果。本文以球形张拉整体机器人为主要研究对象,首先对其建立动力学模型,提出一种将无模型强化学习与有模型强化学习混合的算法,来实现对张拉整体机器人的高效运动控制,最后结合人工势场法实现不同障碍情况下的避障控制。具体研究工作如下:首先基于位置坐标有限元方法,定义了张拉整体结构中杆单元及绳索单元,推导了结构受到的广义力以及其切线刚度矩阵和切线阻尼矩阵具体形式,根据动能表达式得到质量矩阵,然后依据拉格朗日运动方程得到系统的动力学方程。随后介绍了非线性微分方程的数值求解方法。采用Newmark方法对动力学方程进行数值求解。在数值算例中采用动力松弛法完成对张拉整体机器人的找形分析。对比了本文的动力学仿真与商用物理引擎MUJOCO结果。之后,针对张拉整体机器人滚动控制问题设计了密集型的奖励函数,基于深度确定性策略梯度（DDPG）算法提出了改进方法。具体时限为通过随机采样的数据建立神经网络动力学模型,采用模型预测控制得到初步的控制效果。利用受控轨迹来初始化DDPG的参数和记忆库,通过训练DDPG算法参数,得到高性能的控制策略。试验证明了混合算法的采样效率远优于DDPG算法。以不同的地面条件的控制效果证明了算法的高效控制能力。最后针对避障问题提出了将人工势场法与DDPG结合的避障算法。分析对比了人工势场法采取不同探索步长下强化学习算法对张拉整体机器人的控制结果,得到了适应不同障碍情况的避障策略。

吴子秋^[3]（2020）在《M2M通信中基于深度强化学习的中继选择算法》文中指出近年来,随着智能终端多媒体业务的发展,更多的智能无线设备逐渐融入生活,物联网（Internet of Things,Io T）在未来的通信业务中占据了极其重要的位置,它实现了任何人与物之间随时随地的信息共享与互通。其中机器与机器之间的通信（Machine to Machine,M2M）是物联网中十分重要的一部分。无需人的干预,机器类通信设备（Machine Type Communication Device,MTCD）可以自主完成相互间的数据通信。传统的中继选择方式往往考虑信道情况,可以在达到一定的通信质量的前提下,降低设备及节点转发时的发射功率,从而减少能量的消耗。但由于M2M网络的节点根据附近设备的业务特性具有一定的规律,若有一部分的MTCD之间的通信较为频繁,个别中继节点被选择的次数远超其他节点,导致能量消耗速度大大超过其他节点,造成能耗不均衡。个别节点的寿命将远远小于其他节点,使网络的整体性能下降。如果仅考虑剩余能量,节点能量得到均衡,但是由于距离可能较远,或者信道的情况较差,会增加单次通信的能量消耗,同样会降低网络的整体性能。由此可得,在降低能量消耗与均衡能量消耗这两者中需要找到一个均衡点,来使网络的寿命最大化。针对此问题,本文采取Qo E指标作为业务质量的评价标准,用于计算中继节点转发的最小能量。用深度值网络（Deep Q Network,DQN）的方法,使系统自主地选择合适的中继节点,在减少能量消耗与能耗均衡中寻找一个平衡点,从而延长整个系统的寿命时间。针对随机性过大,收敛速度慢的问题,提出了在进行动作选择策略之前,加入先验规则,排除部分实际情况中无法实现的中继节点的选择,既不会影响原本的动作选择策略,又通过规则的设定减少了不必要的探索,加快了模型训练的速度。最后,基于场景建模与上述思路,提出了基于深度强化学习的中继节点选择算法的完整流程。此外,本论文对该算法进行了仿真分析。首先利用仿真对算法中的学习因子和折扣因子,以及奖励函数中的权重参数进行了参数优化。然后用优化好的参数模型与传统的中继选择算法进行对比分析。仿真结果表明,本文提出的基于DQN的中继节点选择算法综合考虑了能量消耗与能量均衡,在系统寿命方面相比传统中继选择算法有显着优势,并可以根据主观需求,对权重参数进行调整。

孟帆^[4]（2020）在《基于深度学习的无线通信物理层关键技术研究》文中进行了进一步梳理深度学习和机器学习是未来智能无线通信的关键技术。传统的无线通信通常是模型驱动的,其相应的系统设计由领域知识导出。对于数学模型不准确或难以建模描述的场景下的优化问题,和本身属于非凸或非确定性多项式难度（Non-deterministic Polynomial hard,NP-hard）的优化问题,基于模型的设计方法通常需要牺牲最优性来换取可解性。另一方面,基于深度学习的研究方法是数据驱动的,通过数据训练来实现无线通信系统端到端的优化设计。目前,深度学习在解决上述无线通信领域中的两类问题中获得了一些突破,同时也展现出了极大潜力和研究价值。此外,分布式存储和大规模并行计算硬件的快速发展,保证了深度学习算法的部署和执行快速高效。针对无线通信物理层中若干关键问题,本文研究如下:·基于多进制相移键控调制方式和无限冲激响应滤波器的通带通信系统,接收端中的匹配滤波、均衡、解调的联合优化问题,以模型驱动的方法难以解决。针对该联合优化问题,本文提出了一种基于神经网络模型的端到端接收机,即判决反馈接收机（Decison Feedback Receiver,DFR）。DFR能够利用反馈的软信息进行迭代检测,同时具有较低的计算复杂度和模型复杂度,且能够对一帧码元进行并行检测。·针对训练集与测试集不匹配问题,本文对该问题进行数学建模并定量分析了其测试误差,同时给出了误差上界和下界。分析结果表明,测试误差由数据分歧和数据缺失这两个因素造成的。我们由不匹配问题延伸到单一模型在融合训练集上训练的情形。在具有足够模型复杂度的假设下,我们证明了使用参数共享的深度展开不存在数据分歧问题;当模型复杂度不足时,我们使用马尔可夫决策过程对迭代算法推断过程建模,同时给出了数据分歧不存在的条件。基于上述理论分析,我们研究了 DFR中的输入数据不匹配问题,并提出了改进的DFR。·针对自动调制方式识别（Automatic Modulation Classification,AMC）问题,一般的基于似然函数的AMC算法,即ML-AMC,计算复杂度过高导致难以实际应用。另一方面,基于特征的AMC需要人工特征工程来实现观测信号特征提取。本文提出了一种基于深度学习中卷积神经网络模型的识别器,即CNN-AMC。作为一种并行计算模型,CNN-AMC通过数据学习来近似地实现最优的ML-AMC。和基于特征的AMC算法相比,CNN-AMC自动地从观测序列中学习特征提取,端到端地实现识别。为了解决实际训练中模型初始不收敛的问题,我们提出了两步训练法;为了提高在相关但不相同AMC问题上的训练效率,我们提出了基于迁移学习的训练方法。此外,我们还提出了单位CNN-AMC,以灵活地处理变化的观测序列维数。·基于具有单输入单输出干扰广播信道的无线蜂窝网络,本文研究了在最大发射功率约束下,如何分配下行链路功率以使和速率最大化的优化问题。该优化问题是非凸的且NP-hard。目前的模型驱动的集中式算法,比如分数规划算法和加权最小均方误差算法,具有很高的计算复杂度。另一方面,现有的基于强化学习算法并非针对静态优化问题而设计。首先,本文分别给出了针对静态问题的集中式和分布式强化学习算法设计。进一步地,我们提出了集中式训练、分布式执行的协作多智能体强化学习算法框架。该算法设计包括小区间协作、离线/在线训练和动态环境跟踪。具体的深度强化学习算法包括基于策略梯度的REINFORCE算法、基于值的深度Q学习算法和基于动作器-评价器的深度确定性策略梯度算法。

刘志勇^[5]（2020）在《空间反射面天线热变形主动调节与容错控制研究》文中研究指明为长时间不间断对地面进行高精度气象观测,需要在地球同步轨道上布置口径达5米,面板变形均方根（Root Mean Square,RMS）误差为几十微米的反射面天线。然而由于受到同步轨道热环境的影响,仅靠传统结构保型设计已不能达到上述指标要求。为此,需要采用主动调整机构来实现天线反射面保型。本文以此为背景,研究了主动调整机构位置布局优化、多主动调整机构的耦合控制与容错控制等内容。具体包含以下几个方面。1.提出了空间反射面天线主动调整机构布局优化模型。首先,以空间反射面天线面板支撑桁架的许用应力和反射面的许用应力为约束条件,以三个典型工况下反射面热变形均方根误差和最小为目标,建立主动调整机构位置优化模型。随后,针对优化模型设计变权值自适应模糊粒子群算法（Adaptive Fuzzy Particle Swarm Optimization,AFPSO）,进而确定了主动调整机构在支撑桁架上的理想位置。最后,在建立空间天线主动调整系统控制模型基础上,通过设计线性二次型（Linear Quadratic Regulator,LQR）控制器对空间天线反射面热变形进行调整。2.针对空间反射面天线主动调整系统控制模型中存在模型不确定性扰动问题,提出了一种基于参考模型的模糊神经网络强化学习控制策略,构造了动态强化学习动作函数,提高了强化学习动作值函数的迁移能力,抑制了控制系统中不确定性扰动变化。首先,该算法以主动调整系统理想控制模型为参考,利用强化学习算法来自适应修正参考模型与实际模型之间的误差,克服主动调整机构间的耦合和不确定性扰动的影响。其次,在强化学习算法中引入了模糊神经网络,将强化学习动作空间进行连续化处理,提高了强化学习动作的泛化能力与动作值函数的迁移能力,克服主动调整系统控制模型中不确定性扰动变化影响。3.针对空间反射面天线面板热变形调整过程中,模糊强化学习系统参数识别计算量大、算法复杂度高等问题,提出了一种基于模糊观测器的自适应解耦控制策略。首先,通过引入系统辅助状态,将各子回路之间的耦合影响和外界不确定性归结为干扰项。随后,针对每一个子回路设计了自构架模糊干扰观测器,在线自适应观测和估计干扰量,并将其反馈在控制律中,用来抵消干扰项的影响,在提高算法运算速度的同时,也保证了对含有扰动变化的实际模型的调整效果,最后通过李雅普诺夫（Lyapunov）稳定性理论对其稳定性进行了分析。4.针对空间反射面天线主动调整系统中作动器故障信息的辨识问题,提出了自构架模糊无迹卡尔曼滤波（Unscented Kalman Filter,UKF）故障估计与逼近方法。首先,将无故障压电陶瓷作动器控制方程转化为具有故障的等效标准状态空间方程。随后,利用自构架模糊UKF故障逼近方法对作动器故障信息进行逼近与辨识,并获得了故障信息曲线。最后,针对作动器故障信息,采用模糊聚类算法得到了作动器的故障阈值,实现了对单个作动器故障的判断。5.针对空间反射面天线主动调整系统中部分作动器故障下的容错控制问题,基于自适应控制理论研究了一种自适应容错控制策略。首先,通过设计一种自适应容错控制律,将其引入到主动调整系统参考模型控制律中,实现了在不需要故障检测与隔离机制的情况下,对主动调整系统中作动器故障在线实时检测,减小了作动器故障对空间天线反射面热变形调整精度的影响。其次,利用线性矩阵不等式（Linear Matrix Inequality,LMI）理论,优化了误差闭环系统的正常跟踪性能,使故障模型状态渐近跟踪理想模型,对作动器故障率进行了在线辨识。

敖韬^[6]（2020）在《基于深度强化学习的热工过程控制方法研究与应用》文中进行了进一步梳理火电机组作为电力最主要生产力,其控制效果直接影响到能源的利用效率与经济效益。传统的热工过程控制方法面临建模不精确,控制策略设计困难,在线求解计算量大等难题。考虑到深度强化学习无模型,无需在线求解的特点,本文尝试将深度强化学习算法应用于热工过程控制,提出了基于深度强化学习的热工过程应用框架与基本应用原则,并给出了基于深度强化学习热工过程控制系统设计的一般步骤,同时根据多变量热工过程进一步完善了基于深度强化学习的热工过程控制系统设计过程,为复杂热工过程控制提供了一种新的解决问题思路。本文的研究内容包括:Ⅰ.通过对比深度强化学习控制与传统热工过程控制的异同,提出了基于深度强化学习的热工过程控制系统框架与学习框架;在此基础上,进行了基于DQN的热工过程控制系统设计与仿真实验,对深度强化学习算法在热工过程控制上的应用问题进行了探讨,总结得到了深度强化学习方法应用于热工过程控制的基本原则。Ⅱ.针对热工过程控制的控制目标与要求,提出了包含被控量、控制量和扰动量的相关信息,偏差信息的热工过程state,并给出了相应的设计步骤;同时提出了包含主要目标项、次要目标项和约束惩罚项等相关奖赏项的reward评价体系,并阐述了相应的设计过程。为保证控制量约束,将DQN算法进行了调整,把控制量约束离散空间作为DQN算法的动作空间,提出了基于控制量约束的DQN控制方法,保证了控制量满足相应约束要求。在此基础之上,进行了基于控制量约束的DQN热工过程控制系统设计与仿真实验,表明了改进后的深度强化学习方法能较好地应用于热工过程控制。Ⅲ.针对多变量热工过程系统的多输入多输出问题,引入修正权矩阵以及阶段性目标对reward评价体系进行了改进,并通过Q值编号多维映射的方法对动作空间进行了改进,使得DQN算法能满足多变量系统的控制目标与要求。在此基础上,选取大惯性,耦合的CO2捕集系统作为DQN算法的应用对象,并进行了相应的控制系统该设计与仿真实验,进一步说明改进后的深度强化学习算法能较好地应用于多变量热工过程控制。

许振兴^[7]（2020）在《基于深度强化学习的自适应光学波前控制研究》文中指出自适应光学（Adaptive Optics,AO）技术通过改变波前校正器相位来补偿入射畸变波前,从而改善光学系统的性能,被广泛应用于天文观测、激光通信系统、视网膜成像、激光光束净化等光学系统。AO系统作为有效的主动补偿技术,虽然在各领域取得了很好的校正效果,但传统闭环控制方法将AO控制系统视为线性时不变系统,这使得传统控制方法无法处理各类误差带来的不确定性,无法发挥系统潜力获得最优性能。本文从传统AO控制方法与深度强化学习找到结合点并做探索性研究,建立自学习智能控制模型。深度学习与强化学习的结合将感知环境和系统控制无缝连接,使AO能够自动感知不确定的环境状态并完成自适应控制。该AO智能控制模型具有通用性,不依赖于建立准确模型,只需与环境互动学习,利用从外界反馈的回报信号和采集的环境状态不断调整控制策略,使其在线自学习最优控制策略或次优控制策略,可根据系统状态保持或逼近最佳性能。具体来说,传统基于离线建模的线性时不变控制方法无法处理以下三种情形:（1）AO控制平台在长时间运行过程中,受机械平台振动等时变因素的影响,波前校正器与波前传感器的相对位置发生偏移导致对准误差,使得系统参数发生异变无法自适应对准误差。（2）哈特曼传感器缺光引起的斜率信息缺失或噪声引起的斜率测量误差。这类误差直接耦合控制模型,斜率测量误差的传递造成控制性能下降或不稳定。（3）AO系统中时滞普遍存在,时滞校正误差对系统的性能影响很大,因此具有静态控制策略的控制方法无法实现自适应预测控制。本文围绕上述三种情形,展开理论分析和实验研究,建立线性和非线性两种针对AO的智能控制模型。该模型根据当前AO的环境特性进行在线策略优化,始终满足性能约束指标,为解决传统控制手段难以处理误差带来的控制性能下降,以及难以建立准确的系统模型和湍流模型提供了新思路。本文的主要研究内容如下:1.基于哈特曼传感器的AO系统其误差传递过程不可避免,误差传递将影响系统的校正性能,最大程度的补偿或抑制误差传递可显着提高系统的校正性能。AO主要误差来源分为五类:（1）H-S透镜阵列对波前的有限分割采样带来的空间采样误差;（2）斜率测量过程中噪声因素引入的斜率测量误差;（3）强闪烁条件下H-S子孔径斜率探测不理想或信息缺失;（4）H-S与变形镜的空间失配导致对准误差;（5）系统时滞因素导致的时滞校正误差。通过对上述五类误差进行分析,将其转化为组合目标函数的优化问题,推导出了利用组合目标函数的梯度信息作为误差补偿手段,为后续基于梯度信息的在线学习模型提供了理论基础。2.提出了AO系统的线性学习模型,该模型将远场性能指标和估计误差平方和的线性组合作为目标函数,能够自适应系统参数变化,不依赖于建立准确的系统模型。为使得学习模型保持良好的跟踪特性,引入了梯度动量项,动量项累积了之前迭代时的梯度信息,逐步弱化了历史梯度信息对当前模型训练的影响,提高了当前梯度信息的影响,动量项的引入避免了在线样本存储。同时还给出了模型的并行异步优化方法以及模型参数的初始化策略。最后,搭建了AO实验平台来验证线性学习模型的性能,实验结果表明该模型兼顾了斜率信息缺失补偿和自适应抑噪能力,显着提高了系统控制精度。数值分析表明,在不需要重新测量响应矩阵的情况下,实现了对准误差下的自适应性。该模型简单高效,具有一定的工程意义,但由于线性模型学习能力有限,当存在多对一映射关系时其学习过程容易产生线性偏移。3.针对线性学习模型存在的学习能力有限问题以及对湍流扰动的预测控制问题进行建模。提出了基于深度强化学习理论的非线性动态学习模型,该模型采用神经网络的泛映射性拟合策略函数,并通过强化学习的确定性策略梯度方法实现在线滚动优化策略。但是在实际在线策略优化时,若模型目标函数的梯度矩阵测量不准确或突增,则可能导致梯度爆炸使得学习模型不能正常工作。为避免梯度爆炸,保证网络模型稳定收敛,在该梯度反向传入网络模型之前,将梯度矩阵投影至较小的尺寸上,进行裁剪和约束。同时为了避免学习速率衰减过快,能够对每个网络参数自适应不同的学习速率,采用三点解决方案:一是使用历史窗口;二是对参数梯度动量项的历史窗口序列（不包括当前）使用均值;三是最终梯度项为历史窗口序列均值与当前梯度动量项的加权平均。最后,通过搭建AO实验系统来验证非线性动态学习模型对静态像差以及动态像差的校正能力,实验中引入了HT200热风式大气湍流模拟器来产生不同强度的大气湍流。实验结果表明,非线性动态学习模型具有建模方便以及过程描述可在线获得的特点,能及时弥补由于模型失配、畸变、干扰等因素引起的不确定性,模型通过在线误差补偿和噪声抑制提高了系统的控制精度,其自适应性提高了系统的稳定性。由于模型可在线学习湍流统计特性,无需离线建立湍流模型,实现了自适应预测控制模型,具有明显的工程和理论意义。

郑玉卿^[8]（2020）在《参数未知非线性系统的数据驱动控制研究》文中研究指明数据驱动控制摆脱了对数学模型的依赖,仅利用系统运行过程的输入输出数据对系统的模型、状态或者控制信息进行学习的理论与方法。本文结合最优控制理论,给出满足系统性能指标的智能控制算法,主要内容如下:1.针对多输入多输出线性离散时间系统的最优控制问题,采用虚拟参考反馈整定方法,设计二自由度控制器。首先基于开环数据提出数据驱动最优控制问题,然后建立二自由度控制器性能指标,通过虚拟参考反馈整定最小化性能指标来设计最优控制器。2.针对局部信息未知且带有扰动的输入饱和非线性系统,设计H∞状态反馈控制器。首先通过拟范数处理输入饱和约束,然后利用策略迭代求解哈密尔顿-雅可比-艾萨克方程,最后通过构造执行-评价-扰动网络来实现算法,并求取最优控制器。3.针对带有非匹配扰动的非线性系统次优控制问题,利用积分滑模控制和策略迭代设计联合控制器。首先引入非线性扰动观测器估计非匹配扰动,然后基于扰动估计设计积分滑模动态面来抑制扰动,最后利用策略迭代设计次优控制器,使其满足期望性能指标。4.针对部分参数未知且带有外部扰动的非线性系统,设计自适应跟踪控制器。首先利用滞环量化器和扇区约束理论将间隙执行器分解成可行控制策略,再引入反步法并结合策略迭代设计控制器,最后通过执行-评价网络求解最优控制器参数。5.针对无法建立模型的偏微分系统,提出基于强化学习的最优控制算法。首先通过卡鲁南-洛伊夫分解计算系统的经验特征函数,再利用经验特征函数将偏微分系统转化为高阶常微分系统,然后根据奇异值摄动理论进行降阶,并依据低阶常微分系统设计最优控制器。

陈子璇^[9]（2020）在《基于规划网络模型的机器学习算法研究》文中指出由于深度学习在人工智能领域的流行,神经网络模型已被广泛应用于强化学习、模仿学习或元学习问题中。在这些机器学习问题中,策略通常是由经过强化学习、模仿学习算法或元学习框架训练后的神经网络表示。然而,由于缺乏明确的规划运算,这种网络形式的策略本质上是仍是反应式的。针对这一问题,本文提出了多种基于规划网络模型的机器学习算法,并分别在完全可观察的马尔科夫决策过程、部分可观察的马尔科夫决策过程,以及元学习框架中进行研究和分析。主要研究内容可以概括为以下三个部分:（1）广义值迭代网络是一个应用于完全可观察的马尔科夫决策过程的规划网络模型,该网络中所涉及的值迭代过程并没有根据状态的重要性来合理分配每个状态所需的规划时间,这一定程度上降低了网络的规划性能及泛化能力。因此利用基于状态的异步更新方法,提出广义异步值迭代网络,使得新的网络在规划时,能够对每个状态所需的规划时间进行合理的分配。其次,广义值迭代网络所用的训练算法为情节式Q学习算法,其中仍存在着与Q学习中相同的值过高估计的问题。因此将加权双估计器的思想与情节式Q学习结合,提出情节式加权双Q学习算法,以尽可能地减少值过高估计对训练性能的影响。最后,提出了一种新型图形卷积算子,该算子可有效弱化任务内部图形结构中节点的度的分布对规划结果的影响,进而提高网络的规划性能。（2）QMDP-net是一个应用于部分可观察的马尔科夫决策过程的规划网络,该网络使用QMDP算法来近似解决部分可观察的马尔科夫决策过程,而QMDP的内部机制使用了值迭代算法,这使得QMDP-net的规划过程存在着与广义值迭代网络相似的问题。因此利用异步更新的思想,在QMDP-net规划模块中嵌入一种基于部分可观察环境的异步更新方法,并以此提出一个新的循环策略网络。此外,由于QMDP算法会假设智能体当前置信状态的不确定性在其执行了下一个动作之后就会消失,这就意味着规划网络生成的策略无法作用于那些需要重复收集信息的任务域,从而造成网络划性能的下降。因此利用了复制的Q学习算法来部分替代QMDP算法,并由此提出一个能更好的在部分可观察环境中进行规划的循环策略网络。（3）MAML是一个应用于元学习的规划网络,该框架基于元强化学习特性,通过梯度下降使得网络中的参数能够利用智能体之前的所执行过的策略和轨迹持续地进行训练,以此快速适应于不同的新任务中并规划出有效的策略。由于MAML的元更新过程需要通过梯度下降来估计二阶导数,这一定程度上降低了算法的训练稳定性和泛化性。因此对MAML中的元更新过程进行了改进提并出一种新的元学习算法框架。新框架能更好地执行元优化过程,从而使得最终生成的策略具有更好的泛化能力。

崔玉君^[10]（2020）在《基于知识和深度强化学习的列车自动停车控制算法研究》文中研究说明十几年来,我国的高铁事业已经得到了快速发展,高速列车的高效运行在保障人民生活以及促进社会发展方面的作用日益突出,并获得广泛关注。列车自动停车控制是列车自动驾驶系统的关键技术之一,其直接影响列车的运行效率、轨道交通的服务质量和乘客的满意度。目前列车自动停车控制所采用的方法往往面临获得的控制规则比较粗糙或者技术更新成本十分昂贵等实际问题。因此,开发精确的列车自动停车控制算法以确保列车高效的运行至关重要。本文提出了基于知识和深度强化学习的列车自动停车控制算法。这些算法将优秀列车驾驶员和专家学者的经验转化为知识,并与深度强化学习相结合,充分发挥深度学习的感知能力以及强化学习的决策能力,通过端对端的学习方式为复杂的列车自动停车控制系统提供精确的控制规则。本文的具体工作如下:（1）高速列车停车控制建模与性能指标介绍。首先,本文以高速列车为控制对象,根据列车动力学模型和制动模型建立列车停车控制仿真模型,使其能够用来模拟实际的高速列车执行相关指令。然后,描述与停车误差、舒适度和指令切换次数相关的性能指标以评估提出算法的可靠性。（2）基于单车单线路模型的列车自动停车控制算法。在单车单线路情形下,本章提出了结合知识和双深度Q网络的列车自动停车控制算法。首先,将优秀列车驾驶员和专家学者的经验凝练成知识用来估计列车执行的理想指令;然后,利用双深度Q网络决策理想指令的执行时间。该算法实际上是对执行指令的执行时间做了合理的分配,并于传统的列车自动停车控制算法做了对比,验证了所提出的算法可以取得高停车精度。（3）基于多车多线路模型的列车自动停车控制新框架。在多车多线路模型下,为了解决该模型对应的最佳控制参数问题以及考虑到不同类型的数据适合用不同的神经网络进行特征提取,受深度循环Q网络算法以及Wide&Deep模型的启发,在（2）中算法的基础上设计了多输入单输出的神经网络结构,进而提出了一种更加通用、便捷的列车自动停车控制新框架。最终通过仿真实验验证了提出算法可以取得精确的停车效果。

二、一类基于有效跟踪的广义平均奖赏激励学习算法（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

首先简单简介论文所研究问题的基本概念和背景，再而简单明了地指出论文所要研究解决的具体问题，并提出你的论文准备的观点或解决方法。

写法范例：

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

（2）本文研究方法

调查法：该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法：用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法：通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法：通过调查文献来获得资料，从而全面的、正确的了解掌握研究方法。

实证研究法：依据现有的科学理论和实践的需要提出设计。

定性分析法：对研究对象进行“质”的方面的研究，这个方法需要计算的数据较少。

定量分析法：通过具体的数字，使人们对研究对象的认识进一步精确化。

跨学科研究法：运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法：这是社会科学用来分析社会现象的一种方法，从某一功能出发研究多个方面的影响。

模拟法：通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、一类基于有效跟踪的广义平均奖赏激励学习算法（论文提纲范文）

（1）大学生锻炼坚持行为影响因素及促进策略研究（论文提纲范文）

摘要

ABSTRACT

第一章绪论

1.1 研究背景与研究问题

1.1.1 研究背景

1.1.2 研究问题

1.2 研究意义

1.2.1 理论意义

1.2.2 实践意义

1.3 研究内容与方法

1.3.1 研究思路

1.3.2 研究内容

1.3.3 研究方法

1.4 创新性

第二章文献综述及理论基础

2.1 文献综述

2.1.1 相关概念的研究

2.1.2 锻炼坚持行为影响因素的研究

2.1.3 锻炼坚持行为促进的相关理论

2.1.4 文献述评

2.2 锻炼坚持行为促进的相关管理理论基础

2.2.1 社会交换理论

2.2.2 健康自我管理与行为决策

2.2.3 综合集成思想与TEI@I方法论

2.3 大数据分析的相关理论与技术

2.3.1 大数据支持体育行为记录与干预

2.3.2 用户生成内容的自然语言处理与主题发现

2.3.3 行为特征的聚类

2.3.4 基于有监督机器学习的行为特征分类器

2.4 本章小结

第三章大学生锻炼坚持行为因素与结构

3.1 大学生锻炼坚持行为因素研究设计

3.1.1 因素筛选方法

3.1.2 研究过程

3.1.3 资料收集与处理

3.1.4 资料初步分析结果

3.2 因素界定

3.2.1 基于文献的相关关键词界定

3.2.2 基于UGC内容的因素提取

3.3 模型因素一致性检验

3.3.1 回访专家过程及数据选择

3.3.2 权重计算与一致性检验

3.4 因素结构分析

3.4.1 锻炼坚持行为五因素

3.4.2 锻炼效果感知双向作用拆分

3.5 本章小结

第四章大学生锻炼坚持行为模型假设与验证

4.1 锻炼坚持行为分析框架

4.2 研究假设

4.2.1 健康行为自评、锻炼效果感知和锻炼内驱力

4.2.2 锻炼条件、锻炼效果感知和锻炼内驱力

4.2.3 锻炼效果感知、锻炼内驱力和锻炼行为

4.2.4 锻炼行为模型中的链式中介

4.2.5 锻炼行为模型中的调节变量

4.3 问卷设计原则与题目类型

4.3.1 问卷题目类型

4.3.2 问卷设计原则

4.3.3 问卷题目设计

4.4 大学生锻炼坚持行为模型验证

4.4.1 预调研

4.4.2 正式调研

4.4.3 结果分析

4.5 大学生锻炼坚持行为促进的“SCeiP”模型

4.5.1 “SCeiP”模型逻辑与特征

4.5.2 “SCeiP”模型内部促进双路径

4.5.3 “SCeiP”模型外部反馈双路径

4.6 本章小结

第五章大学生锻炼坚持行为分类促进策略

5.1 大学生锻炼坚持行为分类促进思路、指导原则与目标

5.1.1 大学生锻炼坚持行为分类促进的总体思路

5.1.2 大学生锻炼坚持行为分类促进的指导原则

5.1.3 大学生锻炼坚持行为分类促进的目标

5.2 大学生锻炼坚持行为分类与结果

5.2.1 大学生锻炼坚持行为分类需求分析及过程

5.2.2 大学生锻炼坚持行为分类结果

5.3 大学生锻炼坚持行为分类特点

5.3.1 锻炼行为数据分类偏差分析

5.3.2 不同类别特点形成原因分析

5.4 大学生锻炼坚持行为分类促进的“因材施教”策略

5.4.1 大学生锻炼坚持行为分类促进方式

5.4.2 不同大学生锻炼坚持行为类别促进策略

5.5 本章小结

第六章大学生锻炼坚持行为促进平台及保障策略

6.1 大学生锻炼坚持行为促进平台设计与实现

6.1.1 大学生锻炼坚持行为促进平台的设计

6.1.2 大学生锻炼坚持行为促进平台的实现

6.2 大学生锻炼坚持行为促进保障策略

6.2.1 大学生锻炼坚持行为促进组织保障策略

6.2.2 大学生锻炼坚持行为促进制度保障策略

6.2.3 大学生锻炼坚持行为促进监督反馈策略

6.3 本章小结

第七章结论与展望

7.1 结论

7.2 研究不足与展望

参考文献

附录

附录1 大学生锻炼坚持行为管理因素构成专家意见调查表

附录2 大学生锻炼坚持行为影响因素权重专家调查表

附录3 预调研问卷独立样本T检验结果汇总

附录4 大学生锻炼坚持行为调查问卷

附录5 移动应用爬虫程序展示(部分)

附录6 用户生成内容话题识别程序展示(部分)

附录7 Mplus程序部分展示(部分)

附录8 大学生锻炼坚持行为促进平台与应用关键代码(部分)

图目录

表目录

攻读期间发表学术论文

致谢

附件

学位论文评阅及答辩情况表

（2）基于强化学习的张拉整体机器人运动控制研究（论文提纲范文）

摘要

Abstract

1 绪论

1.1 张拉整体的发展历史

1.2 张拉整体结构在机器人领域的运用

1.3 张拉整体机器人运动控制研究现状

1.4 深度强化学习研究现状

1.5 本文的主要研究内容

2 深度强化学习基本理论

2.1 引言

2.2 强化学习基本设置

2.2.1 马尔可夫决策过程

2.2.2 强化学习的求解目标

2.3 深度强化学习基本算法

2.3.1 基于值函数算法

2.3.2 深度确定性策略梯度算法

2.3.3 前馈神经网络

2.4 本章小结

3 张拉整体机器人仿真环境建立

3.1 引言

3.2 位置有限元框架

3.2.1 基本假设

3.2.2 杆单元建立

3.2.3 广义力,切线刚度矩阵切线阻尼矩阵

3.2.4 地面接触力计算

3.2.5 动能和质量阵

3.3 动力学方程建立

3.4 动力学方程的数值求解

3.5 数值算例

3.5.1 张拉整体机器人找形分析

3.5.2 张拉整体机器人动力学分析

3.6 本章小结

4 基于强化学习的滚动步态控制

4.1 引言

4.2 任务建模

4.2.1 状态空间与动作空间的表示

4.2.2 奖励函数设计

4.3 无模型强化学习算法框架设计

4.4 算法改进

4.4.1 基于模型的强化学习算法

4.5 模型训练结果

4.5.1 平坦地面训练

4.5.2 复杂地面训练

4.6 本章小结

5 基于深度强化学习的实时避障控制

5.1 引言

5.2 人工势场法简介

5.3 人工势场法与深度强化学习结合的避障控制

5.4 数值算例

5.5 本章小结

6 结论

参考文献

攻读硕士学位期间发表学术论文情况

致谢

（3）M2M通信中基于深度强化学习的中继选择算法（论文提纲范文）

摘要

Abstract

专用术语注释表

第一章绪论

1.1 课题背景与意义

1.2 国内外研究现状

1.2.1 M2M无线资源管理研究

1.2.2 中继选择算法研究

1.2.3 强化学习在通信领域中的应用

1.3 论文的主要研究内容和创新点

1.4 论文的结构安排

第二章 M2M通信和中继技术简述

2.1 M2M通信概述

2.1.1 M2M网络简述

2.1.2 M2M网络架构

2.1.3 M2M通信特点

2.1.4 M2M面临现状分析

2.2 中继技术概述

2.2.1 中继技术

2.2.2 无线中继工作模式与网络结构

2.2.3 无线中继能效优化

2.3 本章小结

第三章深度强化学习

3.1 机器学习

3.2 强化学习及深度学习

3.2.1 强化学习简述

3.2.2 常见的强化学习方法

3.2.3 神经网络

3.2.4 常见深度学习

3.3 本章小结

第四章基于深度强化学习的中继选择算法

4.1 系统模型

4.1.1 QoE指标

4.2 网络模型

4.3 基于深度强化学习的中继选择

4.3.1 Q学习算法

4.3.2 Q学习算法建模

4.3.3 基于DQN的中继选择算法

4.4 本章小结

第五章实验研究与仿真分析

5.1 仿真环境

5.2 参数优化

5.2.1 学习参数优化

5.2.2 奖励函数参数优化

5.3 测试结果与分析

5.4 本章小结

第六章总结与展望

6.1 本文工作总结

6.2 未来工作展望

参考文献

附录1 攻读硕士学位期间申请的专利

致谢

（4）基于深度学习的无线通信物理层关键技术研究（论文提纲范文）

摘要

Abstract

数学符号表

缩略词表

第一章绪论

1.1 研究背景及意义:深度学习在无线通信中的机遇与挑战

1.1.1 深度学习原理

1.1.2 大数据、算法与硬件大发展

1.1.3 准确模型与非准确模型

1.1.4 可解问题与非可解问题

1.1.5 全局优化与局部优化

1.1.6 挑战与展望

1.2 关键技术的研究背景、意义和国内外研究现状

1.2.1 带通通信系统中的联合接收机

1.2.2 自动调制识别

1.2.3 无线网络中的功率分配

1.3 本文的主要工作与章节安排

1.3.1 本文的主要工作

1.3.2 本文的章节安排

第二章本文主要理论基础:深度学习

2.1 机器学习与深度学习

2.2 深度学习发展

2.3 学习模型

2.4 学习策略

2.5 学习算法

2.5.1 梯度下降法

2.5.2 超参数

2.5.3 过拟合和欠拟合

2.6 约束优化

2.7 学习范式

2.7.1 监督学习

2.7.2 无监督学习

2.8 强化学习

2.8.1 强化学习基础

2.8.2 基于策略的强化学习算法

2.8.3 基于值的强化学习算法

2.8.4 动作器-评价器算法

2.8.5 函数近似和深度强化学习

2.8.6 多智能体强化学习

2.9 深度展开

2.10 迁移学习

第三章带通通信系统中的联合接收机

3.1 引言

3.2 系统模型与问题描述

3.2.1 带通通信系统模型

3.2.2 IIR滤波器模型

3.2.3 问题描述

3.3 基于NN的联合接收机设计

3.3.1 DFR的设计结构

3.3.2 DFR的训练算法

3.3.3 DFR的迭代估计算法

3.3.4 DFR的关键超参数

3.3.5 DFR的实际应用

3.4 仿真结果

3.4.1 隐藏层计算单元数量

3.4.2 迭代次数

3.4.3 通带带宽

3.4.4 DFR和一般NN接收机

3.5 本章小结

第四章改进的判决反馈接收机

4.1 引言

4.2 理论初步介绍

4.2.1 训练集和测试集不匹配

4.2.2 多训练集融合

4.2.3 深度展开

4.3 改进DFR

4.3.1 DFR的存在问题

4.3.2 改进DFR的设计结构

4.3.3 改进DFR的训练算法

4.3.4 训练实用技巧

4.3.5 改进DFR:参数共享

4.3.6 复杂度分析

4.4 仿真结果

4.4.1 模型复杂度

4.4.2 迭代次数

4.4.3 通带带宽

4.5 本章小结

第五章基于卷积神经网络的自动调制识别

5.1 引言

5.2 系统模型与问题描述

5.2.1 正确概率

5.2.2 信号分割

5.3 基于CNN的分类器

5.3.1 模型选择

5.3.2 CNN-AMC模型结构

5.3.3 模型训练

5.3.4 迁移学习

5.3.5 单位CNN-AMC

5.4 仿真结果

5.4.1 相干环境

5.4.2 非相干环境

5.4.3 平坦衰落信道

5.4.4 基于特征的AMC

5.4.5 复杂度

5.5 本章小结

第六章蜂窝小区中的分布式功率分配

6.1 引言

6.2 系统模型和问题描述

6.2.1 系统模型

6.2.2 集中式优化问题

6.2.3 分布式优化问题

6.3 深度强化学习

6.3.1 理论分析

6.3.2 多智能体深度强化学习

6.3.3 在线学习

6.4 DRL算法

6.4.1 DRL设计

6.4.2 REINFORCE算法

6.4.3 DQL算法

6.4.4 DDPG算法

6.5 仿真结果

6.5.1 仿真环境配置

6.5.2 DRL算法对比

6.5.3 泛化能力

6.5.4 计算时间开销

6.6 本章小结

第七章全文总结

7.1 完成的工作

7.2 主要创新点

7.3 研究展望

致谢

参考文献

作者攻读博士学位期间的研究成果

（5）空间反射面天线热变形主动调节与容错控制研究（论文提纲范文）

摘要

ABSTRACT

符号对照表

缩略语对照表

第一章绪论

1.1 本课题研究背景

1.2 反射面天线主动调整系统现状

1.3 主动调整系统控制策略研究现状

1.3.1 多变量耦合系统控制策略研究现状

1.3.2 多变量不确定性系统控制策略研究现状

1.4 多输入多输出系统容错控制研究现状

1.4.1 被动容错控制技术

1.4.2 主动容错控制技术

1.5 本文主要工作及创新点

第二章空间反射面天线主动调整机构布局与控制

2.1 引言

2.2 空间反射面天线主动调整机构布局优化

2.2.1 空间反射面天线主动调整机构简介与温度场分析

2.2.2 空间反射面天线主动调整机构位置优化模型建立

2.2.3 优化模型的AFPSO求解

2.2.4 主动调整机构位置求解

2.3 空间反射面天线主动调整系统建模

2.4 基于LQR离散多变量系统控制方法

2.5 仿真分析

2.5.1 基于LQR离散多变量控制

2.5.2 基于LQR离散多变量控制鲁棒性仿真分析

2.6 小结

第三章基于参考模型的模糊神经网络强化学习控制

3.1 引言

3.2 基于参考模型的强化学习控制

3.2.1 基于参考模型的强化学习控制

3.2.2 基于强化学习的修正项求解

3.3 基于参考模型的模糊神经网络强化学习控制策略

3.4 仿真分析

3.4.2 参数改进

3.4.3 参数仿真验证

3.5 小结

第四章基于模糊观测器的自适应解耦控制

4.1 引言

4.2 基于模糊观测器的自适应解耦控制

4.2.1 不确定性多变量耦合系统解耦

4.2.2 自构架模糊干扰观测器设计

4.3 仿真分析

4.3.1 基于模糊观测器的自适应解耦控制仿真分析

4.3.2 基于不同扰动量仿真分析

4.4 小结

第五章调整机构故障函数辨识

5.1 引言

5.2 作动器故障模型建立

5.3 自构架模糊UKF故障逼近

5.3.1 故障状态UKF估计

5.3.2 自构架模糊UKF故障逼近

5.4 故障分类

5.5 仿真分析

5.6 小结

第六章主动调整机构自适应容错控制

6.1 引言

6.2 自适应容错控制策略设计

6.3 仿真分析

6.3.2 主动调整机构故障仿真分析

6.3.3 主动调整机构失效仿真分析

6.4 小结

第七章总结与展望

7.1 总结

7.2 展望

参考文献

致谢

作者简介

（6）基于深度强化学习的热工过程控制方法研究与应用（论文提纲范文）

摘要

abstract

第一章绪论

1.1 研究背景及意义

1.2 深度强化学习研究现状

1.2.1 强化学习

1.2.2 深度学习

1.2.3 深度强化学习

1.2.4 深度强化学习在控制领域的研究现状

1.2.5 本文主要研究内容与组织结构

第二章基于深度强化学习的热工过程控制方法研究

2.1 引言

2.2 深度强化学习基本理论

2.2.1 强化学习

2.2.2 深度强化学习基本原理

2.3 基于深度强化学习的热工过程控制系统框架与学习框架

2.3.1 热工过程控制系统

2.3.2 基于深度强化学习的热工过程控制系统框架

2.3.3 基于DQN的热工过程控制实施步骤

2.4 基于DQN的水箱水位控制系统仿真实验及分析

2.4.1 基于DQN的水箱水位控制系统设计

2.4.2 仿真实验及分析

2.4.3 深度强化学习应用于热工过程控制的基本原则

2.5 本章小结

第三章基于深度强化学习的热工过程控制方法关键问题研究

3.1 引言

3.2 热工过程state与 reward评价体系的改进

3.2.1 热工过程对象环境state的构建

3.2.2 热工过程对象环境reward评价体系的构建

3.3 基于控制量约束的深度强化学习热工过程控制方法

3.3.1 基于控制量上下限约束的DQN热工过程控制方法

3.3.2 基于控制量速率约束的DQN热工过程控制方法

3.4 基于深度强化学习的热工过程控制系统设计

3.4.1 基于控制量上下限约束的DQN的水箱水位控制系统设计

3.4.2 基于控制量速率约束的DQN水箱水位控制系统设计

3.4.3 基于控制量速率约束的DQN电站过热汽温控制系统设计

3.5 仿真研究

3.5.1 基于控制量上下限约束的DQN水箱水位控制系统仿真实验

3.5.2 基于控制量速率约束的DQN水箱水位控制系统仿真实验

3.5.3 基于控制量速率约束的DQN的电站过热汽温控制系统仿真实验

3.6 本章小节

第四章基于DQN的热工过程多变量控制方法应用研究

4.1 引言

4.2 基于DQN的多变量控制方法关键技术

4.2.1 reward评价体系的改进

4.2.2 动作空间的改进

4.3 燃烧后CO_2捕集系统简介及特性分析

4.3.1 化学吸附的燃烧后CO2 捕集系统简介

4.3.2 化学吸附后CO_2捕集系统的特性分析

4.3.3 化学吸附燃烧后CO_2捕集系统模型辨识

4.4 基于控制量速率约束的DQN CO_2捕集控制系统设计

4.4.1 state的设计

4.4.2 reward评价体系的设计

4.4.3 基于控制量速率约束的DQN燃烧后CO_2捕集系统控制框架与学习框架

4.5 基于DQN的 CO_2捕集多变量控制系统仿真研究

4.5.1 仿真实验一:CO_2捕集率设定值跟踪和烟气流量扰动抑制仿真实验

4.5.2 仿真实验二:当抽汽流量由上游机组决定时,烟气流量扰动抑制仿真实验

4.6 本章小结

第五章总结于展望

5.1 论文工作总结

5.2 今后工作展望

致谢

参考文献

作者在攻读硕士学位期间发表的论文和参与的项目

（7）基于深度强化学习的自适应光学波前控制研究（论文提纲范文）

摘要

abstract

第一章绪论

1.1 研究工作的背景与意义

1.2 波前控制技术国内外研究历史与现状

1.2.1 有波前探测控制技术

1.2.2 无波前探测控制技术

1.3 论文结构安排

第二章传统线性控制模型的误差传递

2.1 像差表述

2.2 哈特曼斜率计算

2.3 波前复原

2.3.1 区域法

2.3.2 模式法

2.3.3 直接斜率法

2.4 传统线性控制模型

2.5 控制模型的误差传递

2.5.1 斜率测量误差

2.5.2 斜率信息缺失

2.5.3 空间采样误差

2.5.4 波前测量误差的敏感度分析

2.6 H-S与波前校正器的对准误差

2.7 本章小结

第三章远场指标梯度抑制误差传递

3.1 远场指标梯度估计

3.2 梯度信息补偿误差传递分析

3.3 梯度信息补偿对准误差分析

3.4 本章小结

第四章在线自学习线性控制模型

4.1 线性动态学习模型

4.2 模型的训练方法

4.3 递归最小二乘参数估计

4.4 学习模型流程及优化

4.5 模型参数初始化策略

4.6 实验与分析

4.6.1 测量噪声抑制

4.6.2 斜率信息缺失补偿

4.6.3 自适应对准误差及其数值分析

4.7 模型的线性偏移

4.8 本章小结

第五章深度强化学习控制模型

5.1 非线性动态学习模型

5.2 神经网络基本原理

5.2.1 前馈计算

5.2.2 误差反向传播

5.3 模型的训练方法

5.4 梯度约束及其优化

5.5 强化学习理论框架

5.5.1 马尔科夫决策过程

5.5.2 值函数与最优性原理

5.5.3 TD方法与值函数逼近

5.5.4 策略梯度

5.6 策略优化流程

5.7 实验与分析

5.7.1 测量噪声抑制

5.7.2 斜率信息缺失补偿

5.7.3 动态波前预测控制

5.7.4 自适应对准误差及其数值分析

5.8 抑制线性偏移

5.9 本章小结

第六章全文总结与展望

6.1 全文总结

6.2 论文主要创新点

6.3 后续工作展望

致谢

参考文献

攻读博士学位期间取得的成果

（8）参数未知非线性系统的数据驱动控制研究（论文提纲范文）

摘要

ABSTRACT

第1章绪论

1.1 课题研究背景及意义

1.1.1 基于模型与数据驱动的区别

1.1.2 动态规划在最优控制中的应用

1.2 数据驱动控制的国内外研究现状

1.2.1 虚拟参考反馈整定

1.2.2 强化学习

1.2.3 自适应动态规划

1.3 本文的主要研究工作

1.3.1 研究思路

1.3.2 本文主要内容

第2章基于VRFT方法的二自由度控制器设计

2.1 引言

2.2 问题描述

2.3 二自由度控制器设计

2.3.1 VRFT方法

2.3.2 滤波器设计

2.3.3 噪声环境影响

2.4 仿真算例

2.5 本章小结

第3章带有输入饱和的未知非线性系统的H_∞状态反馈控制

3.1 引言

3.2 H_∞ 最优控制问题

3.2.1 问题描述

3.2.2 H_∞ 最优控制设计

3.2.3 HJI方程

3.3 仿真算例

3.4 本章小结

第4章具有非匹配扰动的非线性系统积分滑模控制

4.1 引言

4.2 问题描述和准备工作

4.2.1 非线性系统模型

4.2.2 径向基神经网络

4.3 积分滑模控制器设计

4.4 次优控制器设计

4.4.1 构造控制器结构

4.4.2 策略迭代算法实现

4.4.3 神经网络近似

4.4.4 稳定性分析

4.5 仿真算例

4.6 本章小结

第5章带执行器间隙补偿的非线性系统量化自适应跟踪控制

5.1 引言

5.2 问题描述

5.2.1 系统模型

5.2.2 非对称执行器间隙

5.2.3 滞后量化器设计

5.2.4 滞后量化器分解

5.3 控制器设计和稳定性分析

5.3.1 参考模型和跟踪误差模型

5.3.2 评价网络设计

5.3.3 控制器设计

5.3.4 稳定性分析

5.4 仿真算例

5.5 本章小结

第6章基于数据的非线性偏微分系统最优控制

6.1 引言

6.2 问题描述

6.3 系统降阶

6.3.1 模型简化

6.3.2 基于奇异值摄动理论降阶ODE系统

6.4 最优控制设计

6.4.1 求解HJB方程

6.4.2 执行-评价神经网络

6.4.3 策略迭代算法

6.5 稳定性分析

6.6 仿真算例

6.7 本章小结

第7章总结与展望

7.1 总结

7.2 展望

参考文献

发表论文情况

致谢

（9）基于规划网络模型的机器学习算法研究（论文提纲范文）

摘要

Abstract

第一章引言

1.1 研究背景及意义

1.2 研究现状及趋势

1.3 研究内容

1.4 论文组织结构

第二章背景知识

2.1 马尔科夫决策过程

2.2 用于规划的强化学习方法

2.2.1 动态规划

2.2.2 时间差分

2.3 用于深度强化学习的规划网络框架

2.3.1 值迭代网络和广义值迭代网络

2.3.2 QMDP-NET

2.4 本章小结

第三章广义异步值迭代网络

3.1 广义值迭代网络

3.1.1 基于嵌入信息的核函数

3.2 情节式Q学习和加权双Q学习

3.3 广义异步值迭代网络

3.3.1 情节式加权双Q学习

3.3.2 新型图形卷积算子

3.4 实验与结果分析

3.4.1 实验环境及参数设置

3.4.2 结果分析

3.5 本章小结

第四章在部分可观察环境进行规划的深度循环网络

4.1 部分可观察的马尔科夫决策过程

4.2 QMDP-_(NET)及其缺陷

4.3 异步QMDP-_(NET)

4.4 R_(EPLICATED)Q-_(NET)

4.5 实验与结果分析

4.5.1 实验环境设置

4.5.2 结果分析

4.6 本章小结

第五章基于元强化学习的规划算法研究

5.1 元强化学习

5.2 MAML及其缺陷

5.3 基于元模型更新过程的MAML改进工作

5.4 实验与结果分析

5.4.1 实验环境及参数设置

5.4.2 结果分析

5.5 本章小结

第六章总结与展望

6.1 总结

6.2 展望

参考文献

攻读硕士学位期间公开发表(录用)的论文及参与的项目

一、公开发表(录用)及正在投稿的学术论文

二、申请专利

三、软件着作权

四、参加的科研项目

致谢

（10）基于知识和深度强化学习的列车自动停车控制算法研究（论文提纲范文）

摘要

ABSTRACT

第一章绪论

1.1 研究背景及目的和意义

1.1.1 研究背景

1.1.2 研究目的和意义

1.2 相关技术研究现状

1.2.1 深度强化学习研究现状

1.2.2 列车自动停车控制技术研究现状

1.2.3 研究现状小结

1.3 课题来源及主要研究内容

1.3.1 课题来源

1.3.2 主要研究内容

第二章高速列车停车控制模型及性能指标

2.1 引言

2.2 高速列车自动停车控制问题描述

2.2.1 高速列车列车动力学模型

2.2.2 高速列车制动模型

2.3 高速列车停车控制仿真平台

2.4 列车自动停车控制的性能指标

2.4.1 停车误差

2.4.2 舒适度

2.4.3 指令切换次数

2.5 本章小结

第三章单车单线路模型的列车停车算法

3.1 引言

3.2 单车单线路模型

3.3 多层前馈神经网络

3.3.1 前向传播

3.3.2 误差逆传播

3.4 双深度Q网络算法

3.5 列车自动停车控制算法设计

3.5.1 环境模块

3.5.2 知识模块

3.5.3 深度强化学习模块

3.6 仿真结果与分析

3.7 本章小结

第四章多车多线路模型的列车停车算法

4.1 引言

4.2 多车多线路模型

4.3 循环神经网络

4.4 Wide & Deep 模型

4.5 深度循环Q网络算法

4.6 列车自动停车控制新框架

4.7 仿真结果与分析

4.8 本章小结

第五章结论

5.1 结论

5.2 展望

参考文献

攻读学位期间取得的科研成果

致谢

四、一类基于有效跟踪的广义平均奖赏激励学习算法（论文参考文献）

[1]大学生锻炼坚持行为影响因素及促进策略研究[D]. 王磊. 山东大学, 2021(10)
[2]基于强化学习的张拉整体机器人运动控制研究[D]. 郭亚奇. 大连理工大学, 2021(01)
[3]M2M通信中基于深度强化学习的中继选择算法[D]. 吴子秋. 南京邮电大学, 2020(02)
[4]基于深度学习的无线通信物理层关键技术研究[D]. 孟帆. 东南大学, 2020
[5]空间反射面天线热变形主动调节与容错控制研究[D]. 刘志勇. 西安电子科技大学, 2020(05)
[6]基于深度强化学习的热工过程控制方法研究与应用[D]. 敖韬. 东南大学, 2020
[7]基于深度强化学习的自适应光学波前控制研究[D]. 许振兴. 电子科技大学, 2020(03)
[8]参数未知非线性系统的数据驱动控制研究[D]. 郑玉卿. 天津大学, 2020(01)
[9]基于规划网络模型的机器学习算法研究[D]. 陈子璇. 苏州大学, 2020(02)
[10]基于知识和深度强化学习的列车自动停车控制算法研究[D]. 崔玉君. 太原理工大学, 2020(07)

标签：机器学习论文; 深度学习算法论文; 网络模型论文; 梯度下降论文; 强化学习论文;

一类基于高效跟踪的广义平均奖励激励学习算法

一、一类基于有效跟踪的广义平均奖赏激励学习算法（论文文献综述）

二、一类基于有效跟踪的广义平均奖赏激励学习算法（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

写法范例：

（2）本文研究方法

三、一类基于有效跟踪的广义平均奖赏激励学习算法（论文提纲范文）

（1）大学生锻炼坚持行为影响因素及促进策略研究（论文提纲范文）

（2）基于强化学习的张拉整体机器人运动控制研究（论文提纲范文）

（3）M2M通信中基于深度强化学习的中继选择算法（论文提纲范文）

（4）基于深度学习的无线通信物理层关键技术研究（论文提纲范文）

（5）空间反射面天线热变形主动调节与容错控制研究（论文提纲范文）

（6）基于深度强化学习的热工过程控制方法研究与应用（论文提纲范文）

（7）基于深度强化学习的自适应光学波前控制研究（论文提纲范文）

（8）参数未知非线性系统的数据驱动控制研究（论文提纲范文）

（9）基于规划网络模型的机器学习算法研究（论文提纲范文）

（10）基于知识和深度强化学习的列车自动停车控制算法研究（论文提纲范文）

四、一类基于有效跟踪的广义平均奖赏激励学习算法（论文参考文献）

猜你喜欢