RL

2024/4/12 2:30:38

强化学习总结(1)———Q Learning

本系列博客对莫烦视频(https://morvanzhou.github.io/)的知识点进行总结。 强化学习基础概念 强化学习的过程中会进行多次迭代,每次迭代都会进行上图的操作。也就是Agent(智能体)根据现在的状态做出一个自认为最好的动…

强化学习(2):Sarsa 算法及 Sarsa(lambda) 算法

最近自己会把自己个人博客中的文章陆陆续续的复制到CSDN上来,欢迎大家关注我的 个人博客,以及我的github。 本文主要讲解 Sarsa 算法以及 Sarsa(λ\lambdaλ) 算法的相关内容,同时还会分别附上一个莫烦大神写的例子。 一、Sarsa 算法 Sarsa…

强化学习总结(3)———Dueling-DQN

上一篇总结了我对DQN的理解 https://blog.csdn.net/qq_37553152/article/details/90812273 Dueling-DQN是对传统DQN的一种改进算法,它的核心思路是优化神经网络的结构。在传统DQN算法中,根据神经网络的输出确定每个动作Q值,然后选出最优的动…

RL的体悟以及简单的算法介绍

本文将围绕着本人在接触rl后的各种问题,简单解答,顺便介绍各种算法。主要是给自己用做笔记,所以写得比较乱。 0、 可以参考的资料 openai的教程 这个讲得很棒,最好可以按照顺序读一遍 1、off policy / on policy? off polic…

如何创建自己的gym环境

我们为什么要创建一个gym的环境呢?因为需要,哈哈哈,这是一句废话,但是也是一句真话。因为我不想自己写强化学习的算法了,我想用一些现成的框架,这些框架训练的都是gym的游戏,那我把我自己想要训…

Gazebo仿真环境下的强化学习实现

Gazebo仿真环境下的强化学习实现 主体源码参照《Goal-Driven Autonomous Exploration Through Deep Reinforcement Learning》 文章目录 Gazebo仿真环境下的强化学习实现1. 源码拉取2. 强化学习实现2.1 环境2.2 动作空间2.3 状态空间2.4 奖励空间2.5 TD3训练 3. 总结 1. 源码…

cs285学习笔记

文章目录lec1ML和RL之间的区别几种RL分类current challengeslec4markov chainmarkov decision processpartially observed markov decision processRLs goalQ & Alec1 ML和RL之间的区别 mlrliid data数据不iid,前面的数据会影响future input训练时有确定的gro…

强化学习MPC——(二)

本篇主要介绍马尔科夫决策(MDP)过程,在介绍MDP之前,还需要对MP,MRP过程进行分析。 什么是马尔科夫,说白了就是带遗忘性质,下一个状态S_t1仅与当前状态有关,而与之前的状态无关。 为…

强化学习总结(2)———DQN

上一篇总结了Q-Learning算法 https://blog.csdn.net/qq_37553152/article/details/88830319 Q-Learning算法对于一些小问题非常实用,但是遇到复杂的问题,状态数变多,就会遇到效率低、受数据关联性影响等问题。 于是DQN出现了,它…

百度工程师浅析强化学习

作者 | Jane 导读 本文主要介绍了强化学习(Reinforcement Learning,RL)的基本概念以及什么是RL。强化学习让智能体通过与环境的交互来学习如何做出决策,以获得最大的累积奖励。文章还介绍了策略梯度(Policy Gradient&a…

centos8 install mujoco

一、ubuntu 上安装mujoco $ sudo apt-get install libglfw3 libglew2.0 libgl1-mesa-glx libosmesa6 然后pip install mujoco_py二、centos没有apt install所对应的库 2.1 尝试解决centos8上安装mujoco环境依赖问题 执行python -c "import mujoco_py"时&#xff0…

Reinforcement Learning | 强化学习十种应用场景及新手学习入门教程

文章目录 1.在自动驾驶汽车中的应用2.强化学习的行业自动化3.强化学习在贸易和金融中的应用4.NLP(自然语言处理)中的强化学习5.强化学习在医疗保健中的应用6.强化学习在工程中的应用7.新闻推荐中的强化学习8.游戏中的强化学习9.实时出价——强化学习在营…

强化学习(一)——基本概念及DQN

1 基本概念 智能体 agent ,做动作的主体,(大模型中的AI agent) 环境 environment:与智能体交互的对象 状态 state ;当前所处状态,如围棋棋局 动作 action:执行的动作,…