强化学习
马尔可夫过程:解决序列决策问题,理解状态之间的转移概率
目标:reward最大化。需要有更好的policy选择action, 通过让agent获得状态转移概率
exploration和exploitation的平衡
Q-learning,DQN,TRPO, PPO, soft actor critic
理论
贝尔曼最优方程
类型
model-based
model-free
Value Based: 状态+动作学习到一个value, value直接反应reward
Policy Based: 由状态学习到动作的分布,根据分布进行决策
Actor-Critic: Actor通过状态学习动作的分布,Critic根据动作和新的状态学习value评价
DQN
策略梯度 policy gradient
PPO (Proximal Policy Optimization)
rlhf(Reward + PPO)是 online 学习方式,dpo 是 offline 学习方式
策略梯度 -> actor-critic -> PPO
近端策略优化
两个网络,分别是Actor和Critic
DPO
问答
on-policy和off-policy的区别是什么
On-policy都有什么,SASA的公式和Q learning的公式什么差别,为什么没有max
解释一下DQN离散,DQNN(连续),有没有手写过
DPO (off-policy) 为什么会在学习过程中training positive的概率和training negative的概率都同时下降?
和采样的方式以及DPO loss组成相关. BT loss,maximize training set中positive和negative的gap
reference
Last updated