强化学习

  • 马尔可夫过程:解决序列决策问题,理解状态之间的转移概率

  • 目标:reward最大化。需要有更好的policy选择action, 通过让agent获得状态转移概率

  • exploration和exploitation的平衡

  • Q-learning,DQN,TRPO, PPO, soft actor critic

DQN

策略梯度 policy gradient

PPO

问答

  • 是on-policy还是off-policy的区别是什么

  • On-policy都有什么,SASA的公式和Q learning的公式什么差别,为什么没有max

  • 解释一下DQN离散,DQNN(连续),有没有手写过

  • DPO (off-policy) 为什么会在学习过程中training positive的概率和training negative的概率都同时下降?

    • 和采样的方式以及DPO loss组成相关. BT loss,maximize training set中positive和negative的gap

reference

Last updated