20210318周报

[TOC]

深度强化学习

加深对Sarsa和QLearning的理解，并进行实现

Sarsa和QLearning的区别：Sarsa在更新的时候，一直使用的一定是下次自己执行的行为策略。但是QLearning在更新表的时候一直用的是不一定是下次用的策略，下次采用的一定是表现最好的策略。on-policy 一般使用一个策略进行加值迭代 eposilon-greedy； off-policy 一般有两个策略，使用eposilon-greedy选择动作，使用贪婪更新价值函数。他们在实现的过程中，表现为更新公式不同：

Sarsa：

$ Q(S_t, A_t) = Q(S_t, A_t) + \alpha [reward + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)] $

QLearning

$ Q(S_t, A_t) = Q(S_t, A_t) + \alpha [reward + \gamma *maxQ(S_{t+1}, a) - Q(S_t, A_t)] $
DQN 深度Q 网络，理解了DQN当中的经验池、经验回放、还有固定Q目标，这个经验回放的目的就是因为我们在神经网络中训练的数据一般是要求独立的，所以我们把我们这种有时序联系的数据放进去随机并且也保存了过去的经验，固定Q目标值的目的，因为在DQN中是有两个网络，一个网络用来做实时的预测，另外一个网络是上一个网络的一个深拷贝，他的输出是作为训练的一个目标，但是如果这个目标一直在变的话会让算法的不稳定性变高，所以DQN采用以一定的时间频率去更新这个生成目标值的网络，增强DQN的稳定性。

还没有完成实现，实现的时候选择了百度的parl作为框架，他是将其分为了model这里指的就是神经网络、agent、algorithm因为强化学习针对不同的任务代码可重用性比较低所以里面并不是具体的代码而是每种方法的框架需要对其中的方法进行重写、replayMemory经验回放这几个模块。

关于研究方向

因为进行强化学习的数据，他是要求要具备马尔科夫性的，所以在开始之前，我觉得首先要能够证明数据具有马尔科夫性，这个我在一篇文章中看到了关于网络演化数据是具备马尔可夫性的证明。

论文

Cheap Talk, Reinforcement Learning, and the Emergence of Cooperation，2015

 这篇文章给出的问题是：人们以前认为cheap talk（空谈博弈，给出的信息没有什么价值，容易伪造，很不可靠，不可验证性）在群体中没有办法支持合作的出现，是不是真的？
 
  方法是：通过强化学习展示了在cheap talk演化之下的社会网络模型，具体如下。
 
 文章先讲了意了一些传统的产生社团的一些机制：1.具有可靠的信息交流或者是可信度很高的信号 2.惩罚机制 3.共同遵守相同的规范 4.互惠互利的利他主义等等。接下来引用其他论文指出那种具有可靠的信息的信号也不是很重要，来引入cheap talk这种没有什么参考价值的不可验证的信号。
 
 本文用的是RE模型进行加强，用Polya urn 瓦罐模型（可以看为从一个罐子里面放不同的球，来抽球）来模拟抽到的策略是不可信的不可验证的，那么通过所选的策略的回报进行加强（假如抽中a的回报是4，那么就往罐子中放入4个a的球），这其中还用了一个叫折扣的机制（就是可以遗忘过去的一些被封锁的一些信号或者说策略），像强化学习里面的利用与探索，使其仍然具有探索的能力，最后发现通过这种条件，最终仍然可以生成社团。

A computational reward learning account of social，2021

 这篇文章的起初提出的问题就是我们在社交媒体中是基于奖励来做出行为的，尽管有这种说法但是没有具体证据。最后结果表明人类在社交媒体上的行为在质量和数量上都符合奖励学习的原则。文章是研究社交媒体中的奖励对人在社交媒体上行为的影响，并不是关于网络建模方向的，所以就看了看这篇文章在强化学习的部分，数据采用的是多个平台的发帖时序数据，采用policy-gradient的算法，因为有利于学习具有连续动作空间的问题。

无模型强化学习综述

文章介绍了监督学习、无监督学习以及强化学习的不同之处，指出有模型强化学习相较于无模型强化学习的不足，主要以无模型强化学习算法以及进展展开,。

模型化强化学习他不与环境进行交互，难以处理高维问题。并且若是存在模型误差，其性能将远低于无模型强化学习。
通过马尔可夫决策过程推导需要求解的贝尔曼方程
介绍了无模型强化学习的几种主要算法
- on-policy：例如sarsa
- off-policy ：例如QLearning。两者的区别主要在于：在线策略一般只有一个策略进行价值迭代，即$\epsilon-greedy$；而离线策略一般有两个策略，$\epsilon-greedy$用于选择动作，贪婪法用于更新价值函数。
- DQN：基于QLearning。他是有两个网络，一个用于生成预测值，一个用于生成目标值并且这个值在一定时间内是固定的。同时引入了经验回放，将经验放入经验池来打乱数据的时序规律，更好的更新神经网络。
- policy-gradient：通过不断计算当下策略的agent的累积收益与策略参数的梯度，最终梯度收敛得到最优策略。这是一种policy-based方法，是因为在value-based方法在连续动作空间处理问题能力不足。
进展方面主要将的是在游戏、化学、NLP、机器人等方面的一些应用。