Updates dl/reinforcement/reinforcement.md

shunliz · shunliz · commit da60e514c14f · 2019-04-17T08:25:23.000+08:00
Auto commit by GitBook Editor
diff --git a/dl/reinforcement/reinforcement.md b/dl/reinforcement/reinforcement.md
@@ -17,7 +17,7 @@ Log-Likelihood&#65306;&#35745;&#31639;&#27599;&#19968;&#20010;&#21160;&#20316;&#30340;&#27010;&#29575;&#65292;$$log\pi_\theta(a|s) = log[P_\
 
 **diagonal Gaussian policies &#36890;&#24120;&#29992;&#22312;&#36830;&#32493;&#21160;&#20316;&#31354;&#38388;&#30340;&#22330;&#26223;**
 
-&#37319;&#26679;&#38454;&#27573;&#65292;&#29983;&#25104;&#38543;&#26426;&#21160;&#20316;&#30340;&#27010;&#29575; $$a = \mu_\theta(s) +\delta_\theta(s)\odot z$$    $$z\sim N(0,I)$$
+&#37319;&#26679;&#38454;&#27573;&#65292;&#29983;&#25104;&#38543;&#26426;&#21160;&#20316;&#30340;&#27010;&#29575; $$a = \mu_\theta(s) +\delta_\theta(s)\odot z$$&#65292;$$z\sim N(0,I)$$
 
 Log-Likelihood: $$log\pi_\theta(a|s) = -\frac{1}{2}( \sum_{i=1}^{k}(\frac{(a_i-\mu_i)^2)}{\delta_i^2}))+klog2\pi)$$
 
@@ -122,7 +122,3 @@ $$s_{t+1} \sim P(\odot|s_t, a_t)$$
 | :--- |
 
 
-
-
-[^1]: Enter footnote here.
-

-Original file line number
+Diff line change
 **diagonal Gaussian policies 通常用在连续动作空间的场景**
 -采样阶段，生成随机动作的概率 $$a = \mu_\theta(s) +\delta_\theta(s)\odot z$$    $$z\sim N(0,I)$$
 +采样阶段，生成随机动作的概率 $$a = \mu_\theta(s) +\delta_\theta(s)\odot z$$，$$z\sim N(0,I)$$
 Log-Likelihood: $$log\pi_\theta(a|s) = -\frac{1}{2}( \sum_{i=1}^{k}(\frac{(a_i-\mu_i)^2)}{\delta_i^2}))+klog2\pi)$$
 | :--- |
+-
+-
 -[^1]: Enter footnote here.
+-