Skip to content

Commit e18ce27

Browse files
committed
Updates dl/layers/core.md
Auto commit by GitBook Editor
1 parent 989eda3 commit e18ce27

File tree

2 files changed

+4
-2
lines changed

2 files changed

+4
-2
lines changed

dl/layers/core.md

+2
Original file line numberDiff line numberDiff line change
@@ -48,5 +48,7 @@ Lambda
4848

4949
---
5050

51+
softmax层
5152

53+
---
5254

dl/reinforcement/policy-gridient.md

+2-2
Original file line numberDiff line numberDiff line change
@@ -6,11 +6,11 @@
66

77
Policy gradient 是 RL 中另外一个大家族, 他不像 Value-based 方法 \(Q learning, Sarsa\), 但他也要接受环境信息 \(observation\), 不同的是他要输出不是 action 的 value, 而是具体的那一个 action, 这样 policy gradient 就跳过了 value 这个阶段. 而且个人认为 Policy gradient 最大的一个优势是: 输出的这个 action 可以是一个连续的值, 之前我们说到的 value-based 方法输出的都是不连续的值, 然后再选择值最大的 action. 而 policy gradient 可以在一个连续分布上选取 action.
88

9-
10-
119
## 算法 {#算法}
1210

1311
我们介绍的 policy gradient 的第一个算法是一种基于**整条回合数据**的更新, 也叫**REINFORCE**方法. 这种方法是 policy gradient 的最基本方法, 有了这个的基础, 我们再来做更高级的.
1412

1513
![](/assets/reinforcement-pg1.png)
1614

15+
16+

0 commit comments

Comments
 (0)