Skip to content

Commit 66c4ef3

Browse files
committed
fix katex error
1 parent 08caa34 commit 66c4ef3

File tree

11 files changed

+65
-64
lines changed

11 files changed

+65
-64
lines changed

ml/associative/cca.md

+5-5
Original file line numberDiff line numberDiff line change
@@ -26,7 +26,7 @@ CCA使用的方法是将多维的X和Y都用线性变换为1维的X'和Y',然
2626
$$
2727
X' = a^TX, Y'=b^TY
2828
$$
29-
我们CCA的优化目标是最大化$$\rho(X',Y')$$得到对应的投影向量a,b,即$$\underbrace{arg\;max}_{a,b}\frac{cov(X',Y')}{\sqrt{D(X')}\sqrt{D(Y')}}$$
29+
我们CCA的优化目标是最大化$$\rho(X',Y')$$得到对应的投影向量a,b,即$$arg\;max(a,b)\;\;\frac{cov(X',Y')}{\sqrt{D(X')}\sqrt{D(Y')}}$$
3030

3131
在投影前,我们一般会把原始数据进行标准化,得到均值为0而方差为1的数据X和Y。这样我们有:$$cov(X',Y') = cov(X',Y') = cov(a^TX, b^TY) = E(<a^TX, b^TY>) = E((a^TX)(b^TY)^T) = a^TE(XY^T)b$$
3232

@@ -44,9 +44,9 @@ $$
4444
$$
4545
cov(X,Y) = E(XY^T), cov(Y,X) = E(YX^T)
4646
$$
47-
$$S_{XY} =cov(X,Y)$$,则优化目标可以转化为:$$\underbrace{arg\;max}_{a,b}\frac{a^TS_{XY}b}{\sqrt{ a^TS_{XX}a}\sqrt{b^TS_{YY}b}}$$
47+
$$S_{XY} =cov(X,Y)$$,则优化目标可以转化为:$$arg\;max(a,b)\;\;\frac{a^TS_{XY}b}{\sqrt{ a^TS_{XX}a}\sqrt{b^TS_{YY}b}}$$
4848

49-
由于分子分母增大相同的倍数,优化目标结果不变,我们可以采用和SVM类似的优化方法,固定分母,优化分子,具体的转化为:$$\underbrace{arg\;max}_{a,b}\;\;{a^TS_{XY}b}$$ $$s.t. a^TS_{XX}a =1,\; b^TS_{YY}b =1$$
49+
由于分子分母增大相同的倍数,优化目标结果不变,我们可以采用和SVM类似的优化方法,固定分母,优化分子,具体的转化为:$$arg\;max(a,b)\;\;{a^TS_{XY}b}$$ $$s.t. a^TS_{XX}a =1,\; b^TS_{YY}b =1$$
5050

5151
也就是说,我们的CCA算法的目标最终转化为一个凸优化过程,只要我们求出了这个优化目标的最大值,就是我们前面提到的多维X和Y的相关性度量,而对应的a,b则为降维时的投影向量,或者说线性系数。
5252

@@ -66,7 +66,7 @@ $$a^TS_{XY}b = u^TS_{XX}^{-1/2}S_{XY}S_{YY}^{-1/2}v$$
6666

6767
也就是说,我们的优化目标变成下式:
6868

69-
$$\underbrace{arg\;max}_{u,v}u^TS_{XX}^{-1/2}S_{XY}S_{YY}^{-1/2}v$$
69+
$$arg\;max(u,v)\;\;u^TS_{XX}^{-1/2}S_{XY}S_{YY}^{-1/2}v$$
7070

7171
$$s.t. u^Tu =1,\; v^Tv =1$$
7272

@@ -90,7 +90,7 @@ $$s.t. u^Tu =1,\; v^Tv =1$$
9090

9191
这个式子我们就熟悉了,这不就是特征分解吗!要求最大的相关系数$$\lambda$$,我们只需要对矩阵$$N=S_{XX}^{-1}S_{XY}S_{YY}^{-1}S_{YX}$$做特征分解,找出最大的特征值取平方根即可,此时最大特征值对应的特征向量即为X的线性系数a。
9292

93-
同样的办法,我们将上面第一个式子带入第二个式子,我们得到$$S_{YY}^{-1}S_{YX}S_{XX}^{-1}S_{XY}b=\lambda^2b$$, 我们只需要对矩阵$$N=S_{YY}^{-1}S_{YX}S_{XX}^{-1}S_{XY}$$做特征分解,找出最大的特征值取平方根即可,此时最大特征值对应的特征向量即为Y的线性系数b。
93+
同样的办法,我们将上面第一个式子带入第二个式子,我们得到$$S_{YY}^{-1}S_{YX}S_{XX}^{-1}S_{XY}b=\lambda^2b$$, 我们只需要对矩阵$$N^{'}=S_{YY}^{-1}S_{YX}S_{XX}^{-1}S_{XY}$$做特征分解,找出最大的特征值取平方根即可,此时最大特征值对应的特征向量即为Y的线性系数b。
9494

9595
可以看出特征分解的方法要比SVD复杂,但是两者求得的结果其实是等价的,只要利用SVD和特征分解之间的关系就很容易发现两者最后的结果相同。
9696

ml/crf/back-forth.md

+8-8
Original file line numberDiff line numberDiff line change
@@ -8,15 +8,15 @@
88

99
    在[隐马尔科夫模型HMM](/ml/hmm/hmm.md)中,我们讲到了HMM的三个基本问题,而linear-CRF也有三个类似的的基本问题。不过和HMM不同,在linear-CRF中,我们对于给出的观测序列x是一直作为一个整体看待的,也就是不会拆开看$$(x_1,x_2,...)$$,因此linear-CRF的问题模型要比HMM简单一些,如果你很熟悉HMM,那么CRF的这三个问题的求解就不难了。
1010

11-
     linear-CRF第一个问题是评估,即给定 linear-CRF的条件概率分布P\(y\|x\), 在给定输入序列x和输出序列y时,计算条件概率$$P(y_i|x)$$$$P(y_{i-1}y_i|x)$$以及对应的期望. 本文接下来会详细讨论问题一。
11+
     linear-CRF第一个问题是评估,即给定 linear-CRF的条件概率分布P\(y\|x\), 在给定输入序列x和输出序列y时,计算条件概率$$P(y_i|x)$$$$P(y_{i-1}, y_i|x)$$以及对应的期望. 本文接下来会详细讨论问题一。
1212

1313
     linear-CRF第二个问题是学习,即给定训练数据集X和Y,学习linear-CRF的模型参数$$w_k$$和条件概率$$P_w(y|x)$$,这个问题的求解比HMM的学习算法简单的多,普通的梯度下降法,拟牛顿法都可以解决。
1414

1515
     linear-CRF第三个问题是解码,即给定 linear-CRF的条件概率分布P\(y\|x\),和输入序列x, 计算使条件概率最大的输出序列y。类似于HMM,使用维特比算法可以很方便的解决这个问题。 
1616

1717
# 2.linear-CRF的前向后向概率概述
1818

19-
    要计算条件概率$$P(y_i|x)$$$$P(y_{i-1}y_i|x)$$,我们也可以使用和HMM类似的方法,使用前向后向算法来完成。首先我们来看前向概率的计算。
19+
    要计算条件概率$$P(y_i|x)$$$$P(y_{i-1}, y_i|x)$$,我们也可以使用和HMM类似的方法,使用前向后向算法来完成。首先我们来看前向概率的计算。
2020

2121
    我们定义$$\alpha_i(y_i|x)$$表示序列位置i的标记是$$y_i$$时,在位置i之前的部分标记序列的非规范化概率。之所以是非规范化概率是因为我们不想加入一个不影响结果计算的规范化因子Z\(x\)在分母里面。
2222

@@ -28,7 +28,7 @@
2828

2929
    在起点处,我们定义:$$\alpha_0(y_0|x)= \begin{cases} 1 & {y_0 =start}\\ 0 & {else} \end{cases}$$
3030

31-
    假设我们可能的标记总数是m, 则$$y_i$$的取值就有m个,我们用$$\alpha_i(x)$$表示这m个值组成的前向向量如下:$$\alpha_i(x) = (\alpha_i(y_i=1|x), \alpha_i(y_i=2|x), ... \alpha_i(y_i=m|x))^T$$
31+
    假设我们可能的标记总数是m, 则$$y_i$$的取值就有m个,我们用$$\alpha_i(x)$$表示这m个值组成的前向向量如下:$$\alpha_i(x) = (\alpha_i(y_i=1|x), \alpha_i(y_i=2|x), ...\alpha_i(y_i=m|x))^T$$
3232

3333
    同时用矩阵$$M_i(x)$$表示由$$M_i(y_{i-1},y_i |x)$$形成的$$m \times m$$阶矩阵:$$M_i(x) = \Big[ M_i(y_{i-1},y_i |x)\Big]$$
3434

@@ -44,23 +44,23 @@
4444

4545
    由于规范化因子Z\(x\)的表达式是:$$Z(x) = \sum\limits_{c=1}^m\alpha_{n}(y_c|x) = \sum\limits_{c=1}^m\beta_{1}(y_c|x)$$
4646

47-
    也可以用向量来表示$$Z(x):Z(x) = \alpha_{n}^T(x) \bullet \mathbf{1} = \mathbf{1}^T \bullet \beta_{1}(x)$$
47+
    也可以用向量来表示$$Z(x):Z(x) = \alpha_{n}^T(x) \bullet \mathbf{1} = \mathbf{1}^T\bullet\beta_{1}(x)$$
4848

4949
    其中,$$\mathbf{1}$$是m维全1向量。
5050

5151
# 3. linear-CRF的前向后向概率计算
5252

53-
    有了前向后向概率的定义和计算方法,我们就很容易计算序列位置i的标记是$$y_i$$时的条件概率$$P(y_i|x)$$:$$P(y_i|x) = \frac{\alpha_i^T(y_i|x)\beta_i(y_i|x)}{Z(x)} = \frac{\alpha_i^T(y_i|x)\beta_i(y_i|x)}{ \alpha_{n}^T(x) \bullet \mathbf{1}}$$
53+
    有了前向后向概率的定义和计算方法,我们就很容易计算序列位置i的标记是$$y_i$$时的条件概率$$P(y_i|x)$$:$$P(y_i|x) = \frac{\alpha_i^T(y_i|x)\beta_i(y_i|x)}{Z(x)} = \frac{\alpha_i^T(y_i|x)\beta_i(y_i|x)}{\alpha_{n}^T(x) \bullet \mathbf{1}}$$
5454

55-
    也容易计算序列位置i的标记是$$y_i$$,位置i-1的标记是$$y_{i-1}$$时的条件概率$$P(y_{i-1},y_i|x)$$:$$P(y_{i-1},y_i|x) = \frac{\alpha_{i-1}^T(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{Z(x)} = \frac{\alpha_{i-1}^T(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{ \alpha_{n}^T(x) \bullet \mathbf{1}}$$
55+
    也容易计算序列位置i的标记是$$y_i$$,位置i-1的标记是$$y_{i-1}$$时的条件概率$$P(y_{i-1},y_i|x)$$:$$P(y_{i-1},y_i|x) = \frac{\alpha_{i-1}^T(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{Z(x)} = \frac{\alpha_{i-1}^T(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{\alpha_{n}^T(x) \bullet \mathbf{1}}$$
5656

5757
# 4. linear-CRF的期望计算
5858

5959
    有了上一节计算的条件概率,我们也可以很方便的计算联合分布P\(x,y\)与条件分布P\(y\|x\)的期望。
6060

61-
    特征函数$$f_k(x,y)$$关于条件分布P\(y\|x\)的期望表达式是:$$\begin{align} E_{P(y|x)}[f_k]  & = E_{P(y|x)}[f_k(y,x)] \\ & = \sum\limits_{i=1}^{n+1} \sum\limits_{y_{i-1}\;\;y_i}P(y_{i-1},y_i|x)f_k(y_{i-1},y_i,x, i) \\ & =  \sum\limits_{i=1}^{n+1} \sum\limits_{y_{i-1}\;\;y_i}f_k(y_{i-1},y_i,x, i)  \frac{\alpha_{i-1}^T(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{ \alpha_{n}^T(x) \bullet \mathbf{1}} \end{align}$$
61+
    特征函数$$f_k(x,y)$$关于条件分布P\(y\|x\)的期望表达式是:$$\begin{aligned} E_{P(y|x)}[f_k] & = E_{P(y|x)}[f_k(y,x)] \\ & = \sum\limits_{i=1}^{n+1}\sum\limits_{y_{i-1}\;\;y_i}P(y_{i-1},y_i|x)f_k(y_{i-1},y_i,x, i) \\ & = \sum\limits_{i=1}^{n+1}\sum\limits_{y_{i-1}\;\;y_i}f_k(y_{i-1},y_i,x, i) \frac{\alpha_{i-1}^T(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{\alpha_{n}^T(x) \bullet \mathbf{1}}\end{aligned}$$
6262

63-
    同样可以计算联合分布P\(x,y\)的期望:$$\begin{align} E_{P(x,y)}[f_k]  & = \sum\limits_{x,y}P(x,y) \sum\limits_{i=1}^{n+1}f_k(y_{i-1},y_i,x, i) \\& =  \sum\limits_{x}\overline{P}(x) \sum\limits_{y}P(y|x) \sum\limits_{i=1}^{n+1}f_k(y_{i-1},y_i,x, i) \\& =  \sum\limits_{x}\overline{P}(x)\sum\limits_{i=1}^{n+1} \sum\limits_{y_{i-1}\;\;y_i}f_k(y_{i-1},y_i,x, i)  \frac{\alpha_{i-1}^T(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{ \alpha_{n}^T(x) \bullet \mathbf{1}}    \end{align}$$
63+
    同样可以计算联合分布P\(x,y\)的期望:$$\begin{aligned}E_{P(x,y)}[f_k] & =\sum\limits_{x,y}P(x,y)\sum\limits_{i=1}^{n+1}f_k(y_{i-1},y_i,x, i) \\& = \sum\limits_{x}\overline{P}(x)\sum\limits_{y}P(y|x)\sum\limits_{i=1}^{n+1}f_k(y_{i-1},y_i,x, i) \\& =\sum\limits_{x}\overline{P}(x)\sum\limits_{i=1}^{n+1}\sum\limits_{y_{i-1}\;\;y_i}f_k(y_{i-1},y_i,x, i) \frac{\alpha_{i-1}^T(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{\alpha_{n}^T(x) \bullet \mathbf{1}}\end{aligned}$$
6464

6565
    假设一共有K个特征函数,则k=1,2,...K
6666

ml/crf/crf-viterbi.md

+2-2
Original file line numberDiff line numberDiff line change
@@ -18,7 +18,7 @@
1818

1919
其中$$\overline{P}(x,y)$$为经验分布,可以从先验知识和训练集样本中得到,这点和最大熵模型类似。为了使用梯度下降法,我们现在极小化$$f(w) = -L(P_w)$$如下:
2020

21-
$$\begin{align}f(w) & = -\sum\limits_{x,y}\overline{P}(x,y)logP_w(y|x) \\ &= \sum\limits_{x,y}\overline{P}(x,y)logZ_w(x) - \sum\limits_{x,y}\overline{P}(x,y)\sum\limits_{k=1}^Kw_kf_k(x,y) \\& = \sum\limits_{x}\overline{P}(x)logZ_w(x) - \sum\limits_{x,y}\overline{P}(x,y)\sum\limits_{k=1}^Kw_kf_k(x,y) \\& = \sum\limits_{x}\overline{P}(x)log\sum\limits_{y}exp\sum\limits_{k=1}^Kw_kf_k(x,y) - \sum\limits_{x,y}\overline{P}(x,y)\sum\limits_{k=1}^Kw_kf_k(x,y) \end{align}$$
21+
$$\begin{aligned}f(w) & = -\sum\limits_{x,y}\overline{P}(x,y)logP_w(y|x) \\ &= \sum\limits_{x,y}\overline{P}(x,y)logZ_w(x) - \sum\limits_{x,y}\overline{P}(x,y)\sum\limits_{k=1}^Kw_kf_k(x,y) \\& = \sum\limits_{x}\overline{P}(x)logZ_w(x) - \sum\limits_{x,y}\overline{P}(x,y)\sum\limits_{k=1}^Kw_kf_k(x,y) \\& = \sum\limits_{x}\overline{P}(x)log\sum\limits_{y}exp\sum\limits_{k=1}^Kw_kf_k(x,y) - \sum\limits_{x,y}\overline{P}(x,y)\sum\limits_{k=1}^Kw_kf_k(x,y) \end{aligned}$$
2222

2323
对w求导可以得到:$$\frac{\partial f(w)}{\partial w} = \sum\limits_{x,y}\overline{P}(x)P_w(y|x)f(x,y) - \sum\limits_{x,y}\overline{P}(x,y)f(x,y)$$
2424

@@ -68,7 +68,7 @@ $$y_i^* = \Psi_{i+1}(y_{i+1}^*)\;, i=n-1,n-2,...1$$
6868

6969
下面用一个具体的例子来描述 linear-CRF模型维特比算法,例子的模型和CRF系列第一篇中一样,都来源于《统计学习方法》。
7070

71-
假设输入的都是三个词的句子,即$$X=(X_1,X_2,X_3)$$,输出的词性标记为$$Y=(Y_1,Y_2,Y_3)$$,其中$$Y \in {1(名词),2(动词)}$$
71+
假设输入的都是三个词的句子,即$$X=(X_1,X_2,X_3)$$,输出的词性标记为$$Y=(Y_1,Y_2,Y_3)$$,其中$$Y \in $${1(名词),2(动词)}
7272

7373
这里只标记出取值为1的特征函数如下:
7474

ml/crf/linear-crf.md

+1-1
Original file line numberDiff line numberDiff line change
@@ -64,7 +64,7 @@
6464

6565
# 6. 线性链条件随机场实例
6666

67-
这里我们给出一个linear-CRF用于词性标注的实例,为了方便,我们简化了词性的种类。假设输入的都是三个词的句子,即$$X=(X_1,X_2,X_3)$$,输出的词性标记为$$Y=(Y_1,Y_2,Y_3)$$,其中$$Y \in {1(名词),2(动词)}$$
67+
这里我们给出一个linear-CRF用于词性标注的实例,为了方便,我们简化了词性的种类。假设输入的都是三个词的句子,即$$X=(X_1,X_2,X_3)$$,输出的词性标记为$$Y=(Y_1,Y_2,Y_3)$$,其中$$Y \in $${1(名词),2(动词)}
6868

6969
这里只标记出取值为1的特征函数如下:$$t_1 =t_1(y_{i-1} = 1, y_i =2,x,i), i =2,3,\;\;\lambda_1=1$$
7070

0 commit comments

Comments
 (0)