another-noob-coder
diff --git a/‎ml/associative/cca.md
+5-5 b/‎ml/associative/cca.md
+5-5
diff --git a/‎ml/crf/back-forth.md
+8-8 b/‎ml/crf/back-forth.md
+8-8
diff --git a/‎ml/crf/crf-viterbi.md
+2-2 b/‎ml/crf/crf-viterbi.md
+2-2
diff --git a/‎ml/crf/linear-crf.md
+1-1 b/‎ml/crf/linear-crf.md
+1-1
@@ -26,7 +26,7 @@ CCA使用的方法是将多维的X和Y都用线性变换为1维的X'和Y'，然
 $$
 X' = a^TX, Y'=b^TY
 $$
-我们CCA的优化目标是最大化$$\rho(X',Y')$$得到对应的投影向量a,b，即$$\underbrace{arg\;max}_{a,b}\frac{cov(X',Y')}{\sqrt{D(X')}\sqrt{D(Y')}}$$
+我们CCA的优化目标是最大化$$\rho(X',Y')$$得到对应的投影向量a,b，即$$arg\;max(a,b)\;\;\frac{cov(X',Y')}{\sqrt{D(X')}\sqrt{D(Y')}}$$
 
 在投影前，我们一般会把原始数据进行标准化，得到均值为0而方差为1的数据X和Y。这样我们有：$$cov(X',Y') = cov(X',Y') = cov(a^TX, b^TY) = E(<a^TX, b^TY>) = E((a^TX)(b^TY)^T) = a^TE(XY^T)b$$
 
@@ -44,9 +44,9 @@ $$
 $$
 cov(X,Y) = E(XY^T),  cov(Y,X) = E(YX^T)
 $$
-令$$S_{XY} =cov(X,Y)$$，则优化目标可以转化为：$$\underbrace{arg\;max}_{a,b}\frac{a^TS_{XY}b}{\sqrt{ a^TS_{XX}a}\sqrt{b^TS_{YY}b}}$$
+令$$S_{XY} =cov(X,Y)$$，则优化目标可以转化为：$$arg\;max(a,b)\;\;\frac{a^TS_{XY}b}{\sqrt{ a^TS_{XX}a}\sqrt{b^TS_{YY}b}}$$
 
-由于分子分母增大相同的倍数，优化目标结果不变，我们可以采用和SVM类似的优化方法，固定分母，优化分子，具体的转化为：$$\underbrace{arg\;max}_{a,b}\;\;{a^TS_{XY}b}$$                                 $$s.t. a^TS_{XX}a =1,\; b^TS_{YY}b =1$$
+由于分子分母增大相同的倍数，优化目标结果不变，我们可以采用和SVM类似的优化方法，固定分母，优化分子，具体的转化为：$$arg\;max(a,b)\;\;{a^TS_{XY}b}$$                                 $$s.t. a^TS_{XX}a =1,\; b^TS_{YY}b =1$$
 
 也就是说，我们的CCA算法的目标最终转化为一个凸优化过程，只要我们求出了这个优化目标的最大值，就是我们前面提到的多维X和Y的相关性度量，而对应的a,b则为降维时的投影向量，或者说线性系数。
 
@@ -66,7 +66,7 @@ $$a^TS_{XY}b = u^TS_{XX}^{-1/2}S_{XY}S_{YY}^{-1/2}v$$
 
 也就是说，我们的优化目标变成下式：
 
-$$\underbrace{arg\;max}_{u,v}u^TS_{XX}^{-1/2}S_{XY}S_{YY}^{-1/2}v$$
+$$arg\;max(u,v)\;\;u^TS_{XX}^{-1/2}S_{XY}S_{YY}^{-1/2}v$$
 
 $$s.t. u^Tu =1,\; v^Tv =1$$
 
@@ -90,7 +90,7 @@ $$s.t. u^Tu =1,\; v^Tv =1$$
 
 这个式子我们就熟悉了，这不就是特征分解吗！要求最大的相关系数$$\lambda$$,我们只需要对矩阵$$N=S_{XX}^{-1}S_{XY}S_{YY}^{-1}S_{YX}$$做特征分解，找出最大的特征值取平方根即可，此时最大特征值对应的特征向量即为X的线性系数a。
 
-同样的办法，我们将上面第一个式子带入第二个式子，我们得到$$S_{YY}^{-1}S_{YX}S_{XX}^{-1}S_{XY}b=\lambda^2b$$, 我们只需要对矩阵$$N’=S_{YY}^{-1}S_{YX}S_{XX}^{-1}S_{XY}$$做特征分解，找出最大的特征值取平方根即可，此时最大特征值对应的特征向量即为Y的线性系数b。
+同样的办法，我们将上面第一个式子带入第二个式子，我们得到$$S_{YY}^{-1}S_{YX}S_{XX}^{-1}S_{XY}b=\lambda^2b$$, 我们只需要对矩阵$$N^{'}=S_{YY}^{-1}S_{YX}S_{XX}^{-1}S_{XY}$$做特征分解，找出最大的特征值取平方根即可，此时最大特征值对应的特征向量即为Y的线性系数b。
 
 可以看出特征分解的方法要比SVD复杂，但是两者求得的结果其实是等价的，只要利用SVD和特征分解之间的关系就很容易发现两者最后的结果相同。
 
 
@@ -8,15 +8,15 @@
 
 　　　　在[隐马尔科夫模型HMM](/ml/hmm/hmm.md)中，我们讲到了HMM的三个基本问题，而linear-CRF也有三个类似的的基本问题。不过和HMM不同，在linear-CRF中，我们对于给出的观测序列x是一直作为一个整体看待的，也就是不会拆开看$$(x_1,x_2,...)$$，因此linear-CRF的问题模型要比HMM简单一些，如果你很熟悉HMM，那么CRF的这三个问题的求解就不难了。
 
-　　　　 linear-CRF第一个问题是评估，即给定 linear-CRF的条件概率分布P\(y\|x\), 在给定输入序列x和输出序列y时，计算条件概率$$P(y_i|x)$$和$$P(y_{i-1}，y_i|x)$$以及对应的期望. 本文接下来会详细讨论问题一。
+　　　　 linear-CRF第一个问题是评估，即给定 linear-CRF的条件概率分布P\(y\|x\), 在给定输入序列x和输出序列y时，计算条件概率$$P(y_i|x)$$和$$P(y_{i-1}, y_i|x)$$以及对应的期望. 本文接下来会详细讨论问题一。
 
 　　　　 linear-CRF第二个问题是学习，即给定训练数据集X和Y，学习linear-CRF的模型参数$$w_k$$和条件概率$$P_w(y|x)$$，这个问题的求解比HMM的学习算法简单的多，普通的梯度下降法，拟牛顿法都可以解决。
 
 　　　　 linear-CRF第三个问题是解码，即给定 linear-CRF的条件概率分布P\(y\|x\),和输入序列x, 计算使条件概率最大的输出序列y。类似于HMM，使用维特比算法可以很方便的解决这个问题。　
 
 # 2.linear-CRF的前向后向概率概述
 
-　　　　要计算条件概率$$P(y_i|x)$$和$$P(y_{i-1}，y_i|x)$$，我们也可以使用和HMM类似的方法，使用前向后向算法来完成。首先我们来看前向概率的计算。
+　　　　要计算条件概率$$P(y_i|x)$$和$$P(y_{i-1}, y_i|x)$$，我们也可以使用和HMM类似的方法，使用前向后向算法来完成。首先我们来看前向概率的计算。
 
 　　　　我们定义$$\alpha_i(y_i|x)$$表示序列位置i的标记是$$y_i$$时，在位置i之前的部分标记序列的非规范化概率。之所以是非规范化概率是因为我们不想加入一个不影响结果计算的规范化因子Z\(x\)在分母里面。
 
@@ -28,7 +28,7 @@
 
 　　　　在起点处，我们定义：$$\alpha_0(y_0|x)= \begin{cases} 1 & {y_0 =start}\\ 0 & {else} \end{cases}$$
 
-　　　　假设我们可能的标记总数是m, 则$$y_i$$的取值就有m个，我们用$$\alpha_i(x)$$表示这m个值组成的前向向量如下：$$\alpha_i(x) = (\alpha_i(y_i=1|x), \alpha_i(y_i=2|x), ... \alpha_i(y_i=m|x))^T$$
+　　　　假设我们可能的标记总数是m, 则$$y_i$$的取值就有m个，我们用$$\alpha_i(x)$$表示这m个值组成的前向向量如下：$$\alpha_i(x) = (\alpha_i(y_i=1|x), \alpha_i(y_i=2|x), ...\alpha_i(y_i=m|x))^T$$
 
 　　　　同时用矩阵$$M_i(x)$$表示由$$M_i(y_{i-1},y_i |x)$$形成的$$m \times m$$阶矩阵：$$M_i(x) = \Big[ M_i(y_{i-1},y_i |x)\Big]$$
 
@@ -44,23 +44,23 @@
 
 　　　　由于规范化因子Z\(x\)的表达式是：$$Z(x) = \sum\limits_{c=1}^m\alpha_{n}(y_c|x) = \sum\limits_{c=1}^m\beta_{1}(y_c|x)$$
 
-　　　　也可以用向量来表示$$Z(x):Z(x) = \alpha_{n}^T(x) \bullet \mathbf{1} = \mathbf{1}^T \bullet \beta_{1}(x)$$
+　　　　也可以用向量来表示$$Z(x):Z(x) = \alpha_{n}^T(x) \bullet \mathbf{1} = \mathbf{1}^T\bullet\beta_{1}(x)$$
 
 　　　　其中，$$\mathbf{1}$$是m维全1向量。
 
 # 3. linear-CRF的前向后向概率计算
 
-　　　　有了前向后向概率的定义和计算方法，我们就很容易计算序列位置i的标记是$$y_i$$时的条件概率$$P(y_i|x)$$:$$P(y_i|x) = \frac{\alpha_i^T(y_i|x)\beta_i(y_i|x)}{Z(x)} = \frac{\alpha_i^T(y_i|x)\beta_i(y_i|x)}{ \alpha_{n}^T(x) \bullet \mathbf{1}}$$
+　　　　有了前向后向概率的定义和计算方法，我们就很容易计算序列位置i的标记是$$y_i$$时的条件概率$$P(y_i|x)$$:$$P(y_i|x) = \frac{\alpha_i^T(y_i|x)\beta_i(y_i|x)}{Z(x)} = \frac{\alpha_i^T(y_i|x)\beta_i(y_i|x)}{\alpha_{n}^T(x) \bullet \mathbf{1}}$$
 
-　　　　也容易计算序列位置i的标记是$$y_i$$，位置i-1的标记是$$y_{i-1}$$时的条件概率$$P(y_{i-1},y_i|x)$$:$$P(y_{i-1},y_i|x) = \frac{\alpha_{i-1}^T(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{Z(x)} = \frac{\alpha_{i-1}^T(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{ \alpha_{n}^T(x) \bullet \mathbf{1}}$$
+　　　　也容易计算序列位置i的标记是$$y_i$$，位置i-1的标记是$$y_{i-1}$$时的条件概率$$P(y_{i-1},y_i|x)$$:$$P(y_{i-1},y_i|x) = \frac{\alpha_{i-1}^T(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{Z(x)} = \frac{\alpha_{i-1}^T(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{\alpha_{n}^T(x) \bullet \mathbf{1}}$$
 
 # 4. linear-CRF的期望计算
 
 　　　　有了上一节计算的条件概率，我们也可以很方便的计算联合分布P\(x,y\)与条件分布P\(y\|x\)的期望。
 
-　　　　特征函数$$f_k(x,y)$$关于条件分布P\(y\|x\)的期望表达式是：$$\begin{align} E_{P(y|x)}[f_k]  & = E_{P(y|x)}[f_k(y,x)] \\ & = \sum\limits_{i=1}^{n+1} \sum\limits_{y_{i-1}\;\;y_i}P(y_{i-1},y_i|x)f_k(y_{i-1},y_i,x, i) \\ & =  \sum\limits_{i=1}^{n+1} \sum\limits_{y_{i-1}\;\;y_i}f_k(y_{i-1},y_i,x, i)  \frac{\alpha_{i-1}^T(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{ \alpha_{n}^T(x) \bullet \mathbf{1}} \end{align}$$
+　　　　特征函数$$f_k(x,y)$$关于条件分布P\(y\|x\)的期望表达式是：$$\begin{aligned} E_{P(y|x)}[f_k] & = E_{P(y|x)}[f_k(y,x)] \\ & = \sum\limits_{i=1}^{n+1}\sum\limits_{y_{i-1}\;\;y_i}P(y_{i-1},y_i|x)f_k(y_{i-1},y_i,x, i) \\ & = \sum\limits_{i=1}^{n+1}\sum\limits_{y_{i-1}\;\;y_i}f_k(y_{i-1},y_i,x, i) \frac{\alpha_{i-1}^T(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{\alpha_{n}^T(x) \bullet \mathbf{1}}\end{aligned}$$
 
-　　　　同样可以计算联合分布P\(x,y\)的期望：$$\begin{align} E_{P(x,y)}[f_k]  & = \sum\limits_{x,y}P(x,y) \sum\limits_{i=1}^{n+1}f_k(y_{i-1},y_i,x, i) \\& =  \sum\limits_{x}\overline{P}(x) \sum\limits_{y}P(y|x) \sum\limits_{i=1}^{n+1}f_k(y_{i-1},y_i,x, i) \\& =  \sum\limits_{x}\overline{P}(x)\sum\limits_{i=1}^{n+1} \sum\limits_{y_{i-1}\;\;y_i}f_k(y_{i-1},y_i,x, i)  \frac{\alpha_{i-1}^T(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{ \alpha_{n}^T(x) \bullet \mathbf{1}}    \end{align}$$
+　　　　同样可以计算联合分布P\(x,y\)的期望：$$\begin{aligned}E_{P(x,y)}[f_k] & =\sum\limits_{x,y}P(x,y)\sum\limits_{i=1}^{n+1}f_k(y_{i-1},y_i,x, i) \\& = \sum\limits_{x}\overline{P}(x)\sum\limits_{y}P(y|x)\sum\limits_{i=1}^{n+1}f_k(y_{i-1},y_i,x, i) \\& =\sum\limits_{x}\overline{P}(x)\sum\limits_{i=1}^{n+1}\sum\limits_{y_{i-1}\;\;y_i}f_k(y_{i-1},y_i,x, i) \frac{\alpha_{i-1}^T(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{\alpha_{n}^T(x) \bullet \mathbf{1}}\end{aligned}$$
 
 　　　　假设一共有K个特征函数，则k=1,2,...K
 
 
@@ -18,7 +18,7 @@
 
 其中$$\overline{P}(x,y)$$为经验分布，可以从先验知识和训练集样本中得到,这点和最大熵模型类似。为了使用梯度下降法，我们现在极小化$$f(w) = -L(P_w)$$如下：
 
-$$\begin{align}f(w) & = -\sum\limits_{x,y}\overline{P}(x,y)logP_w(y|x) \\ &=  \sum\limits_{x,y}\overline{P}(x,y)logZ_w(x) - \sum\limits_{x,y}\overline{P}(x,y)\sum\limits_{k=1}^Kw_kf_k(x,y) \\& =  \sum\limits_{x}\overline{P}(x)logZ_w(x) - \sum\limits_{x,y}\overline{P}(x,y)\sum\limits_{k=1}^Kw_kf_k(x,y) \\& =  \sum\limits_{x}\overline{P}(x)log\sum\limits_{y}exp\sum\limits_{k=1}^Kw_kf_k(x,y) - \sum\limits_{x,y}\overline{P}(x,y)\sum\limits_{k=1}^Kw_kf_k(x,y)  \end{align}$$
+$$\begin{aligned}f(w) & = -\sum\limits_{x,y}\overline{P}(x,y)logP_w(y|x) \\ &=  \sum\limits_{x,y}\overline{P}(x,y)logZ_w(x) - \sum\limits_{x,y}\overline{P}(x,y)\sum\limits_{k=1}^Kw_kf_k(x,y) \\& =  \sum\limits_{x}\overline{P}(x)logZ_w(x) - \sum\limits_{x,y}\overline{P}(x,y)\sum\limits_{k=1}^Kw_kf_k(x,y) \\& =  \sum\limits_{x}\overline{P}(x)log\sum\limits_{y}exp\sum\limits_{k=1}^Kw_kf_k(x,y) - \sum\limits_{x,y}\overline{P}(x,y)\sum\limits_{k=1}^Kw_kf_k(x,y)  \end{aligned}$$
 
 对w求导可以得到：$$\frac{\partial f(w)}{\partial w} = \sum\limits_{x,y}\overline{P}(x)P_w(y|x)f(x,y) -  \sum\limits_{x,y}\overline{P}(x,y)f(x,y)$$
 
@@ -68,7 +68,7 @@ $$y_i^* = \Psi_{i+1}(y_{i+1}^*)\;, i=n-1,n-2,...1$$
 
 下面用一个具体的例子来描述 linear-CRF模型维特比算法，例子的模型和CRF系列第一篇中一样，都来源于《统计学习方法》。
 
-假设输入的都是三个词的句子，即$$X=(X_1,X_2,X_3)$$,输出的词性标记为$$Y=(Y_1,Y_2,Y_3)$$,其中$$Y \in {1(名词)，2(动词)}$$
+假设输入的都是三个词的句子，即$$X=(X_1,X_2,X_3)$$,输出的词性标记为$$Y=(Y_1,Y_2,Y_3)$$,其中$$Y \in $${1(名词)，2(动词)}
 
 这里只标记出取值为1的特征函数如下：
 
 
@@ -64,7 +64,7 @@
 
 # 6. 线性链条件随机场实例
 
-这里我们给出一个linear-CRF用于词性标注的实例，为了方便，我们简化了词性的种类。假设输入的都是三个词的句子，即$$X=(X_1,X_2,X_3)$$,输出的词性标记为$$Y=(Y_1,Y_2,Y_3)$$,其中$$Y \in {1(名词)，2(动词)}$$
+这里我们给出一个linear-CRF用于词性标注的实例，为了方便，我们简化了词性的种类。假设输入的都是三个词的句子，即$$X=(X_1,X_2,X_3)$$,输出的词性标记为$$Y=(Y_1,Y_2,Y_3)$$,其中$$Y \in $${1(名词)，2(动词)}
 
 这里只标记出取值为1的特征函数如下：$$t_1 =t_1(y_{i-1} = 1, y_i =2,x,i), i =2,3,\;\;\lambda_1=1$$