Note of The Element of Statistical Learning

This blog is always a work in progress

公式解析

注意:遵从书里的规则,下面非粗体的变量既用于表示 scalar,也用于表示 vector

(2.12) -> (2.13)

(2.26)

下面我用 $\varepsilon$ 表示针对一个样本,粗体的 $\boldsymbol{\varepsilon}$ 表示针对所有样本,所以是个 nx1 的向量。

(2.26) 下面的 $\hat{y}_0 = x_0^T \hat{\beta}$ 等价于 $\hat{y}_0 = x_0^T \beta + \sum_{i=1}^{N} l_i(x_0) \boldsymbol{\varepsilon}_i$ where $l_i(x_0)$ is the ith element of $\b{X}(\b{X}^T\b{X})^{-1}x_0$

后面那个 $\hat{y}_0$ 用 matrix 表示就是 $\hat{y}_0 = x_0^T \beta + (\b{X}(\b{X}^T\b{X})^{-1}x_0)^T \boldsymbol{\varepsilon}$

对 $Y = X^T \beta + \varepsilon$ 应用 least square 即 $(\b{X}\hat{\beta} - \b{X}\beta - \boldsymbol{\varepsilon})^T(\b{X}\hat{\beta} - \b{X}\beta - \boldsymbol{\varepsilon})$,展开求偏导,可得 $(\hat{\beta} - \beta) = (\b{X}^T \b{X})^{-1} \b{X}^T \boldsymbol{\varepsilon}$,注意到 $\b{X}^T\b{X}$ 是 symmetric matrix,所以 $(\b{X}^T\b{X})^{-1} = ((\b{X}^T\b{X})^{-1})^T$,则有 $(\hat{\beta} - \beta) = (\b{X}(\b{X}^T\b{X})^{-1})^T \boldsymbol{\varepsilon}$,等式两边同时于 $x_0$ 做内积,很容易就推出上面的式子。

(2.25) and (2.27)

公式 (2.25) 和 (2.27) 都是计算 MSE 的,不同的是,(2.25) 对应的模型是个 determinstic function $Y = f(X)$,而 (2.27) 对应的是 $Y = f(X) + \varepsilon, \; \varepsilon \sim N(0, \delta^2)$,所以是个 non-determinstic function。这也造成了 (2.25) 和 (2.27) 不同,对于 determinstic function,$MSE(x_0) = E_{\mathcal{T}}(y_0 - \hat{y}_0)^2$,而对于 non-determinstic function 就要外面再套一个 $E_{y_0 x_0}$ 变成 $E_{y_0 x_0}E_{\mathcal{T}}(y_0 - \hat{y}_0)^2$。

上面公式中 $E_{\mathcal{T}}(y_0 - \hat{y}_0)^2$ 变化的是 $\hat{y}_0$,对于不同的 $\mathcal{T}$,$\hat{y}_0$ 是不同的,对于给定的一个 $\mathcal{T}$,$\hat{y}_0$ 是确定的。

(2.28)

在推导 (2.28) 前先明确下面的公式 (只要展开即可证明)

根据上面两个公式也可得到 $x^T A x = tr(A (xx^T))$

为了方便,下面的公式里就不用 $x_0$ 了,直接用 $x$

(3.4)

(3.4) 中给出了 Hessian matrix,目的是为了说明 RSS 是个 strictly convex function,因为对于 strictly convex function 其对应的 hessian matrix 是 pd 的。这样通过一阶导求出的结果就是 global mininum。

关于 $\b{X}^T\b{X}$ 的正定性很容易证明,$x^T\b{X}^T\b{X}x = (\b{X}x)^T (\b{X}x) \geq 0$,所以 $\b{X}^T\b{X}$ 一定是 psd 的,如果 $\b{X}$ 是 full column rank 的,那对于所有非 0 的 $x$,$\b{X}x$ 就不可能是 0 (因为 $\b{X}x = \sum_{i} \b{X}_i x_i$,其中 $\b{X}_i$ 表示第 $i$ 列),则 $\b{X}^T\b{X}$ 就是 pd 的。

(3.8)

首先先对 (3.6) 做个变形

基于这个的 $\hat{\beta}$ 表示,covariance matrix 可以表示为

注意 $Var(\hat{\beta})$ 是一个 matrix,而不是一个 scalar,所以是等于 $E((\hat{\beta} - \beta)(\hat{\beta} - \beta)^T)$,而不是 $E((\hat{\beta} - \beta)^T(\hat{\beta} - \beta))$

(3.8) 下面的 $\hat{\delta}^2$

这个公式中 $N - p - 1$ 是 degree of freedom,根据这篇文章的介绍,the degrees of freedom for an estimate is equal to the number of values minus the number of parameters estimated en route to the estimate in question,这里估计 $\hat{\delta}^2$ 时用到了 $\hat{y}_i$,而在估计 $\hat{y}_i$ 时用到了$\beta$,这是个大小为 $p + 1$ 的向量,所以 $\hat{\delta}^2$ 的 DOF 是 $N - p - 1$

(3.10)

为什么 $\hat{\beta}$ 是正态分布呢?原因是这样

(3.11)

关于为什么 $\frac{(N-p-1)\hat{\delta}^2}{\delta^2}$ 符合 $\mathcal{X}_{N-p-1}^2$ 分布可以参考 goodness of fit,regression analysis 的情况和 categorical data 的公式是不一样的。

(3.12)

下面论述的正确性有待验证,貌似是错的,参考 wiki

关于 t-distribution 和 normal distribution,这里简单说一下,如果给定 $X \sim N(\mu, \delta^2)$,我 sample N 次,得到 $X_1, …, X_n$,令 $\bar{X} = \frac{1}{n}\sum_i X_i$,如果 $\delta$ 已知,则 $\frac{X - \bar{X}}{\delta} \sim N(0, 1)$,因为 $E(X - \bar{X}) = E(X) - E(\bar{X}) = 0$,如果用 standard error 来作为 standard deviation 的 estimate 则 $\frac{X - \bar{X}}{s} \sim t_{N - 1}$,这里的 $N-1$ 为 $s$ 的 degree of freedom。

假设检验就是假设某个事实成立,然后根据我实际得到的一些实验值以及这些实验值 (或者做某种变换后的得到的值) 的分布,看取到这些值可能性大不大,如果大就假设就成立,否则假设不成立。比如这里我假设 $\beta_i$ 应该是 0,而我实际得到的值是 $\hat{\beta}_i$,那我就根据这个实际得到的值去验证 $\beta_i = 0$ 是否合理,为此我们基于这两个值构造了一个 z-score ($\frac{\hat{\beta}_i - \beta_i}{\hat{\delta}\sqrt{v_j}} = \frac{\hat{\beta}_i}{\hat{\delta}\sqrt{v_j}}$),并且知道这个 z-score 服从 t distribution,然后就看在这个 t distribution 下取这个 z-score 的可能性有多大来决定假设是否成立。同理,比如你假设一个 dice 是 fair 的,然后你扔了 N 次,统计一下每一面出现的频次,然后根据这些你实际得到的值和你期望的值构建一个 chi-square 值,然后根据 chi-square distribution,看取这个 chi-square 值的概率大不大决定你是否接受 dice 是 fair 的假设。

(3.13)

参考 http://en.wikipedia.org/wiki/F-test 和 http://en.wikipedia.org/wiki/F-distribution

(3.44)

(3.44) 下面的一段话中说加了 $\lambda \b{I}$ 使得这个问题变得 nonsingular,原因是这样的,对于任意矩阵 $M$ (假设它的所有 eigenvalue 都是实数,复数的我也不懂,正好在我们这里 $\b{A}^T\b{A}$ 是 symmetric matrix,因此它的 eigenvalue 必然是实数),假设 $\alpha$ 是它的 eigenvalue,则有 $\b{M}x = \alpha x$,则对于 $\b{M} + \lambda \b{I}$ 有

也就是说如果 $\alpha$ 是 $\b{M}$ 的 eigenvalue,则 $\alpha + \lambda$ 就是 $\b{M} + \lambda \b{I}$ 的 eigenvalue,这样就好办了,我总可以选出 $\lambda$ 使得我对于所有的 $\alpha_i$ 满足 $\alpha_i + \lambda \neq 0$,比如令 $\lambda > \max_i \alpha_i $,这样也就使得问题变得 nonsingular。

Gauss-Markov Therom

Gauss-Markov Therom 总体的意思是就是 least square estimator (LSE) of $\beta$ 是 best linear unbiased estimator (BLUE),这里需要明确一下怎么算 best estimator,什么是 linear estimator,什么是 unbiased estimator。假设 $\hat{\beta}$ 是 $\beta$ 的 estimator

根据 Gauss-Markov therom,LSE 得到的 $\beta$ 是最好的 linear unbiased estimator,这并等于是 best linear estimator,我们可以通过提升一点 bias 显著降低 variance,这样就可以降低 MSE,得到更好的 linear estimator。

(3.46)

$\b{U}^T y$ 表示 $\hat{y}$ 在以 $\b{U}$ 的列向量为 basis 的空间内的坐标,所以 $\hat{y} = \b{U}\b{U}^T y$。

这个可以这么理解的,考虑正常的 3d space 中的坐标,比如 $v = (3, 4, 5)^T$,它实际上是等于

其中 $I$ 为 basis,同理 $y$ 在 $\b{U}$ 中的坐标 $\b{U}^T y$,其 basis 为 $\b{U}$,所以 $\hat{y} = \b{U}\b{U}^T y$。

(3.49)

首先注意这个公式里的 $Var(\b{z}_1)$ 不是个 covariance matrix,这里的向量 $\b{z}_1$ 表示的是一个 random variable 的 n 个取值,而不是 n 个 random variable 分别的取值,搞清楚这个非常重要。情况是这样,$\b{X}$ 是原始空间中的样本,原始空间中每个样本有 p 个 feature,也就是 p 个 random variable,而 $\b{X}$ 的每一列分别表示这 p 个 feature 的 n 个取值,而 $\b{X}v_1$ 将 p 个 feature project 到一个新的空间中,变成一个 feature,$\b{z}_1$ 就是 n 个样本对这个 feature 的取值,所以说它是一个 random variable 的 n 个取值。

令 $\b{X}_i$ 表示 $\b{X}$ 的第 i 列,由于 $\b{X}$ 是 centered,所以 $\sum_{j=1}^{n} \b{X}_{ij} = 0$,由此

所以 $\b{X}v_1$ 的 sample variance 就是

(3.49) 下面的公式

$\b{z}_1 = \b{X} v_1 = \b{u}_1 d_1$ 的推导很简单,只要把 $\b{X}$ 对应的 SVD 分解代入即可。

注意点

知识点

Ridge Regression

Ridge regression 是 Tikhonov regularization 的一个特例,参考

Making a singular matrix non-singular 这篇文章的最后有这么几句话 “So here’s a more refined question: can you change a singular matrix into a useful non-singular matrix? Yes you can, sometimes, but the answer depends very much on the problem you’re trying to solve. This is generally known as regularization”,这个也许是 regularization 这个 term 的由来。

Questions

Statistics Basis

Good Sites

  1. Understanding the Bias-Variance Tradeoff
  2. Gauss–Markov theorem wiki
  3. Mean squared error wiki, mean square error for predictor and parameter