統計学における標準化と変数変換

今月から統計学の勉強を始めたのですが、標準化の部分で早速詰まりました。笑

「標準化 統計学」で調べていると、

 z_{i} = \displaystyle \frac{x_{i} - \mu}{\sigma}

といった式が出てくるのですが、その導出過程について言及しているものは観測範囲内ではあまり多くありませんでした。

そこで本記事では、導出の前提知識として必要な「変数変換による平均・分散の変化」と「標準化の定義」について説明し、冒頭の式を導出する過程を整理したいと思います。


変数変換による平均・分散の変化

以下、変数 x_{1} x_{2}、…、 x_{n}の平均(算術平均)を \mu、分散を \sigma^{2}とします。

このとき、

  • 平均:  \mu = \displaystyle \frac{1}{n} \sum_{i=1}^n x_{i}
  • 分散:  \sigma^{2} = \displaystyle \frac{1}{n} \sum_{i=1}^n (x_{i} - \mu)^{2}

となります。また、分散の正の平方根標準偏差と言います。


変数変換および変換前後の平均・分散の関係

変数 x_{k} (1 \leq k \leq n)に対して、 kと無関係な定数 p qを用いて、

 y_{k} = px_{k} + q

という変換を行うとき、変換後の変数の平均 M・分散 \Sigma^{2}と変換前の平均 \mu・分散 \sigma^{2}の間には、

  • 平均:  M = p\mu + q
  • 分散:  \Sigma^{2} = p^{2}\sigma^{2}

の関係が成り立ちます。

証明はこちら
・平均:
 M = \displaystyle \frac{1}{n} \sum_{i=1}^n y_{i}
   = \displaystyle \frac{1}{n} \sum_{i=1}^n (px_{i} + q)
   = \displaystyle p \cdot \frac{1}{n} \sum_{i=1}^n x_{i} + q \cdot \frac{1}{n} \sum_{i=1}^n 1
   = \displaystyle p \cdot \mu + q \cdot \frac{1}{n} \cdot n
   = p \mu + q

・分散:
 \Sigma^{2} = \displaystyle \frac{1}{n} \sum_{i=1}^n (y_{i} - M)^{2}
   = \displaystyle \frac{1}{n} \sum_{i=1}^n \{(px_{i} + q) - (p\mu + q)\}^{2}
   = \displaystyle \frac{1}{n} \sum_{i=1}^n \{p(x_{i} - \mu)\}^{2}
   = \displaystyle \frac{1}{n} \sum_{i=1}^n \{p^{2}(x_{i} - \mu)^{2}\}
   = \displaystyle p^{2} \cdot \frac{1}{n} \sum_{i=1}^n (x_{i} - \mu)^{2}
   = p^{2} \sigma^{2}


標準化

標準化の定義

統計学における標準化は以下のように定義されています。こちらは定義であることを把握しておくことが重要です。

与えられたデータを平均が0で分散が1のデータに変換する操作のことをいう.正規化とか規格化とも呼ばれる.

data-science.gr.jp


冒頭の式の導出

「変換前後の平均・分散の関係」と「標準化の定義」から定数 p qを求めることによって、冒頭の式が導出できます。

標準化の定義より、変換後の変数の平均 Mが0、分散 \Sigma^{2}が1となることから、

  •  0 = p\mu + q
  •  1 = p^{2}\sigma^{2}


この連立方程式から、

  •  p = \displaystyle \pm\frac{1}{\sigma} q = \displaystyle \mp\frac{\mu}{\sigma} (複号同順)


の2組が得られます。
ここで、標準偏差の定義より \sigma \geq 0となるので、 pの値が正となる組み合わせを採用すると、

 y_{k} = px_{k} + q
   = \displaystyle \frac{1}{\sigma} \cdot x_{k} - \frac{\mu}{\sigma}
 = \displaystyle \frac{x_{k} - \mu}{\sigma}


となり、冒頭の式が導出できました。