正規分布の導出


偶然誤差の性質から確率論や統計学でよく用いられる正規分布(ガウス分布)を導出してみよう。

真の値 \(X\) をもったある量の測定を多数回行うことを考える。この測定には系統誤差は含まれず、偶然誤差のみが発生するものとしよう。偶然誤差については経験にもとづく次のようなガウスの公理がある:

  1. 大きさの等しい正と負の誤差は等しい確率で生じる。
  2. 小さい誤差は大きな誤差より起こりやすい。
  3. ある限界値より大きな誤差は実際上起こらない。

偶然誤差の起こる確率を誤差の大きさ \(\varepsilon\) の関数とし、その確率密度関数を \(f(\varepsilon)\) と置く。このとき誤差の大きさが \(\varepsilon\) と \(\varepsilon+d\varepsilon\) の間にある確率は \[ f(\varepsilon) \, d\varepsilon \] である。具体的な測定によって得られた測定値が \(x\) であったとき、\(\varepsilon=x-X\) であるから \[ f(x-X) \, dx \] と表すこともできる。この確率密度関数 \(f\) の関数形を求めることがこのページの目的である。

同一の条件で \(n\) 回の測定を行うことを考えよう。このとき \(n\) 個の測定値が \(x_{1},x_{2},\dots,x_{n}\) という値から \(dx\) 以内のところに入る確率は \[ f(x_{1}-X) \, dx \ f(x_{2}-X) \, dx \dotsm f(x_{n}-X) \, dx \] で表される。この確率を \(P\,dx^{n}\) と置くことにすると \(P\) は \begin{equation} P = f(x_{1}-X) \, f(x_{2}-X) \dotsm f(x_{n}-X) \label{p} \end{equation} である。\(x_{1},x_{2},\dots,x_{n}\) を確率変数と見たとき、これを同時確率密度関数という。この関数は \(n\) 回の測定の測定結果として \(x_{1},x_{2},\dots,x_{n}\) が得られる確率の確率密度を与えるものであるが、このような見方をした場合、ふつう真の値 \(X\) には何か既知の値が与えられていることを想定する。ところが現実の測定においては話が逆で、我々が知ることのできるのは測定値 \(x_{1},x_{2},\dots,x_{n}\) の方である。真の値 \(X\) はふつう未知でありそれを求めるために測定を行うのである。そして我々はできるだけ偶然誤差の影響を減らそうと1回ではなく複数回の測定を行い、複数の測定値の相加平均 \begin{equation} \bar{x} = \frac{x_{1}+x_{2}+\dots+x_{n}}{n} \label{mean} \end{equation} によって真の値を推定する。

さて、ガウスの公理の最初の2つより \(f(x-X)\) は \(\varepsilon=0\) すなわち \(x=X\) において最大値をとるから、その積である同時確率密度関数 \(f(x_{1}-X)\,f(x_{2}-X)\dotsm f(x_{n}-X)\) も明らかに \(x_{1}=x_{2}=\dots=x_{n}=X\) で最大値をとる。では逆に \(x_{1},x_{2},\dots,x_{n}\) が既知の値として与えられているとき、\(X\) を独立変数と見たときの式\eqref{p}、すなわち \begin{equation} P(X) = f(x_{1}-X) \, f(x_{2}-X) \dotsm f(x_{n}-X) \label{px} \end{equation} はどのような \(X\) において最大値をとるだろう? 実はこの答えは自明ではない。しかし \(P\) は真の値において最大値をとる量であることと、偶然誤差に対しては式\eqref{mean}の \(\bar{x}\) から真の値を推定できるという経験則から次を仮定しよう: \[ P(X) \ \text{は} \ X=\bar{x} \ \text{で最大値をとる。} \] すなわち \(P'(\bar{x})=0\) を仮定する。

  

以上で \(f\) の関数形を求める準備が整った。まず式\eqref{px}の両辺の自然対数をとる: \[ \ln P(X) = \sum_{i=1}^{n} \, \ln f(x_{i}-X) \] そしてこれを \(X\) で微分してみよう: \[ \frac{P'(X)}{P(X)} = -\sum_{i=1}^{n} \frac{f'(x_{i}-X)}{f(x_{i}-X)} \] ここで \(X\) に \(\bar{x}\) を代入すると \(P'(\bar{x})=0\) より \begin{equation} \sum_{i=1}^{n} \frac{f'(x_{i}-\bar{x})}{f(x_{i}-\bar{x})} = 0 \label{eq1} \end{equation} である。また、式\eqref{mean}を少し変形すると \begin{equation} \sum_{i=1}^{n} \, ( x_{i} - \bar{x} ) = 0 \label{eq2} \end{equation} となる。ここで次の補題を証明する。


補題 \(\phi(\cdot)\) をすべての実数で定義された微分可能な関数とする。\(n\) を \(3\) 以上の整数として、\(n\) 個の変数 \(x_{1},x_{2},\dots,x_{n}\) が \begin{equation} \sum_{i=1}^{n} \, x_{i} = 0 \label{x} \end{equation} を満足するように動くとき、常に \begin{equation} \sum_{i=1}^{n} \, \phi(x_{i}) = 0 \label{phi} \end{equation} という関係式が成立しているならば、\(\phi\) の関数形は \(a\) を任意の定数として \(\phi(x)=ax\) である。


証明 変数は \(n\) 個あるが束縛条件\eqref{x}によって、独立に動かすことのできる変数は \(n-1\) 個である。そこで最後の変数 \(x_{n}\) を \[ x_{n} = -\sum_{i=1}^{n-1} \, x_{i} \] によって消去し \(x_{1},\dots,x_{n-1}\) を独立に動かすことのできる変数とする。このとき式\eqref{phi}の両辺を \(x_{1}\) で偏微分してみると \[ \phi'(x_{1}) + \phi'(x_{n}) \frac{\d x_{n}}{\d x_{1}}= 0 \] となるが、\(\d x_{n}/\d x_{1}=-1\) より \[ \phi'(x_{1}) = \phi'(x_{n}) \] である。同様にして式\eqref{phi}の両辺を \(x_{2}\) で偏微分すると \[ \phi'(x_{2}) = \phi'(x_{n}) \] となるので、上の式とあわせて \[ \phi'(x_{1}) = \phi'(x_{2}) \] が言える。ところで \(x_{1}\) と \(x_{2}\) はまったく独立に動かすことのできる変数であったから、この等式が成り立つためには \(\phi'(x)\) が \(x\) によらずいつも同じ値をとらなければならない。すなわち \[ \phi'(x) = \text{定数} \] である。これより \(a,b\) を任意の定数として \[ \phi(x) = ax + b \] となる。最後にこの \(\phi\) を式\eqref{phi}へ代入し、そこに\eqref{x}を使えば \(b=0\) であるとわかるので、\(\phi(x)=ax\) を得る。\(\blacksquare\)


式\eqref{eq1}と\eqref{eq2}において \((f'/f)\to\phi,\ (x_{i}-\bar{x})\to x_{i}\) という置き換えをすれば補題と同じ形になる。(今考えている問題の場合、\(n\) は \(2\) という値もとり得るのだが、\(n=2\) の場合、上の補題は「 \(\phi\) の関数形は任意の(微分可能な)奇関数」という結果に変わる。\(\phi(x)=ax\) は奇関数だから、この関数形は \(n=2\) の場合にも有効であることになる。なお \(n=1\) の場合は、最初から \(P(X)=f(x_{1}-X)\) が \(X=x_{1}=\bar{x}\) において最大値をとっているので、\(n=1\) の可能性は考えなくてよい。)したがって \[ \frac{f'(x)}{f(x)} = ax \] でなければならず、これを積分して \[ f(x) = A \exp \Bigl( \frac{ax^{2}}{2\:} \! \Bigl) \4 A: \text{定数} \] を得る。さて、ガウスの公理の3つ目より \(\displaystyle\lim_{x\to\pm\infty}f(x)=0\) でなければならないから \(a<0\) である。そこで \(a=-1/\sigma^{2}\ (\sigma>0)\) と置くことにすると \[ f(x) = A \exp \Bigl( -\frac{x^{2}}{2\sigma^{2}} \Bigr) \] となる。最後に全確率が \(1\) となるように定数 \(A\) の値を定めよう。\(f(x)\) をすべての \(x\) で積分すると \[ \int_{-\infty}^{\infty} f(x) \, dx = \int_{-\infty}^{\infty} A \exp \Bigl( -\frac{x^{2}}{2\sigma^{2}} \Bigr) \, dx = A \sqrt{2\pi\sigma^{2}} \] になるため、これが \(1\) となることより \[ A = \frac{1}{\sqrt{2\pi\sigma^{2}}} \] である。ただしガウス積分の公式 \[ \int_{-\infty}^{\infty} e^{-ax^{2}} \, dx = \sqrt{\frac{\pi}{a}} \5 ( a > 0 ) \] を使った。変数を本来の記号 \(\varepsilon\) に戻すと、最終的に偶然誤差の確率密度関数として \[ f(\varepsilon) = \frac{1}{\sqrt{2\pi\sigma^{2}}} \, \exp \Bigl( -\frac{\varepsilon^{2}}{2\sigma^{2}} \Bigr) \] あるいは \(\varepsilon=x-X\) より \[ f(x-X) = \frac{1}{\sqrt{2\pi\sigma^{2}}} \, \exp \biggl( -\frac{(x-X)^{2}}{2\sigma^{2}} \biggr) \] を得る。以上の導出からわかるように、正規分布とはガウスの公理を満たす確率密度関数のうち、とくに \(P'(\bar{x})=0\) という条件を満足するものである。