熵最大原理是一種推導(dǎo)概率分布的方法，它認(rèn)為：在滿足約束條件下的概率分布中，熵最大的分布是最合適的選擇。
熵的定義：對(duì)于一個(gè)離散型隨機(jī)變量 $X$ 取值于 ${x_1},{x_2},...,{x_n}$ ，其概率分布為 $P(X = {x_i}) = {p_i}$ ，則信息熵定義為 $H(X) = - \sum\nolimits_{i = 1}^n {{p_i}\ln {p_i}}$ ，對(duì)于連續(xù)型隨機(jī)變量，熵的定義為 $H(x) = - \int_{ - \infty }^{ + \infty } {f(x)\ln f(x)}dx$ 。其中，熵越大，表示分布的信息損失越少。

1.約束條件

為推導(dǎo)正態(tài)分布，我們假設(shè)有如下約束：

所有點(diǎn)的概率和為1：
$\int_{ - \infty }^{ + \infty } {f(x)} dx = 1$
這個(gè)分布有均值，大小為 $\mu$ ：
$\int_{ - \infty }^{ + \infty } {xf(x)} dx = \mu$
這個(gè)分布有方差，大小為 $\sigma ^2$ ：
$\int_{ - \infty }^{ + \infty } {{{(x - \mu )}^2}f(x)} dx = {\sigma ^2}$

2.最大熵計(jì)算

使用拉格朗日乘子法求解最大熵分布
定義拉格朗日函數(shù)：

$L = - \int_{ - \infty }^{ + \infty } {f(x)\ln f(x)} dx + {\lambda _1}(\int_{ - \infty }^{ + \infty } {f(x)} dx - 1) + {\lambda _2}(\int_{ - \infty }^{ + \infty } {xf(x)} dx - \mu ) + {\lambda _3}(\int_{ - \infty }^{ + \infty } {{{(x - \mu )}^2}f(x)} dx - {\sigma ^2})$
開始求解：
我們對(duì) ${f(x)}$ 進(jìn)行變分求導(dǎo)，對(duì) ${f(x)}$ 取變分為 $\delta f(x)$ ，即 ${{\delta L} \over {\delta f(x)}} = 0$ 。對(duì) $L$ 逐項(xiàng)求偏導(dǎo)：
熵項(xiàng)：

${\delta \over {\delta f(x)}}\left[ { - \int_{ - \infty }^{ + \infty } {f(x)\ln f(x)} dx} \right] = - \ln f(x) - 1$

${\lambda _1}{\delta \over {\delta f(x)}}\left[ {\int_{ - \infty }^{ + \infty } {f(x)} dx - 1} \right] = {\lambda _1}$

${\lambda _2}{\delta \over {\delta f(x)}}\left[ {\int_{ - \infty }^{ + \infty } {xf(x)} dx - \mu } \right] = {\lambda _2}x$

${\lambda _3}{\delta \over {\delta f(x)}}\left[ {\int_{ - \infty }^{ + \infty } {{{(x - \mu )}^2}f(x)} dx - {\sigma ^2}} \right] = {\lambda _3}{(x - \mu )^2}$

將這些項(xiàng)相加：

$- \ln f(x) - 1 + {\lambda _1} + {\lambda _2}x + {\lambda _3}{(x - \mu )^2} = 0$
整理得：

$\ln f(x) = - 1 + {\lambda _1} + {\lambda _2}x + {\lambda _3}{(x - \mu )^2}$
兩邊取指數(shù)：

$f(x) = {e^{ - 1 + {\lambda _1}}}{e^{{\lambda _2}x + {\lambda _3}{{(x - \mu )}^2}}}$
令 $C = {e^{ - 1 + {\lambda _1}}}$ ，則有：

$f(x) = C{e^{{\lambda _2}x + {\lambda _3}{{(x - \mu )}^2}}}$
為此我們只需要求出這三個(gè)參數(shù)( $C,{\lambda _2},{\lambda _3}$ )即可得到 $f(x)$

很明顯， ${\lambda _2}$ 為 0 。如果 ${\lambda _2} \ne 0$ ，則相當(dāng)于均值進(jìn)行了偏移得到新的均值 $\mu ' = \mu - k,k = g({\lambda _2})$ ，也就是沒有用到上述的均值約束條件 $\int_{ - \infty }^{ + \infty } {xf(x)} dx = \mu$ ，因此很容易判斷出 ${\lambda _2}$ 為 0 。由此可以得到 $f(x)$ 的分布函數(shù)：
$f(x) = C{e^{{\lambda _3}{{(x - \mu )}^2}}}$
現(xiàn)在開始計(jì)算 $C$ 和 ${\lambda _3}$
利用概率約束條件 $\int_{ - \infty }^{ + \infty } {f(x)} dx = 1$ 計(jì)算 $C$ ：
先求出積分：
$I = \int_{ - \infty }^{ + \infty } {C{e^{{\lambda _3}{{(x - \mu )}^2}}}} dx$
這個(gè)積分的標(biāo)準(zhǔn)計(jì)算方法是：
$I = \int_{ - \infty }^{ + \infty } {C{e^{{\lambda _3}{{(x - \mu )}^2}}}} dx = \sqrt {{\pi \over { - {\lambda _3}}}}$
所以：
$C\sqrt {{\pi \over { - {\lambda _3}}}} = 1$
解得：
$C = \sqrt { - {\lambda _3}/\pi }$
利用方差約束條件 $\int_{ - \infty }^{ + \infty } {{{(x - \mu )}^2}f(x)} dx = {\sigma ^2}$ 計(jì)算 ${{\lambda _3}}$ ：
$\int_{ - \infty }^{ + \infty } {{{(x - \mu )}^2}C{e^{{\lambda _3}{{(x - \mu )}^2}}}} dx = {\sigma ^2}$
利用高斯積分公式：
$\int_{ - \infty }^{ + \infty } {{x^2}{e^{ - a{x^2}}}} dx = {1 \over 2}\sqrt {{\pi \over a}} {1 \over a}$
令 $a = - {\lambda _3}$ ，整理得：
${\lambda _3} = - {1 \over {2{\sigma ^2}}}$
結(jié)論，正態(tài)分布概率密度曲線為：
$f(x) = {1 \over {\sqrt {2\pi {\sigma ^2}} }}{e^{ - {{{{(x - \mu )}^2}} \over {2{\sigma ^2}}}}}$