最大似然估計、n階矩、協(xié)方差（矩陣）、（多元）高斯分布學(xué)習(xí)摘要

印度阿三17 2019-08-15

展開全文

最大似然估計

似然與概率

在統(tǒng)計學(xué)中，似然函數(shù)（likelihood function，通常簡寫為likelihood，似然）和概率（Probability）是兩個不同的概念。概率是在特定環(huán)境下某件事情發(fā)生的可能性，也就是結(jié)果沒有產(chǎn)生之前依據(jù)環(huán)境所對應(yīng)的參數(shù)來預(yù)測某件事情發(fā)生的可能性，比如拋硬幣，拋之前我們不知道最后是哪一面朝上，但是根據(jù)硬幣的性質(zhì)我們可以推測任何一面朝上的可能性均為50%，這個概率只有在拋硬幣之前才是有意義的，拋完硬幣后的結(jié)果便是確定的；而似然剛好相反，是在確定的結(jié)果下去推測產(chǎn)生這個結(jié)果的可能環(huán)境（參數(shù)），還是拋硬幣的例子，假設(shè)我們隨機拋擲一枚硬幣1,000次，結(jié)果500次人頭朝上，500次數(shù)字朝上（實際情況一般不會這么理想，這里只是舉個例子），我們很容易判斷這是一枚標準的硬幣，兩面朝上的概率均為50%，這個過程就是我們根據(jù)結(jié)果來判斷這個事情本身的性質(zhì)（參數(shù)），也就是似然。

結(jié)果和參數(shù)相互對應(yīng)的時候，似然和概率在數(shù)值上是相等的，如果用 θ 表示環(huán)境對應(yīng)的參數(shù)，x 表示結(jié)果，那么概率可以表示為：

P(x | θ)

是條件概率的表示方法，θ是前置條件，理解為在θ 的前提下，事件 x 發(fā)生的概率，相對應(yīng)的似然可以表示為：

L(θ | x)

理解為已知結(jié)果為 x ，參數(shù)為θ (似然函數(shù)里θ 是變量，這里說的參數(shù)是相對與概率而言的)對應(yīng)的概率。

最大似然估計

似然函數(shù)的最大值意味著什么？讓我們回到概率和似然的定義，概率描述的是在一定條件下某個事件發(fā)生的可能性，概率越大說明這件事情越可能會發(fā)生；而似然描述的是結(jié)果已知的情況下，該事件在不同條件下發(fā)生的可能性，似然函數(shù)的值越大說明該事件在對應(yīng)的條件下發(fā)生的可能性越大。

最大值似然估計量和極大值似然估計量的區(qū)別

最大似然估計量是樣本的函數(shù)，若把樣本的觀測值 x₁，...， x_n帶入到統(tǒng)計量的表達式中，得出的就是最大似然估計值。前者是個隨機變量，后者是一個確定的值，沒有隨機性。

n階中心矩

設(shè)X是隨機變量，則稱

μk( X ) = E( X ? E(X) )^k

為X的k階中心距。

當(dāng)中心距中的E(X)為0時，此時為k階原點矩，即原點矩是中心距的特殊情況。

一階原點矩就是數(shù)學(xué)期望，二階中心距就是方差，在實際中常用低階矩，高于四階矩極少使用。

協(xié)方差（矩陣）

協(xié)方差用于描述兩個變量的相關(guān)性

Cov(X, Y) = E[ [X?E(X)][Y?E(Y)] ]

相關(guān)系數(shù)
其中，D(X)為方差，E(X)為期望。

ρ_XY=0, 兩個變量不相關(guān)

協(xié)方差矩陣

先從二維隨機變量講起，二維隨機變量（X₁，X₂）有四個二階中心矩（設(shè)它們都存在），分別記為：

c₁₁ = E{ [X₁ - E(X₁)]² }

c₁₂ = E{ [X₁ - E(X₁)][X₂ - E(X₂)] }

c₂₁ = E{ [X₂ - E(X₂)][X₁ - E(X₁)] }

c₂₂ = E{ [X₂ - E(X₂)]² }

將它們排列成矩陣的形式

擴展到多維：

設(shè)n維隨機變量(X₁, X₂, ..., X_n)的二階混合中心矩 c_ij = E{ [X_i - E(X_i)][X_j - E(X_j)] }，i,j=1,2,...,n 都存在，則稱矩陣

為n維隨機變量(X₁, X₂, ..., X_n)的協(xié)方差矩陣。由于c_ij = c_ji（i≠j；ii,j=1,2,...,n），因而上述矩陣是一個對稱矩陣。

（多元）高斯分布

正態(tài)分布（normal distribution）又名高斯分布（Gaussian distribution），是一個非常常見的連續(xù)概率分布。正態(tài)分布在統(tǒng)計學(xué)上十分重要，經(jīng)常用在自然和社會科學(xué)來代表一個不明的隨機變量。

則其概率密度函數(shù)的一般形式為

正態(tài)分布的數(shù)學(xué)期望值或期望值 $\mu$ 等于位置參數(shù)，決定了分布的位置；其方差 $\sigma^2$ 的開平方或標準差 $\sigma$ 等于尺度參數(shù)，決定了分布的幅度。

正態(tài)分布的概率密度函數(shù)曲線呈鐘形，因此人們又經(jīng)常稱之為鐘形曲線（類似于寺廟里的大鐘，因此得名）。我們通常所說的標準正態(tài)分布N(0, 1)是位置參數(shù) $\mu =0$ ，尺度參數(shù) $\sigma^2 = 1$ 的正態(tài)分布。

標準正態(tài)分布標準化到一般情形，x 軸方向做 σ 倍延拓的同時， y 軸應(yīng)該壓縮 σ 倍（乘以 1/σ）。

概率密度函數(shù)

高斯分布一些重要的量：

1. 密度函數(shù)關(guān)于平均值對稱；
2. 平均值與它的眾數(shù)（statistical mode）以及中位數(shù)（median）相等；
3. 函數(shù)曲線下68.268949%的面積在平均值左右的一個標準差范圍內(nèi)；
4. 95.449974%的面積在平均值左右兩個標準差2σ的范圍內(nèi)；
5. 99.730020%的面積在平均值左右三個標準差3σ的范圍。

其中第3-5條稱為“68-95-99.7法則” 或 “經(jīng)驗法則”。

概率分布函數(shù)

正態(tài)分布的分布函數(shù)沒有解析表達式，它的值可以通過數(shù)值積分、泰勒級數(shù)或者漸進序列近似得到。

中心極限定理

正態(tài)分布有一個很重要的性質(zhì)：在特定條件下，大量統(tǒng)計獨立的隨機變量的和的分布趨于正態(tài)分布，這就是中心極限定理。中心極限定理的重要意義在于，依據(jù)這一定理的結(jié)論，其它概率分布能夠用正態(tài)分布作為近似。

高斯分布線性組合的重要性質(zhì)

為什么數(shù)據(jù)科學(xué)家都喜歡高斯分布

自然科學(xué)和社會科學(xué)中有極其大量的過程天然遵循高斯分布。即使當(dāng)它們并不遵循高斯分布的時候，高斯分布也往往提供最佳的逼近。數(shù)學(xué)上的原因便是中心極限定理。中心極限定理表明，滿足一定條件時，大量相互獨立的隨機變量經(jīng)適當(dāng)標準化后，收斂于高斯分布。這一定理意味著專門為高斯模型開發(fā)的大量科學(xué)方法和統(tǒng)計學(xué)方法同樣適用于可能牽涉其他類型分布的廣闊領(lǐng)域內(nèi)的問題。

另外，高斯分布在一些轉(zhuǎn)換后仍然是高斯分布：

高斯函數(shù)經(jīng)傅里葉變換后，所得仍為高斯函數(shù)。

兩個高斯函數(shù)的積仍然是高斯函數(shù)。

兩個高斯函數(shù)的卷積仍然是高斯函數(shù)。

兩個符合高斯分布的獨立隨機變量之和仍然符合高斯分布。

對每個高斯模型逼近而言，可能存在一個提供更好的逼近的復(fù)雜多參數(shù)分布。然而，我們?nèi)匀贿x擇高斯模型，因為它大大簡化了數(shù)學(xué)！

如何檢查你的數(shù)據(jù)是不是高斯分布

· 看直方圖！是不是看起來像鐘形？

· 計算描述性匯總度量 - 平均值，中位數(shù)和模式是否相似？(此處不大明白)

· 2/3的觀察是否位于平均值的±1*標準差內(nèi)？ 95％的觀察值是否在平均值的±2*標準差范圍內(nèi)？

特征選擇

因為我們建立模型的基礎(chǔ)是假設(shè)特診滿足高斯分布，那么要是特征不符合高斯分布呢？答案當(dāng)然是整成高斯分布?。?br/>我們一開始拿到的特征的分布可能是這樣的：

我們可以通過對數(shù)操作或者其他操作將他轉(zhuǎn)化為高斯分布，例如，上面的特征經(jīng)對數(shù)操作后形成的分布就非常接近于高斯分布：

多元高斯分布

獨立多元正態(tài)分布

先假設(shè)n個變量互不相關(guān)，且服從正態(tài)分布（維度不相關(guān)多元正態(tài)分布），各個維度的均值，方差

根據(jù)聯(lián)合概率密度公式：

這樣多元正態(tài)分布又可以寫成一元那種漂亮的形式了(注意一元與多元的差別)：

引入?yún)f(xié)方差矩陣表示σ_z代入標準化公式

詳細解釋說明見：The Multivariate normal distribution，下同（相關(guān)多元高斯分布）

相關(guān)多元高斯分布

我們討論多元正態(tài)分布的前提是多元變量之間是相互獨立的，實際上，有很多應(yīng)用場合，變量與變量之間是有關(guān)聯(lián)的。以二元正態(tài)分布為例：

向輸入平面作投影后的平面圖：

以現(xiàn)在的坐標系來看，X1，X2是相關(guān)的，但是如果我們換一個角度，它們就是互不相關(guān)的了：

上述過程被稱為去相關(guān)性，更專業(yè)一點叫做歸化。經(jīng)過一系列規(guī)歸化，我們把新的期望、協(xié)方差、協(xié)方差的逆帶入標準化公式：

總結(jié)一下我們做了什么：

Ⅰ，我們先定義了新的坐標系，通過矩陣 UT 將元素映射到新的坐標系，目的是去相關(guān)性

Ⅱ，在新的坐標下，我們定義了新的期望、協(xié)方差、協(xié)方差的逆，他們都可以通過 U 與 UT計算出來，當(dāng)然我們不用計算

Ⅲ, 套用標準公式，將新的期望、協(xié)方差的逆、協(xié)方差的行列式代入，發(fā)現(xiàn)最后的結(jié)果與U、UT無關(guān)

示例0 異常檢測算法采用獨立多元高斯分布無法解決的問題由相關(guān)多元高斯分布進行解決，介紹熱力圖對投影后的圖像進行不同方向的拉伸。

獨立多元高斯分布模型只是相關(guān)多元高斯分布模型的一個約束，它將相關(guān)多元高斯分布的等高線約束到了同軸分布（概率密度的等高線是沿著軸向的）！

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

午夜视频在线网站,日韩视频精品在线,中文字幕精品一区二区三区在线,在线播放精品,1024你懂我懂的旧版人,欧美日韩一级黄色片,一区二区三区在线观看视频

最大似然估計、n階矩、協(xié)方差（矩陣）、（多元）高斯分布 學(xué)習(xí)摘要

最大似然估計、n階矩、協(xié)方差（矩陣）、（多元）高斯分布學(xué)習(xí)摘要