最大似然估計 似然與概率 在統(tǒng)計學(xué)中,似然函數(shù)(likelihood function,通常簡寫為likelihood,似然)和概率(Probability)是兩個不同的概念。概率是在特定環(huán)境下某件事情發(fā)生的可能性,也就是結(jié)果沒有產(chǎn)生之前依據(jù)環(huán)境所對應(yīng)的參數(shù)來預(yù)測某件事情發(fā)生的可能性,比如拋硬幣,拋之前我們不知道最后是哪一面朝上,但是根據(jù)硬幣的性質(zhì)我們可以推測任何一面朝上的可能性均為50%,這個概率只有在拋硬幣之前才是有意義的,拋完硬幣后的結(jié)果便是確定的;而似然剛好相反,是在確定的結(jié)果下去推測產(chǎn)生這個結(jié)果的可能環(huán)境(參數(shù)),還是拋硬幣的例子,假設(shè)我們隨機拋擲一枚硬幣1,000次,結(jié)果500次人頭朝上,500次數(shù)字朝上(實際情況一般不會這么理想,這里只是舉個例子),我們很容易判斷這是一枚標準的硬幣,兩面朝上的概率均為50%,這個過程就是我們根據(jù)結(jié)果來判斷這個事情本身的性質(zhì)(參數(shù)),也就是似然。 結(jié)果和參數(shù)相互對應(yīng)的時候,似然和概率在數(shù)值上是相等的,如果用 θ 表示環(huán)境對應(yīng)的參數(shù),x 表示結(jié)果,那么概率可以表示為: P(x | θ) 是條件概率的表示方法,θ是前置條件,理解為在θ 的前提下,事件 x 發(fā)生的概率,相對應(yīng)的似然可以表示為: L(θ | x) 理解為已知結(jié)果為 x ,參數(shù)為θ (似然函數(shù)里θ 是變量,這里說的參數(shù)是相對與概率而言的)對應(yīng)的概率。 最大似然估計 似然函數(shù)的最大值意味著什么?讓我們回到概率和似然的定義,概率描述的是在一定條件下某個事件發(fā)生的可能性,概率越大說明這件事情越可能會發(fā)生;而似然描述的是結(jié)果已知的情況下,該事件在不同條件下發(fā)生的可能性,似然函數(shù)的值越大說明該事件在對應(yīng)的條件下發(fā)生的可能性越大。 最大值似然估計量和極大值似然估計量的區(qū)別 最大似然估計量是樣本的函數(shù),若把樣本的觀測值 x1,..., xn 帶入到統(tǒng)計量的表達式中,得出的就是最大似然估計值。 前者是個隨機變量,后者是一個確定的值,沒有隨機性。 n階中心矩 設(shè)X是隨機變量,則稱 μk( X ) = E( X ? E(X) )k為X的k階中心距。 當(dāng)中心距中的E(X)為0時,此時為k階原點矩,即原點矩是中心距的特殊情況。 一階原點矩就是數(shù)學(xué)期望,二階中心距就是方差,在實際中常用低階矩,高于四階矩極少使用。 協(xié)方差(矩陣) 協(xié)方差用于描述兩個變量的相關(guān)性 Cov(X, Y) = E[ [X?E(X)][Y?E(Y)] ] 相關(guān)系數(shù) ρXY=0, 兩個變量不相關(guān) 協(xié)方差矩陣 先從二維隨機變量講起,二維隨機變量(X1,X2)有四個二階中心矩(設(shè)它們都存在),分別記為: c11 = E{ [X1 - E(X1)]2 } c12 = E{ [X1 - E(X1)][X2 - E(X2)] } c21 = E{ [X2 - E(X2)][X1 - E(X1)] } c22 = E{ [X2 - E(X2)]2 } 將它們排列成矩陣的形式 擴展到多維: 設(shè)n維隨機變量(X1, X2, ..., Xn)的二階混合中心矩 cij = E{ [Xi - E(Xi)][Xj - E(Xj)] },i,j=1,2,...,n 都存在,則稱矩陣 為n維隨機變量(X1, X2, ..., Xn)的協(xié)方差矩陣。由于cij = cji(i≠j;ii,j=1,2,...,n),因而上述矩陣是一個對稱矩陣。 (多元)高斯分布 正態(tài)分布(normal distribution)又名高斯分布(Gaussian distribution),是一個非常常見的連續(xù)概率分布。正態(tài)分布在統(tǒng)計學(xué)上十分重要,經(jīng)常用在自然和社會科學(xué)來代表一個不明的隨機變量。 則其概率密度函數(shù)的一般形式為 正態(tài)分布的數(shù)學(xué)期望值或期望值等于位置參數(shù),決定了分布的位置;其方差的開平方或標準差等于尺度參數(shù),決定了分布的幅度。 正態(tài)分布的概率密度函數(shù)曲線呈鐘形,因此人們又經(jīng)常稱之為鐘形曲線(類似于寺廟里的大鐘,因此得名)。我們通常所說的標準正態(tài)分布N(0, 1)是位置參數(shù),尺度參數(shù)的正態(tài)分布。 標準正態(tài)分布標準化到一般情形,x 軸方向做 σ 倍延拓的同時, y 軸應(yīng)該壓縮 σ 倍(乘以 1/σ)。 概率密度函數(shù)
高斯分布一些重要的量: 1. 密度函數(shù)關(guān)于平均值對稱; 其中第3-5條稱為“68-95-99.7法則” 或 “經(jīng)驗法則”。 概率分布函數(shù) 正態(tài)分布的分布函數(shù)沒有解析表達式,它的值可以通過數(shù)值積分、泰勒級數(shù)或者漸進序列近似得到。 中心極限定理 正態(tài)分布有一個很重要的性質(zhì):在特定條件下,大量統(tǒng)計獨立的隨機變量的和的分布趨于正態(tài)分布,這就是中心極限定理。中心極限定理的重要意義在于,依據(jù)這一定理的結(jié)論,其它概率分布能夠用正態(tài)分布作為近似。 高斯分布線性組合的重要性質(zhì) 為什么數(shù)據(jù)科學(xué)家都喜歡高斯分布 自然科學(xué)和社會科學(xué)中有極其大量的過程天然遵循高斯分布。即使當(dāng)它們并不遵循高斯分布的時候,高斯分布也往往提供最佳的逼近。數(shù)學(xué)上的原因便是中心極限定理。中心極限定理表明,滿足一定條件時,大量相互獨立的隨機變量經(jīng)適當(dāng)標準化后,收斂于高斯分布。這一定理意味著專門為高斯模型開發(fā)的大量科學(xué)方法和統(tǒng)計學(xué)方法同樣適用于可能牽涉其他類型分布的廣闊領(lǐng)域內(nèi)的問題。 另外,高斯分布在一些轉(zhuǎn)換后仍然是高斯分布: 高斯函數(shù)經(jīng)傅里葉變換后,所得仍為高斯函數(shù)。 兩個高斯函數(shù)的積仍然是高斯函數(shù)。 兩個高斯函數(shù)的卷積仍然是高斯函數(shù)。 兩個符合高斯分布的獨立隨機變量之和仍然符合高斯分布。 對每個高斯模型逼近而言,可能存在一個提供更好的逼近的復(fù)雜多參數(shù)分布。然而,我們?nèi)匀贿x擇高斯模型,因為它大大簡化了數(shù)學(xué)! 如何檢查你的數(shù)據(jù)是不是高斯分布 · 看直方圖! 是不是看起來像鐘形? · 計算描述性匯總度量 - 平均值,中位數(shù)和模式是否相似?(此處不大明白) · 2/3的觀察是否位于平均值的±1*標準差內(nèi)? 95%的觀察值是否在平均值的±2*標準差范圍內(nèi)? 特征選擇 因為我們建立模型的基礎(chǔ)是假設(shè)特診滿足高斯分布,那么要是特征不符合高斯分布呢?答案當(dāng)然是整成高斯分布?。?br/>我們一開始拿到的特征的分布可能是這樣的: 我們可以通過對數(shù)操作或者其他操作將他轉(zhuǎn)化為高斯分布,例如,上面的特征經(jīng)對數(shù)操作后形成的分布就非常接近于高斯分布:
多元高斯分布 獨立多元正態(tài)分布 先假設(shè)n個變量互不相關(guān),且服從正態(tài)分布(維度不相關(guān)多元正態(tài)分布),各個維度的均值, 方差 根據(jù)聯(lián)合概率密度公式: 這樣多元正態(tài)分布又可以寫成一元那種漂亮的形式了(注意一元與多元的差別): 引入?yún)f(xié)方差矩陣表示σz代入標準化公式 詳細解釋說明見:The Multivariate normal distribution,下同(相關(guān)多元高斯分布) 相關(guān)多元高斯分布 我們討論多元正態(tài)分布的前提是多元變量之間是相互獨立的,實際上,有很多應(yīng)用場合,變量與變量之間是有關(guān)聯(lián)的。以二元正態(tài)分布為例: 向輸入平面作投影后的平面圖: 以現(xiàn)在的坐標系來看,X1,X2是相關(guān)的,但是如果我們換一個角度,它們就是互不相關(guān)的了: 上述過程被稱為去相關(guān)性,更專業(yè)一點叫做歸化。經(jīng)過一系列規(guī)歸化,我們把新的期望、協(xié)方差、協(xié)方差的逆帶入標準化公式: 總結(jié)一下我們做了什么: Ⅰ, 我們先定義了新的坐標系,通過矩陣 UT 將元素映射到新的坐標系,目的是去相關(guān)性 Ⅱ, 在新的坐標下,我們定義了新的期望、協(xié)方差、協(xié)方差的逆,他們都可以通過 U 與 UT計算出來,當(dāng)然我們不用計算 Ⅲ, 套用標準公式,將新的期望、協(xié)方差的逆、協(xié)方差的行列式代入,發(fā)現(xiàn)最后的結(jié)果與U、UT無關(guān) 示例0 異常檢測算法采用獨立多元高斯分布無法解決的問題由相關(guān)多元高斯分布進行解決,介紹熱力圖對投影后的圖像進行不同方向的拉伸。 獨立多元高斯分布模型只是相關(guān)多元高斯分布模型的一個約束,它將相關(guān)多元高斯分布的等高線約束到了同軸分布(概率密度的等高線是沿著軸向的)! |
|