本文是結(jié)合書來作出自己的理解和總結(jié)的,主要的參考書目是《統(tǒng)計(jì)學(xué)習(xí)方法》,后期的修改中,我會(huì)加入相關(guān)的其他書籍進(jìn)來。歡迎批評(píng)和指正~~ 本文的思路是根據(jù)《統(tǒng)計(jì)學(xué)習(xí)方法》第一章所提到的:統(tǒng)計(jì)學(xué)習(xí)方法 = 模型+策略+算法的思路來講的,所以,如果對(duì)于這個(gè)思路有疑問,自行看第一章。本文主要介紹的是邏輯斯蒂模型的模型、策略和算法,至于最大熵模型,這里不予介紹。首先會(huì)介紹邏輯斯蒂模型的基本模型,然后會(huì)介紹極大似然估計(jì)的基本原理和邏輯回歸的策略并求出邏輯回歸的目標(biāo)函數(shù),最后介紹梯度上升算法和邏輯回歸目標(biāo)函數(shù)的最優(yōu)化。 1、邏輯斯蒂模型 1.1、邏輯斯蒂分布 為什么先講邏輯斯蒂分布呢?因?yàn)槲覀兊倪壿嬎沟倌P途褪歉鶕?jù)邏輯斯蒂分布得到的,所以說邏輯斯蒂方法是屬于判別方法,即知道了P(Y|X)的形式(當(dāng)然,我們是不知道P(X,Y)的,要不然機(jī)器學(xué)習(xí)也就沒有意義了。),通過參數(shù)估計(jì)方法直接估計(jì)出參數(shù),從而得到P(Y|X)。下面給出《統(tǒng)計(jì)學(xué)習(xí)方法》上邏輯斯蒂分布的定義: 1.2、二項(xiàng)邏輯斯蒂回歸模型 知道分布的定義之后,就是給出我們的邏輯斯蒂模型了: 這里需要注意的有兩點(diǎn):(1)最終的結(jié)果是通過比較P(Y=1|X)和P(Y=0|X)的大小來確定類別的;(2)b在這里其實(shí)可以看做是w0x0,其中x0 = 1;(3)其實(shí)本質(zhì)上這個(gè)就是一個(gè)二項(xiàng)分布,所以遵循二項(xiàng)分布的分布律。 1.3、事件的對(duì)數(shù)幾率(log odds) 廢話不說,還是看看統(tǒng)計(jì)學(xué)習(xí)方法上面的定義: 1.4、第一個(gè)結(jié)論 根據(jù)之前,我們就得到了兩個(gè)定義:(1)邏輯回歸模型;(2)事件的對(duì)數(shù)幾率。那么從這兩個(gè)定義,我們可以得到什么推論呢? 也就是說,如果我的模型是邏輯回歸模型,那么事件{Y=1|X}發(fā)生的對(duì)數(shù)幾率就是輸入X的線性函數(shù)(模型)。所以只要知道了這個(gè)推論,我們是可以反推出邏輯斯蒂模型的形式的: 1.5、比較邏輯斯蒂模型和感知機(jī) 首先,很顯然,這里的邏輯斯蒂模型可以看成是f(wx),也就是wx的函數(shù):sigmoid函數(shù),感知機(jī)則是sign函數(shù)。 2、邏輯斯蒂回歸的策略 2.1、極大似然估計(jì)的基本思想 這部分請(qǐng)參考百度百科, 我覺得百度百科上面已經(jīng)講的很好了。 2.2、通過極大似然估計(jì)推導(dǎo)邏輯回歸的目標(biāo)函數(shù) 這里我給出手寫的推導(dǎo): 3、目標(biāo)函數(shù)的最優(yōu)化算法:梯度上升 這部分的內(nèi)容我會(huì)結(jié)合相關(guān)的代碼來實(shí)現(xiàn)。 3.1、梯度的推導(dǎo) 還是給出手寫的推導(dǎo) 3.2、邏輯回歸代碼的實(shí)現(xiàn) |
|