開篇這篇文章主要介紹信息熵(Information Entropy)這個(gè)概念,也是為了我的專欄下一講做前期的知識(shí)準(zhǔn)備。 信息理論是數(shù)學(xué)的重要分支,主要是解決數(shù)據(jù)在噪音通道的傳輸問題。其中,信息理論里程碑的貢獻(xiàn)是量化了一個(gè)事件或者隨機(jī)變量所包含的信息,也叫做熵(Entropy)。 熵的計(jì)算在機(jī)器學(xué)習(xí)中有著廣泛的應(yīng)用,如邏輯回歸(Logistic Regression),決策樹(Decision Tree)等等分類模型。 這些看似深?yuàn)W的知識(shí),背后的邏輯并不難。 大綱
信息理論簡介熵(Entropy)這個(gè)概念在學(xué)大學(xué)物理的時(shí)候,有所涉及。熵可以被看做一個(gè)系統(tǒng)混亂度的度量。熵值越大,系統(tǒng)越混亂。 也許你聽過,宇宙在朝著熵增的方向發(fā)展著。 信息理論中,最基礎(chǔ)的概念就是信息(Information)。信息值可以將事件、隨機(jī)變量中所含的信息量化。 問題:六月飄雪和六月下雨哪個(gè)事件的信息量大? 六月下雨太正常了,一點(diǎn)都不驚訝,這是常識(shí),信息量相對較少。六月飄雪就不正常了,小概率事件背后是不是有冤情,信息量滿滿。 信息理論中:
信息量的計(jì)算也就是說,信息量和概率是負(fù)相關(guān)的。概率越小,信息量越大。所以,在信息理論中,會(huì)用到以下的公式將信息量和概率值聯(lián)系起來: 信息值計(jì)算 從下圖中,可以發(fā)現(xiàn)公式可以很好的滿足我們的需求。當(dāng)事件發(fā)生概率為100%的時(shí)候,信息值為0。 信息值~概率 拿拋硬幣為例,正反出現(xiàn)的概率各為50%,P=0.5。代入公式,出現(xiàn)正面這個(gè)事件的信息值為1。 熵的計(jì)算熵這個(gè)概念有點(diǎn)類似期望值。這次拿擲骰子為例,骰子有1,2,3,4,5,6 六個(gè)面。 如果有人和你賭錢:
你覺得公平嗎?當(dāng)然不,為什么呢?這就撤出了 期望值的概念。 骰子的六個(gè)面任意一面出現(xiàn)的概率為 1/6。 那么將 每個(gè)面的點(diǎn)數(shù)*點(diǎn)數(shù)出現(xiàn)的概率 求和,這就是期望值。擲骰子這個(gè)事件的期望值為(1+2+3+4+5+6)* 1/6 = 3.5。 怎么理解期望值呢?其實(shí)可以理解為,多次試驗(yàn)結(jié)果的平均值。也就是說,擲骰子無數(shù)次,骰子點(diǎn)數(shù)的平均值是3.5。這樣就好理解上面這個(gè)游戲是否公平了。明顯被占了便宜。 熵的概念類似期望值,是計(jì)算 P * (-ln(P)) 的和,-ln(P)就是該事件的信息量IV。 熵 = (事件發(fā)生概率 * 事件信息量)的和 擲骰子的熵 事件符合的概率分布多種多樣,均勻分布,高斯分布等等。不同的分布,計(jì)算的熵是什么個(gè)規(guī)律呢?
這也好理解,還是擲硬幣為例。但是這次的硬幣是做了手腳的,出現(xiàn)正面的概率為80%,反面的概率為20%。這和50%正反的情況的熵值孰高孰低呢? 萬變不離其宗。 我們來看下,熵和概率的曲線變化。概率越集中在0.4~0.6之間,(事件發(fā)生概率 * 事件信息量)的值越大。而大概率事件和小概率事件的(事件發(fā)生概率 * 事件信息量)值都會(huì)急劇減小。因?yàn)樾「怕适录m然信息量大,但是發(fā)生概率小,相互抵消。反之亦然。 或許這樣更加清晰,我們制作一系列的6個(gè)作弊骰子,正面朝上的概率分別為0%,10%,20%,30%,40%,50%。分別算一下投骰子這個(gè)事件的熵??梢钥吹?,均勻的骰子產(chǎn)生的熵最大。 熵和概率分布 總結(jié)這是為了專欄下一講邏輯回歸的知識(shí)小結(jié),對于信息值和熵,我相信大家有了一個(gè)基本的概念??偨Y(jié)如下: 信息值:
熵:
喜歡我的文章,可以關(guān)注我的專欄。在專欄中,細(xì)致講解了機(jī)器學(xué)習(xí)的相關(guān)知識(shí),并且每一個(gè)模型,都會(huì)通過python進(jìn)行底層的模型編程。讓你從只是會(huì)用市面上流行的機(jī)器學(xué)習(xí)Package,到自己真正理解機(jī)器學(xué)習(xí)各個(gè)模型背后的原理。 |
|