午夜视频在线网站,日韩视频精品在线,中文字幕精品一区二区三区在线,在线播放精品,1024你懂我懂的旧版人,欧美日韩一级黄色片,一区二区三区在线观看视频

分享

一文詳解機(jī)器學(xué)習(xí)中的信息熵概念

 taotao_2016 2020-05-20

開篇

這篇文章主要介紹信息熵(Information Entropy)這個(gè)概念,也是為了我的專欄下一講做前期的知識(shí)準(zhǔn)備。

信息理論是數(shù)學(xué)的重要分支,主要是解決數(shù)據(jù)在噪音通道的傳輸問題。其中,信息理論里程碑的貢獻(xiàn)是量化了一個(gè)事件或者隨機(jī)變量所包含的信息,也叫做熵(Entropy)。

熵的計(jì)算在機(jī)器學(xué)習(xí)中有著廣泛的應(yīng)用,如邏輯回歸(Logistic Regression),決策樹(Decision Tree)等等分類模型。

這些看似深?yuàn)W的知識(shí),背后的邏輯并不難。

大綱

  1. 信息理論簡介
  2. 信息值和熵的計(jì)算

信息理論簡介

熵(Entropy)這個(gè)概念在學(xué)大學(xué)物理的時(shí)候,有所涉及。熵可以被看做一個(gè)系統(tǒng)混亂度的度量。熵值越大,系統(tǒng)越混亂。

也許你聽過,宇宙在朝著熵增的方向發(fā)展著。

一文詳解機(jī)器學(xué)習(xí)中的信息熵概念

信息理論中,最基礎(chǔ)的概念就是信息(Information)信息值可以將事件、隨機(jī)變量中所含的信息量化

問題:六月飄雪和六月下雨哪個(gè)事件的信息量大?

六月下雨太正常了,一點(diǎn)都不驚訝,這是常識(shí),信息量相對較少。六月飄雪就不正常了,小概率事件背后是不是有冤情,信息量滿滿。

信息理論中:

  • 一個(gè)事件發(fā)生的概率越大,信息量越少,發(fā)生產(chǎn)生的驚喜值較低;
  • 一個(gè)事件發(fā)生的概率越小,信息量越大,發(fā)生產(chǎn)生的驚喜值較高;

信息量的計(jì)算

也就是說,信息量和概率是負(fù)相關(guān)的。概率越小,信息量越大。所以,在信息理論中,會(huì)用到以下的公式將信息量和概率值聯(lián)系起來:

一文詳解機(jī)器學(xué)習(xí)中的信息熵概念

信息值計(jì)算

從下圖中,可以發(fā)現(xiàn)公式可以很好的滿足我們的需求。當(dāng)事件發(fā)生概率為100%的時(shí)候,信息值為0。

一文詳解機(jī)器學(xué)習(xí)中的信息熵概念

信息值~概率

拿拋硬幣為例,正反出現(xiàn)的概率各為50%,P=0.5。代入公式,出現(xiàn)正面這個(gè)事件的信息值為1。

熵的計(jì)算

熵這個(gè)概念有點(diǎn)類似期望值。這次拿擲骰子為例,骰子有1,2,3,4,5,6 六個(gè)面。

如果有人和你賭錢:

  • 擲骰子擲出1,2,3,4,他就給你1塊錢;
  • 擲骰子擲出5,6,你給他一塊錢;

你覺得公平嗎?當(dāng)然不,為什么呢?這就撤出了 期望值的概念。

骰子的六個(gè)面任意一面出現(xiàn)的概率為 1/6。 那么將 每個(gè)面的點(diǎn)數(shù)*點(diǎn)數(shù)出現(xiàn)的概率 求和,這就是期望值。擲骰子這個(gè)事件的期望值為(1+2+3+4+5+6)* 1/6 = 3.5。

怎么理解期望值呢?其實(shí)可以理解為,多次試驗(yàn)結(jié)果的平均值。也就是說,擲骰子無數(shù)次,骰子點(diǎn)數(shù)的平均值是3.5。這樣就好理解上面這個(gè)游戲是否公平了。明顯被占了便宜。

熵的概念類似期望值,是計(jì)算 P * (-ln(P)) 的和,-ln(P)就是該事件的信息量IV。

熵 = (事件發(fā)生概率 * 事件信息量)的和

一文詳解機(jī)器學(xué)習(xí)中的信息熵概念

擲骰子的熵

事件符合的概率分布多種多樣,均勻分布,高斯分布等等。不同的分布,計(jì)算的熵是什么個(gè)規(guī)律呢?

  • 偏態(tài)分布,熵低;
  • 平衡分布,熵高;

這也好理解,還是擲硬幣為例。但是這次的硬幣是做了手腳的,出現(xiàn)正面的概率為80%,反面的概率為20%。這和50%正反的情況的熵值孰高孰低呢?

萬變不離其宗。

我們來看下,熵和概率的曲線變化。概率越集中在0.4~0.6之間,(事件發(fā)生概率 * 事件信息量)的值越大。而大概率事件和小概率事件的(事件發(fā)生概率 * 事件信息量)值都會(huì)急劇減小。因?yàn)樾「怕适录m然信息量大,但是發(fā)生概率小,相互抵消。反之亦然。

一文詳解機(jī)器學(xué)習(xí)中的信息熵概念

或許這樣更加清晰,我們制作一系列的6個(gè)作弊骰子,正面朝上的概率分別為0%,10%,20%,30%,40%,50%。分別算一下投骰子這個(gè)事件的熵??梢钥吹?,均勻的骰子產(chǎn)生的熵最大。

一文詳解機(jī)器學(xué)習(xí)中的信息熵概念

熵和概率分布

總結(jié)

這是為了專欄下一講邏輯回歸的知識(shí)小結(jié),對于信息值和熵,我相信大家有了一個(gè)基本的概念??偨Y(jié)如下:

信息值:

  • 一個(gè)事件發(fā)生的概率越大,信息量越少,發(fā)生產(chǎn)生的驚喜值較低;
  • 一個(gè)事件發(fā)生的概率越小,信息量越大,發(fā)生產(chǎn)生的驚喜值較高;

熵:

  • 偏態(tài)分布,熵低;
  • 平衡分布,熵高;

喜歡我的文章,可以關(guān)注我的專欄。在專欄中,細(xì)致講解了機(jī)器學(xué)習(xí)的相關(guān)知識(shí),并且每一個(gè)模型,都會(huì)通過python進(jìn)行底層的模型編程。讓你從只是會(huì)用市面上流行的機(jī)器學(xué)習(xí)Package,到自己真正理解機(jī)器學(xué)習(xí)各個(gè)模型背后的原理。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多