我是懷著學(xué)習(xí)信息論的目的翻開這本書的。 顯然,學(xué)習(xí)新的學(xué)科,最經(jīng)典的方式是打開一本教科書。然而,當(dāng)我興沖沖的翻開《信息論與編碼》時(shí),我看到的是這個(gè): 《信息論與編碼》的一頁 MMP…… 經(jīng)過多方檢索,發(fā)現(xiàn)了早早躺在書架的《信息簡史》居然是關(guān)于信息論的科普讀物,趕緊開始。 讀完,收獲頗豐。 ———————————————— 一、關(guān)于信息論,我們要明白它要解決的問題是什么。在一點(diǎn)精確地或近似地復(fù)現(xiàn)在另一點(diǎn)所選取的信息?!藙诘隆は戕r(nóng) 很好理解,在對話時(shí),傳遞信息的目的就是將一方的想法傳遞給另一方,即「在我的腦中精確或近似地復(fù)現(xiàn)在你腦中所選取的信息」。因而,信息論和密碼學(xué)本質(zhì)上是一件事。密碼的本質(zhì)目的,也是使信息從一處向另一處轉(zhuǎn)移,只不過是多施加了保護(hù)而已。 信息論的誕生背景,恰好是二戰(zhàn)時(shí)盟軍破譯德國情報(bào)部門的Enigma密碼。(有興趣的話,可以看電影《模擬游戲》,以阿蘭·圖靈為主角講述該歷史故事)密碼系統(tǒng)的特點(diǎn)是什么呢?就是都需要使用「密鑰」。密鑰可能是某個(gè)詞、某本書或者更復(fù)雜的東西。但不管是什么,它都是發(fā)送者和接受者共享的一個(gè)字符的來源。在香農(nóng)看來,密碼系統(tǒng)由以下幾部分組成:有限數(shù)量的可能訊息(但有可能極大,比如所有中文能表達(dá)的意思)、有限數(shù)量的可能密文、以及兩者相互轉(zhuǎn)換所用的有限數(shù)量的密鑰,每個(gè)密鑰都有相應(yīng)的出現(xiàn)概率。 香農(nóng)的密碼結(jié)構(gòu) 書中沒有提密碼學(xué)的具體細(xì)節(jié)。不過,香農(nóng)在研究密碼學(xué)的報(bào)告中,首次提出了信息論的概念。 ———————————————— 二、信息論中的「信息」是什么意思?信息論中的信息,和日常用語中的信息意思有所差別。香農(nóng)將信息中的「意義」剝離。舉例來說,在信息論中,red僅僅是「red」這個(gè)3個(gè)字母組成的字符而已,而至于red所代表的「紅色」,不是信息論所關(guān)注的內(nèi)容。換言之,信息論只是負(fù)責(zé)將「red」從老王這里復(fù)現(xiàn)到老張這里。至于「red」在老王這里代表「紅色」而在老張那里代表「綠色」,不是信息論關(guān)心的事情。 在這里多說一句,確定一個(gè)概念的邊沿是非常重要的。在牛頓之前,motion(運(yùn)動(dòng))的含義就與信息一樣含混不清。對于當(dāng)時(shí)遵循亞里士多德學(xué)說的人們而言,運(yùn)動(dòng)可以指代及其廣泛的現(xiàn)象:桃子成熟、石頭落地、孩童成長、尸體腐爛······而牛頓重新定義了運(yùn)動(dòng)的概念,即物體在一段時(shí)間內(nèi)從一點(diǎn)到另一點(diǎn)的移動(dòng)軌跡。因而,牛頓才能對其進(jìn)行描述,即點(diǎn)與點(diǎn)之間的長度、所經(jīng)過的時(shí)間。因而,牛頓才能提出速度、加速度等概念。而后,牛頓又重新定義了「質(zhì)量」「密度」「體積」等概念,最終才得以構(gòu)建經(jīng)典物理體系。 BTW,在做討論某個(gè)問題的時(shí)候,我們首先要明確對象究竟是什么,給它一個(gè)清晰的定義與邊界。 ———————————————— 三、信息傳遞的結(jié)構(gòu)是什么?(其實(shí)按信息論的說法,不是「傳遞」,而是「復(fù)現(xiàn)」)香農(nóng)的通信結(jié)構(gòu) 信息傳遞的過程(即通信系統(tǒng))包括5個(gè)要素: 信源:產(chǎn)生訊息的人或機(jī)器。 發(fā)送器:對訊息執(zhí)行某種操作(即對訊息編碼),以得到是適當(dāng)?shù)男盘枴? 信道:傳輸信號所使用的媒介。 接收器:執(zhí)行發(fā)送器的逆操作,對訊息解碼,或從信號中提取出信息。 信宿:接受訊息的人。 以你我談話為例。其對應(yīng)關(guān)系為: 信源——我 發(fā)送器——我的聲帶 信道——空氣 接收器——你的耳朵 信宿——你 此外,在香農(nóng)的理論中,還有一個(gè)概念:「噪聲」。 噪聲涵蓋一切會(huì)削弱信號的東西,比如多余的附加信號、明顯的錯(cuò)誤、隨機(jī)干擾、干涉等等。這些噪聲有的可以事先預(yù)測,有的則不可以。 如果想要在一個(gè)信道上傳遞跟過的信息,工程師的做法往往是增大信源的輸出功率。但是,這種方法存在問題。因?yàn)橐淮斡忠淮蔚姆糯笮盘?,只?huì)導(dǎo)致噪聲的逐漸積累。 對此,香農(nóng)提出的解決方法是,用額外的符號進(jìn)行糾錯(cuò)。舉例來說,write和right的發(fā)音相同,當(dāng)單一傳送語音write的時(shí)候,接受方并不知道是write還是right。但如果加上write with your hand,接受方就明確必須是write。這就是用額外的符號糾錯(cuò)的方法。(BTW,在中文中,這種現(xiàn)象更明顯,因?yàn)闈h字發(fā)音相同的現(xiàn)象太過廣泛了。) 但香農(nóng)并不止于此,他將統(tǒng)計(jì)概率融入了信息論的結(jié)構(gòu)中,徹底確立了信息論應(yīng)用數(shù)學(xué)的屬性。香農(nóng)發(fā)現(xiàn),每個(gè)訊息與下一個(gè)符號之間既不是決定論(下一個(gè)符號可以被精確算出),也不是完全隨機(jī)(下一符號完全不受上一訊息的影響),而是由一組概率決定。舉例來說,在發(fā)送英文信息時(shí),t后面出現(xiàn)h的概率,就比出現(xiàn)q的概率高,因?yàn)閠h是英文中常見的字幕組合,而tq則不是。這就是訊息的「統(tǒng)計(jì)結(jié)構(gòu)」。 香農(nóng)發(fā)展了訊息對下一符號的概率關(guān)系,提出了不同位階的關(guān)系。 零階近似:即每個(gè)字符與其他字符之間不存在關(guān)系,但各自出現(xiàn)的頻率符合英語中字母出現(xiàn)的頻率,單詞長度也接近真實(shí)英語單詞的長度。 例如:XFOML RXKHRJFFJUJ ZLPWCFWKCYJ FFJEYVKCQSGHYD QPAAMKBZAACIBZLHJQD。 二階近似:不僅單個(gè)字母,雙字母組合的出現(xiàn)的頻率也符合英語的情況。 例如:ON IE ANTSOUTINYS ARE T INCTORE ST BE S DEAMY ACHIN DILONASIVE TUCOOWE AT TEASONARE FUSO TIZIN ANDY TOBE SEACE CTISBE。 三階近似:即三字母組合。不舉例了。 一階單詞近似: REPRESENTAING AND SPEEDILY IS AN GOOD APT OR COME CAN DIFFERENT NATURAL HERE HE THE A IN CAME THE TO OF TO EXPERT GRAY COME TO FURNISHES THE LINE MESSAGE HADE THESE. 二階單詞近似:雙單詞組合以英語中「期望」(數(shù)學(xué)概念)的頻率出現(xiàn),也就不會(huì)出現(xiàn)「to of」的情況。 舉例:THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISH WRITER THAT THE CHARACTER OF HTIS POINT IS THEREFORE ANOTHER METHOD FOR THE LETTERS THAT THE TIME OF WHO EVER TOLD THE PROBLEM FOR AN UNEXPECTED. 可以看出,隨著階數(shù)的上升,字符串看起來越來越像真正的英語了。所以,這可以說明,訊息可以看成一個(gè)隨機(jī)過程的結(jié)果。 這時(shí),我們就來到的信息論的核心:如何計(jì)量一個(gè)信息的信息量? ———————————————— 四、如何定義一個(gè)信息量的大小?香農(nóng)進(jìn)一步的得出結(jié)論:信息量=不確定性=選擇。 如何理解?以英語為例。英語中的符號有26個(gè)字母,那么每個(gè)2字單詞的生成,實(shí)際上就是在26個(gè)字母中選擇2個(gè)。比如at這個(gè)單詞,就是從26個(gè)字母中先選出a,再從26個(gè)字母中選出t。也就是at這個(gè)單詞,是消除了第一個(gè)字母的26種可能的不確定性,和第二個(gè)字母的26種可能的不確定性。因此,一個(gè)信息的作用,就在于消除我們在不知道這個(gè)信息時(shí)所存在的不確定性。這也就是「信息量=不確定性=選擇」的結(jié)論由來。 香農(nóng)選取了一個(gè)最簡單的情況,就是可能的符號的數(shù)目為2(在英文的情況就是,字母表中只有2個(gè)字母)時(shí),計(jì)算信息量的公式: H = -∑pi log2(pi) 其中pi是指可能訊息出現(xiàn)的概率。比如在一個(gè)2位的字符串「黑桃A」中,第1位字符,可能出現(xiàn)「黑桃」的概率是25%,出現(xiàn)其他花色的概率是75%。則p1(即i=1)為25%。第2位字符,出現(xiàn)A的概率是50%,出現(xiàn)其他數(shù)字「2」(假設(shè)一共只有2個(gè)數(shù)字)的概率為50%。則p2為50%。那么「黑桃A」所代表的信息量 H = - [log2 (25%)+ log2(50%)]= -[(-2)+(-1)]= 3 ,單位是bit。 這里,我們就要碰到一個(gè)新概念:「冗余」。 什么叫冗余呢?舉例來說,「我今天晚上吃了晚飯」這句話中,「晚上」顯然是多余的,刪掉它對表達(dá)這句話的含義沒有任何影響?!竿砩稀乖谶@句話中,就是「冗余」。 英語中存在大量的冗余,比如: if u cn rd ths u cn gt a gd jb w hi pa! 你是不是能讀懂這句話? (If you can read this, you can get a good job with high pay!) 如果一個(gè)字母能夠根據(jù)先前的內(nèi)容猜出來,它就是冗余的;既然它是冗余的,它就沒有提供新的信息。能夠被猜出來=非隨機(jī)。因此,反過來說,隨機(jī)訊息承載了更多的信息量。 所以,很多信息實(shí)際上都存在著冗余,這也就帶來了壓縮的可能。壓縮視頻就是這么來的。在一個(gè)視頻中,鏡頭不可能每一幀都是完全不同的圖片,第23幀和第24幀中的內(nèi)容,必然大部分是相同的,只有小部分的像素點(diǎn)發(fā)生了變化(就好象在鏡頭中,移動(dòng)的是人,而背景是固定不變的)。那么完全分別描述23幀和24幀就存在了大量的冗余,而壓縮的方式,就是把24幀中與23幀不一樣的部分寫入信息,剩下等都同23幀。于是視頻文件就被壓縮了。 ———————————————— 五、信息論與控制論的關(guān)系。這里就要提到另一個(gè)信息學(xué)家——諾伯特·維納。 維納發(fā)明了控制論(cybernetics)。什么是控制論呢? 控制論研究的對象是信息反饋系統(tǒng),我們常說的正反饋、負(fù)反饋就是控制論的內(nèi)容。舉例來說,抽水馬桶就是典型的反饋系統(tǒng)。當(dāng)按下開關(guān)后,水流空后,馬桶開始注水。浮物隨著水面逐漸升高而升高,直到頂住閥門。水面升高到一定程度后,浮物向上頂住閥門,閥門關(guān)閉,便不再注水。也就是說,將水面的高度和注水的開關(guān)相關(guān)聯(lián),以保證不會(huì)溢出。這就是一個(gè)反饋系統(tǒng),即將水面的高度信息反饋給開關(guān)。 抽水馬桶的工作原理 不難看出,控制論也是在討論信息的一門學(xué)問。 ———————————————— 六、信息論與其他學(xué)科的關(guān)系。1 博弈論 在1950年,一次維納、香農(nóng)和馮·諾伊曼共同參加的會(huì)議中,馮·諾伊曼正在發(fā)明博弈論,即在不完全信息的情況下,如果決策的數(shù)學(xué)。 2 生物 DNA轉(zhuǎn)錄成蛋白質(zhì),蛋白質(zhì)構(gòu)成個(gè)各種各樣的生物組織,是典型的信息傳遞。在此基礎(chǔ)上,理查德·道金斯提出了模因(meme)的概念,即文化的傳播。 3 物理 事實(shí)上,香農(nóng)的信息論的思路來源,恰恰是物理學(xué)中研究隨機(jī)過程的方法論和術(shù)語。而信息論中不確定性的概念,也就是所謂的「信息熵」。 熵這個(gè)物理學(xué)概念在此不做過多解釋,簡單而言,就是概率在物理學(xué)熵的等價(jià)物。在定義中,物質(zhì)按照有序狀態(tài)存在的概率很低,(比如墨水中墨集中在一側(cè),水集中在另一側(cè)),因而其熵也很低。 熵與信息有什么關(guān)系呢?試想,我們將一群人混在一起。此時(shí),他們混亂的站立,他們的熵很高。我們想把所有男性放在左側(cè),女性放在右側(cè),達(dá)到一種熵低的狀態(tài),此時(shí)就需要有人進(jìn)行篩選,就需要信息。這個(gè)篩選的人,在物理上稱為「麥克斯韋爾妖」(Demon)。在小明走到麥克斯韋爾妖面前時(shí),麥克斯韋爾怎么確定小明應(yīng)該去左側(cè)還是去右側(cè)呢?這時(shí)候,就需要輸入信息,即小明是男還是女。這,就將信息論與物理聯(lián)系在一起。 4 語言學(xué) 語言本身就是人類用以傳遞信息的工具。香農(nóng)的研究正好是與語言學(xué)家愛德華·薩丕爾的研究相關(guān)。只不過,香農(nóng)走了更有形的道路。 ———————————————— 七、隨機(jī)信息論重新定義了隨機(jī)的概念。它的推導(dǎo)過程如下: 我們僅考慮數(shù)學(xué)層面,我們?nèi)绾味x一個(gè)數(shù)字是隨機(jī)的?比如,0000,顯然不像是一個(gè)隨機(jī)的,但是010101,也不像。為什么呢?因?yàn)樗麄兌寄撤N「模式」。比如,「0000」,可以描述為「4個(gè)0」,而「010101」,可以描述為「3個(gè)01」.在「4個(gè)0」和「0000」包含的信息量相同(如我們前文所述),而從字符上,「4個(gè)0」比「0000」少一個(gè)字符。也就是說,「0000」可以被更簡單的模式表述,這樣的數(shù),就不能叫隨機(jī)數(shù)。所以,隨機(jī),指的是不能用算法(即模式)更簡單表達(dá)的數(shù)。比如說「π」,雖然是無線不循環(huán)的無理數(shù),看似不能用「4個(gè)0」這種方式描述。但是,我們可以用一個(gè)定義好的計(jì)算機(jī)程序算出「π」,也就是說「π」是可計(jì)算的,因此,「π」不是隨機(jī)數(shù)。 結(jié)合我們前面的概念,可以發(fā)現(xiàn),隨機(jī)數(shù)是沒有冗余的,也不可能被壓縮。 BTW,這里還有一個(gè)概念,叫「正規(guī)隨機(jī)序列」:從長期平均情況來看,每個(gè)數(shù)字都與其他數(shù)字一樣常見,出現(xiàn)概率為十分之一;同時(shí),每兩個(gè)數(shù)字出現(xiàn)的概率都是百分之一;每三個(gè)數(shù)字等以此類推。π就是一個(gè)正規(guī)數(shù)。 ———————————————— 八、余我基本忽略了前面精彩的非洲鼓的故事,原因在于,作為一個(gè)語言學(xué)出身的人,這部分知識(語素、信息、語法結(jié)構(gòu)的關(guān)系)早已熟悉,讀起來沒什么收獲,也就沒啥可寫的。 雖然我標(biāo)題寫的是「信息論的入門」,但實(shí)際上,讀完這本書離入門還有十萬八千里。這本書能讓你明白,為什么信息論的所有教材都是鋪天蓋地的數(shù)學(xué),明白為什么有的人說信息論是一門純應(yīng)用數(shù)學(xué)的學(xué)科。 最后想說的是,作者每一章后面都有幾十個(gè)腳注,足見其用心與演進(jìn)。這本書不是國內(nèi)那些張口就來的認(rèn)知升級,而是一個(gè)誠懇的作家7年的嘔心之作,值得一讀。
|
|