機(jī)器學(xué)習(xí)的分類與主要算法對(duì)比

timtxu 2017-06-02

展開全文

重要引用： Andrew Ng Courera Machine Learning；從機(jī)器學(xué)習(xí)談起；關(guān)于機(jī)器學(xué)習(xí)的討論；機(jī)器學(xué)習(xí)常見算法分類匯總； LeNet Homepage； pluskid svm

首先讓我們瞻仰一下當(dāng)今機(jī)器學(xué)習(xí)領(lǐng)域的執(zhí)牛耳者：

這幅圖上的三人是當(dāng)今機(jī)器學(xué)習(xí)界的執(zhí)牛耳者。中間的是Geoffrey Hinton, 加拿大多倫多大學(xué)的教授，如今被聘為“Google大腦”的負(fù)責(zé)人。右邊的是Yann LeCun, 紐約大學(xué)教授，如今是Facebook人工智能實(shí)驗(yàn)室的主任。而左邊的大家都很熟悉，Andrew Ng，中文名吳恩達(dá)，斯坦福大學(xué)副教授，如今也是“百度大腦”的負(fù)責(zé)人與百度首席科學(xué)家。這三位都是目前業(yè)界炙手可熱的大牛，被互聯(lián)網(wǎng)界大鱷求賢若渴的聘請(qǐng)，足見他們的重要性。而他們的研究方向，則全部都是機(jī)器學(xué)習(xí)的子類–深度學(xué)習(xí)。

從廣義上來說，機(jī)器學(xué)習(xí)是一種能夠賦予機(jī)器學(xué)習(xí)的能力以此讓它完成直接編程無法完成的功能的方法。但從實(shí)踐的意義上來說，機(jī)器學(xué)習(xí)是一種通過利用數(shù)據(jù)，訓(xùn)練出模型，然后使用模型預(yù)測(cè)的一種方法。

機(jī)器學(xué)習(xí)無疑是當(dāng)前數(shù)據(jù)分析領(lǐng)域的一個(gè)熱點(diǎn)內(nèi)容。很多人在平時(shí)的工作中都或多或少會(huì)用到機(jī)器學(xué)習(xí)的算法。從范圍上來說，機(jī)器學(xué)習(xí)跟模式識(shí)別，統(tǒng)計(jì)學(xué)習(xí)，數(shù)據(jù)挖掘是類似的，同時(shí)，機(jī)器學(xué)習(xí)與其他領(lǐng)域的處理技術(shù)的結(jié)合，形成了計(jì)算機(jī)視覺、語音識(shí)別、自然語言處理等交叉學(xué)科。因此，一般說數(shù)據(jù)挖掘時(shí)，可以等同于說機(jī)器學(xué)習(xí)。同時(shí)，我們平常所說的機(jī)器學(xué)習(xí)應(yīng)用，應(yīng)該是通用的，不僅僅局限在結(jié)構(gòu)化數(shù)據(jù)，還有圖像，音頻等應(yīng)用。

機(jī)器學(xué)習(xí)的算法很多。很多時(shí)候困惑人們都是，很多算法是一類算法，而有些算法又是從其他算法中延伸出來的。這里，我們從兩個(gè)方面來給大家介紹，第一個(gè)方面是學(xué)習(xí)的方式，第二個(gè)方面是算法的類似性。

一、機(jī)器學(xué)習(xí)方式

根據(jù)數(shù)據(jù)類型的不同，對(duì)一個(gè)問題的建模有不同的方式。在機(jī)器學(xué)習(xí)或者人工智能領(lǐng)域，人們首先會(huì)考慮算法的學(xué)習(xí)方式。在機(jī)器學(xué)習(xí)領(lǐng)域，有幾種主要的學(xué)習(xí)方式。將算法按照學(xué)習(xí)方式分類是一個(gè)不錯(cuò)的想法，這樣可以讓人們?cè)诮：退惴ㄟx擇的時(shí)候考慮能根據(jù)輸入數(shù)據(jù)來選擇最合適的算法來獲得最好的結(jié)果。

1.1 監(jiān)督學(xué)習(xí)

在監(jiān)督式學(xué)習(xí)下，輸入數(shù)據(jù)被稱為“訓(xùn)練數(shù)據(jù)”，每組訓(xùn)練數(shù)據(jù)有一個(gè)明確的標(biāo)識(shí)或結(jié)果，如對(duì)防垃圾郵件系統(tǒng)中“垃圾郵件”“非垃圾郵件”，對(duì)手寫數(shù)字識(shí)別中的“1“，”2“，”3“，”4“等。在建立預(yù)測(cè)模型的時(shí)候，監(jiān)督式學(xué)習(xí)建立一個(gè)學(xué)習(xí)過程，將預(yù)測(cè)結(jié)果與“訓(xùn)練數(shù)據(jù)”的實(shí)際結(jié)果進(jìn)行比較，不斷的調(diào)整預(yù)測(cè)模型，直到模型的預(yù)測(cè)結(jié)果達(dá)到一個(gè)預(yù)期的準(zhǔn)確率。監(jiān)督式學(xué)習(xí)的常見應(yīng)用場(chǎng)景如分類問題和回歸問題。常見算法有邏輯回歸（Logistic Regression）和反向傳遞神經(jīng)網(wǎng)絡(luò)（Back Propagation Neural Network）

1.2 無監(jiān)督學(xué)習(xí)

在非監(jiān)督式學(xué)習(xí)中，數(shù)據(jù)并不被特別標(biāo)識(shí)，學(xué)習(xí)模型是為了推斷出數(shù)據(jù)的一些內(nèi)在結(jié)構(gòu)。常見的應(yīng)用場(chǎng)景包括關(guān)聯(lián)規(guī)則的學(xué)習(xí)以及聚類等。常見算法包括Apriori算法以及k-Means算法。

1.3 半監(jiān)督學(xué)習(xí)

在此學(xué)習(xí)方式下，輸入數(shù)據(jù)部分被標(biāo)識(shí)，部分沒有被標(biāo)識(shí)，這種學(xué)習(xí)模型可以用來進(jìn)行預(yù)測(cè)，但是模型首先需要學(xué)習(xí)數(shù)據(jù)的內(nèi)在結(jié)構(gòu)以便合理的組織數(shù)據(jù)來進(jìn)行預(yù)測(cè)。應(yīng)用場(chǎng)景包括分類和回歸，算法包括一些對(duì)常用監(jiān)督式學(xué)習(xí)算法的延伸，這些算法首先試圖對(duì)未標(biāo)識(shí)數(shù)據(jù)進(jìn)行建模，在此基礎(chǔ)上再對(duì)標(biāo)識(shí)的數(shù)據(jù)進(jìn)行預(yù)測(cè)。如圖論推理算法（Graph Inference）或者拉普拉斯支持向量機(jī)（Laplacian SVM.）等。

1.4 強(qiáng)化學(xué)習(xí)

在這種學(xué)習(xí)模式下，輸入數(shù)據(jù)作為對(duì)模型的反饋，不像監(jiān)督模型那樣，輸入數(shù)據(jù)僅僅是作為一個(gè)檢查模型對(duì)錯(cuò)的方式，在強(qiáng)化學(xué)習(xí)下，輸入數(shù)據(jù)直接反饋到模型，模型必須對(duì)此立刻作出調(diào)整。常見的應(yīng)用場(chǎng)景包括動(dòng)態(tài)系統(tǒng)以及機(jī)器人控制等。常見算法包括Q-Learning以及時(shí)間差學(xué)習(xí)（Temporal difference learning）

二、機(jī)器學(xué)習(xí)常用算法

根據(jù)算法的功能和形式的類似性，我們可以把算法分類，比如說基于樹的算法，基于神經(jīng)網(wǎng)絡(luò)的算法等等。當(dāng)然，機(jī)器學(xué)習(xí)的范圍非常龐大，有些算法很難明確歸類到某一類。而對(duì)于有些分類來說，同一分類的算法可以針對(duì)不同類型的問題。這里，我們盡量把常用的算法按照最容易理解的方式進(jìn)行分類。

2.1 回歸算法（有監(jiān)督學(xué)習(xí)）

在大部分機(jī)器學(xué)習(xí)課程中，回歸算法都是介紹的第一個(gè)算法。原因有兩個(gè)：一.回歸算法比較簡(jiǎn)單，介紹它可以讓人平滑地從統(tǒng)計(jì)學(xué)遷移到機(jī)器學(xué)習(xí)中。二.回歸算法是后面若干強(qiáng)大算法的基石，如果不理解回歸算法，無法學(xué)習(xí)那些強(qiáng)大的算法?；貧w算法有兩個(gè)重要的子類：即線性回歸和邏輯回歸。

回歸算法是試圖采用對(duì)誤差的衡量來探索變量之間的關(guān)系的一類算法。回歸算法是統(tǒng)計(jì)機(jī)器學(xué)習(xí)的利器。在機(jī)器學(xué)習(xí)領(lǐng)域，人們說起回歸，有時(shí)候是指一類問題，有時(shí)候是指一類算法，這一點(diǎn)常常會(huì)使初學(xué)者有所困惑。常見的回歸算法包括：最小二乘法（Ordinary Least Square），邏輯回歸（Logistic Regression），逐步式回歸（Stepwise Regression），多元自適應(yīng)回歸樣條（Multivariate Adaptive Regression Splines）以及本地散點(diǎn)平滑估計(jì)（Locally Estimated Scatterplot Smoothing）

線性回歸就是如何擬合出一條直線最佳匹配我所有的數(shù)據(jù)？一般使用“最小二乘法”來求解?！白钚《朔ā钡乃枷胧沁@樣的，假設(shè)我們擬合出的直線代表數(shù)據(jù)的真實(shí)值，而觀測(cè)到的數(shù)據(jù)代表擁有誤差的值。為了盡可能減小誤差的影響，需要求解一條直線使所有誤差的平方和最小。最小二乘法將最優(yōu)問題轉(zhuǎn)化為求函數(shù)極值問題。函數(shù)極值在數(shù)學(xué)上我們一般會(huì)采用求導(dǎo)數(shù)為0的方法。但這種做法并不適合計(jì)算機(jī)，可能求解不出來，也可能計(jì)算量太大。

邏輯回歸是一種與線性回歸非常類似的算法，但是，從本質(zhì)上講，線型回歸處理的問題類型與邏輯回歸不一致。線性回歸處理的是數(shù)值問題，也就是最后預(yù)測(cè)出的結(jié)果是數(shù)字，例如房?jī)r(jià)。而邏輯回歸屬于分類算法，也就是說，邏輯回歸預(yù)測(cè)結(jié)果是離散的分類，例如判斷這封郵件是否是垃圾郵件，以及用戶是否會(huì)點(diǎn)擊此廣告等等。

實(shí)現(xiàn)方面的話，邏輯回歸只是對(duì)對(duì)線性回歸的計(jì)算結(jié)果加上了一個(gè)Sigmoid函數(shù)，將數(shù)值結(jié)果轉(zhuǎn)化為了0到1之間的概率(Sigmoid函數(shù)的圖像一般來說并不直觀，你只需要理解對(duì)數(shù)值越大，函數(shù)越逼近1，數(shù)值越小，函數(shù)越逼近0)，接著我們根據(jù)這個(gè)概率可以做預(yù)測(cè)，例如概率大于0.5，則這封郵件就是垃圾郵件，或者腫瘤是否是惡性的等等。從直觀上來說，邏輯回歸是畫出了一條分類線，邏輯回歸算法劃出的分類線基本都是線性的(也有劃出非線性分類線的邏輯回歸，不過那樣的模型在處理數(shù)據(jù)量較大的時(shí)候效率會(huì)很低)。

2.2 正則化方法

正則化方法是其他算法（通常是回歸算法）的延伸，根據(jù)算法的復(fù)雜度對(duì)算法進(jìn)行調(diào)整。正則化方法通常對(duì)簡(jiǎn)單模型予以獎(jiǎng)勵(lì)而對(duì)復(fù)雜算法予以懲罰。常見的算法包括：Ridge Regression， Least Absolute Shrinkage and Selection Operator（LASSO），以及彈性網(wǎng)絡(luò)（Elastic Net）。

2.3 基于實(shí)例的算法

基于實(shí)例的算法常常用來對(duì)決策問題建立模型，這樣的模型常常先選取一批樣本數(shù)據(jù)，然后根據(jù)某些近似性把新數(shù)據(jù)與樣本數(shù)據(jù)進(jìn)行比較。通過這種方式來尋找最佳的匹配。因此，基于實(shí)例的算法常常也被稱為“贏家通吃”學(xué)習(xí)或者“基于記憶的學(xué)習(xí)”。常見的算法包括 k-Nearest Neighbor(KNN), 學(xué)習(xí)矢量量化（Learning Vector Quantization， LVQ），以及自組織映射算法（Self-Organizing Map ， SOM）

2.4 決策樹算法

決策樹算法根據(jù)數(shù)據(jù)的屬性采用樹狀結(jié)構(gòu)建立決策模型，決策樹模型常常用來解決分類和回歸問題。常見的算法包括：分類及回歸樹（Classification And Regression Tree， CART）， ID3 (Iterative Dichotomiser 3)， C4.5， Chi-squared Automatic Interaction Detection(CHAID), Decision Stump, 隨機(jī)森林（Random Forest），多元自適應(yīng)回歸樣條（MARS）以及梯度推進(jìn)機(jī)（Gradient Boosting Machine， GBM）

一般的機(jī)器學(xué)習(xí)模型至少考慮兩個(gè)量：一個(gè)是因變量，也就是我們希望預(yù)測(cè)的結(jié)果，在這個(gè)例子里就是小Y遲到與否的判斷。另一個(gè)是自變量，也就是用來預(yù)測(cè)小Y是否遲到的量。假設(shè)我把時(shí)間作為自變量，譬如我發(fā)現(xiàn)小Y所有遲到的日子基本都是星期五，而在非星期五情況下他基本不遲到。于是我可以建立一個(gè)模型，來模擬小Y遲到與否跟日子是否是星期五的概率。見下圖：

這樣的圖就是一個(gè)最簡(jiǎn)單的機(jī)器學(xué)習(xí)模型，稱之為決策樹。

當(dāng)我們考慮的自變量只有一個(gè)時(shí)，情況較為簡(jiǎn)單。如果把我們的自變量再增加一個(gè)。例如小Y遲到的部分情況時(shí)是在他開車過來的時(shí)候(你可以理解為他開車水平較臭，或者路較堵)。于是我可以關(guān)聯(lián)考慮這些信息。建立一個(gè)更復(fù)雜的模型，這個(gè)模型包含兩個(gè)自變量與一個(gè)因變量。再更復(fù)雜一點(diǎn)，小Y的遲到跟天氣也有一定的原因，例如下雨的時(shí)候，這時(shí)候我需要考慮三個(gè)自變量。

如果我希望能夠預(yù)測(cè)小Y遲到的具體時(shí)間，我可以把他每次遲到的時(shí)間跟雨量的大小以及前面考慮的自變量統(tǒng)一建立一個(gè)模型。于是我的模型可以預(yù)測(cè)值，例如他大概會(huì)遲到幾分鐘。這樣可以幫助我更好的規(guī)劃我出門的時(shí)間。在這樣的情況下，決策樹就無法很好地支撐了，因?yàn)闆Q策樹只能預(yù)測(cè)離散值。我們可以用線型回歸方法建立這個(gè)模型。

如果我把這些建立模型的過程交給電腦。比如把所有的自變量和因變量輸入，然后讓計(jì)算機(jī)幫我生成一個(gè)模型，同時(shí)讓計(jì)算機(jī)根據(jù)我當(dāng)前的情況，給出我是否需要遲出門，需要遲幾分鐘的建議。那么計(jì)算機(jī)執(zhí)行這些輔助決策的過程就是機(jī)器學(xué)習(xí)的過程。

2.5 貝葉斯方法

貝葉斯方法算法是基于貝葉斯定理的一類算法，主要用來解決分類和回歸問題。常見算法包括：樸素貝葉斯算法，平均單依賴估計(jì)（Averaged One-Dependence Estimators， AODE），以及Bayesian Belief Network（BBN）。

2.6 基于核的算法（有監(jiān)督學(xué)習(xí)）

基于核的算法中最著名的莫過于支持向量機(jī)（SVM）了。基于核的算法把輸入數(shù)據(jù)映射到一個(gè)高階的向量空間，在這些高階向量空間里，有些分類或者回歸問題能夠更容易的解決。常見的基于核的算法包括：支持向量機(jī)（Support Vector Machine， SVM），徑向基函數(shù)（Radial Basis Function ，RBF)，以及線性判別分析（Linear Discriminate Analysis ，LDA)等。接下來將重點(diǎn)介紹一下SVM

· 支持向量機(jī) SVM

支持向量機(jī)算法是誕生于統(tǒng)計(jì)學(xué)習(xí)界，同時(shí)在機(jī)器學(xué)習(xí)界大放光彩的經(jīng)典算法。

支持向量機(jī)算法從某種意義上來說是邏輯回歸算法的強(qiáng)化：通過給予邏輯回歸算法更嚴(yán)格的優(yōu)化條件，支持向量機(jī)算法可以獲得比邏輯回歸更好的分類界線。但是如果沒有某類函數(shù)技術(shù)，則支持向量機(jī)算法最多算是一種更好的線性分類技術(shù)。

但是，通過跟高斯“核”的結(jié)合，支持向量機(jī)可以表達(dá)出非常復(fù)雜的分類界線，從而達(dá)成很好的的分類效果?！昂恕笔聦?shí)上就是一種特殊的函數(shù)，最典型的特征就是可以將低維的空間映射到高維的空間。

SVM方法是通過一個(gè)非線性映射p，把樣本空間映射到一個(gè)高維乃至無窮維的特征空間中（Hilber空間），使得在原來的樣本空間中非線性可分的問題轉(zhuǎn)化為在特征空間中的線性可分的問題。升維，就是把樣本向高維空間做映射，一般情況下這會(huì)增加計(jì)算的復(fù)雜性，甚至?xí)稹熬S數(shù)災(zāi)難”，因而人們很少問津。但是作為分類、回歸等問題來說，很可能在低維樣本空間無法線性處理的樣本集，在高維特征空間中卻可以通過一個(gè)線性超平面實(shí)現(xiàn)線性劃分（或回歸）。一般的升維都會(huì)帶來計(jì)算的復(fù)雜化，SVM方法巧妙地解決了這個(gè)難題：應(yīng)用核函數(shù)的展開定理，就不需要知道非線性映射的顯式表達(dá)式；由于是在高維特征空間中建立線性學(xué)習(xí)機(jī)，所以與線性模型相比，不但幾乎不增加計(jì)算的復(fù)雜性，而且在某種程度上避免了“維數(shù)災(zāi)難”．這一切要?dú)w功于核函數(shù)的展開和計(jì)算理論。

選擇不同的核函數(shù)，可以生成不同的SVM，常用的核函數(shù)有以下4種：
- 性核函數(shù)K(x,y)=x·y
- 多項(xiàng)式核函數(shù)K(x,y)=[(x·y)+1]d
- 向基函數(shù)K(x,y)=exp(-|x-y|^2/d^2）
- 層神經(jīng)網(wǎng)絡(luò)核函數(shù)K(x,y)=tanh(a(x·y)+b）

如下圖所示，我們?nèi)绾卧诙S平面劃分出一個(gè)圓形的分類界線？在二維平面可能會(huì)很困難，但是通過“核”可以將二維空間映射到三維空間，然后使用一個(gè)線性平面就可以達(dá)成類似效果。也就是說，二維平面劃分出的非線性分類界線可以等價(jià)于三維平面的線性分類界線。于是，我們可以通過在三維空間中進(jìn)行簡(jiǎn)單的線性劃分就可以達(dá)到在二維平面中的非線性劃分效果。

播放GIF

支持向量機(jī)是一種數(shù)學(xué)成分很濃的機(jī)器學(xué)習(xí)算法（相對(duì)的，神經(jīng)網(wǎng)絡(luò)則有生物科學(xué)成分）。在算法的核心步驟中，有一步證明，即將數(shù)據(jù)從低維映射到高維不會(huì)帶來最后計(jì)算復(fù)雜性的提升。于是，通過支持向量機(jī)算法，既可以保持計(jì)算效率，又可以獲得非常好的分類效果。因此支持向量機(jī)在90年代后期一直占據(jù)著機(jī)器學(xué)習(xí)中最核心的地位，基本取代了神經(jīng)網(wǎng)絡(luò)算法。直到現(xiàn)在神經(jīng)網(wǎng)絡(luò)借著深度學(xué)習(xí)重新興起，兩者之間才又發(fā)生了微妙的平衡轉(zhuǎn)變。

2.7 聚類算法（無監(jiān)督學(xué)習(xí)）

聚類，就像回歸一樣，有時(shí)候人們描述的是一類問題，有時(shí)候描述的是一類算法。聚類算法通常按照中心點(diǎn)或者分層的方式對(duì)輸入數(shù)據(jù)進(jìn)行歸并。簡(jiǎn)單來說，聚類算法就是計(jì)算種群中的距離，根據(jù)距離的遠(yuǎn)近將數(shù)據(jù)劃分為多個(gè)族群，所以的聚類算法都試圖找到數(shù)據(jù)的內(nèi)在結(jié)構(gòu)，以便按照最大的共同點(diǎn)將數(shù)據(jù)進(jìn)行歸類。常見的聚類算法包括 k-Means算法以及期望最大化算法（Expectation Maximization， EM）。

2.8 關(guān)聯(lián)規(guī)則學(xué)習(xí)

關(guān)聯(lián)規(guī)則學(xué)習(xí)通過尋找最能夠解釋數(shù)據(jù)變量之間關(guān)系的規(guī)則，來找出大量多元數(shù)據(jù)集中有用的關(guān)聯(lián)規(guī)則。常見算法包括 Apriori算法和Eclat算法等。

2.9 人工神經(jīng)網(wǎng)絡(luò) ANN（有監(jiān)督學(xué)習(xí)）

神經(jīng)網(wǎng)絡(luò)(也稱之為人工神經(jīng)網(wǎng)絡(luò)，ANN)算法是80年代機(jī)器學(xué)習(xí)界非常流行的算法，不過在90年代中途衰落?，F(xiàn)在，攜著“深度學(xué)習(xí)”之勢(shì)，神經(jīng)網(wǎng)絡(luò)重裝歸來，重新成為最強(qiáng)大的機(jī)器學(xué)習(xí)算法之一。

神經(jīng)網(wǎng)絡(luò)的誕生起源于對(duì)大腦工作機(jī)理的研究。早期生物界學(xué)者們使用神經(jīng)網(wǎng)絡(luò)來模擬大腦。機(jī)器學(xué)習(xí)的學(xué)者們使用神經(jīng)網(wǎng)絡(luò)進(jìn)行機(jī)器學(xué)習(xí)的實(shí)驗(yàn)，發(fā)現(xiàn)在視覺與語音的識(shí)別上效果都相當(dāng)好。在BP算法(加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程的數(shù)值算法)誕生以后，神經(jīng)網(wǎng)絡(luò)的發(fā)展進(jìn)入了一個(gè)熱潮。BP算法的發(fā)明人之一是前面介紹的機(jī)器學(xué)習(xí)大牛Geoffrey Hinton。

人工神經(jīng)網(wǎng)絡(luò)是機(jī)器學(xué)習(xí)的一個(gè)龐大的分支，有幾百種不同的算法，通常用于解決分類和回歸問題。（其中深度學(xué)習(xí)就是其中的一類算法，我們會(huì)單獨(dú)討論），重要的人工神經(jīng)網(wǎng)絡(luò)算法包括：感知器神經(jīng)網(wǎng)絡(luò)（Perceptron Neural Network）, 反向傳遞（Back Propagation），Hopfield網(wǎng)絡(luò)，自組織映射（Self-Organizing Map, SOM）。學(xué)習(xí)矢量量化（Learning Vector Quantization， LVQ）

具體說來，神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)機(jī)理是什么？簡(jiǎn)單來說，就是分解與整合。在著名的Hubel-Wiesel試驗(yàn)中，學(xué)者們研究貓的視覺分析機(jī)理是這樣的。

比方說，一個(gè)正方形，分解為四個(gè)折線進(jìn)入視覺處理的下一層中。四個(gè)神經(jīng)元分別處理一個(gè)折線。每個(gè)折線再繼續(xù)被分解為兩條直線，每條直線再被分解為黑白兩個(gè)面。于是，一個(gè)復(fù)雜的圖像變成了大量的細(xì)節(jié)進(jìn)入神經(jīng)元，神經(jīng)元處理以后再進(jìn)行整合，最后得出了看到的是正方形的結(jié)論。這就是大腦視覺識(shí)別的機(jī)理，也是神經(jīng)網(wǎng)絡(luò)工作的機(jī)理。

讓我們看一個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)的邏輯架構(gòu)。在這個(gè)網(wǎng)絡(luò)中，分成輸入層，隱藏層，和輸出層。輸入層負(fù)責(zé)接收信號(hào)，隱藏層負(fù)責(zé)對(duì)數(shù)據(jù)的分解與處理，最后的結(jié)果被整合到輸出層。每層中的一個(gè)圓代表一個(gè)處理單元，可以認(rèn)為是模擬了一個(gè)神經(jīng)元，若干個(gè)處理單元組成了一個(gè)層，若干個(gè)層再組成了一個(gè)網(wǎng)絡(luò)，也就是”神經(jīng)網(wǎng)絡(luò)”。

上圖描述的是一個(gè)目前研究最為成熟Shallow 結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)（只含有單層隱藏層神經(jīng)元的結(jié)構(gòu)）。第一層為輸入層 (input layer )，第二層稱為隱藏層 ( hidden layer )，最后一層為輸出層( output layer )。神經(jīng)元之間都是由低層出發(fā)，終止于高層神經(jīng)元的一條有向邊進(jìn)行連接，每條邊都有自己的權(quán)重。每個(gè)神經(jīng)元都是一個(gè)計(jì)算單元，如在Feed-forward neural network 中，除輸入層神經(jīng)元外，每個(gè)神經(jīng)元為一個(gè)計(jì)算單元，可以通過一個(gè)計(jì)算函數(shù) f 來表示，函數(shù)的具體形式可以自己定義，現(xiàn)在用的較多的是感知器計(jì)算神經(jīng)元，如果你對(duì)感知器有所了解的話，理解起來會(huì)容易很多。可以計(jì)算此時(shí)神經(jīng)元所具有的能量值，當(dāng)該值超過一定閥值的時(shí)候神經(jīng)元的狀態(tài)就會(huì)發(fā)生改變，神經(jīng)元只有兩種狀態(tài)，激活或未激活。在實(shí)際的人工神經(jīng)網(wǎng)絡(luò)中，一般是用一種概率的方式去表示神經(jīng)元是否處于激活狀態(tài)，可以用 h(f) 來表示，f 代表神經(jīng)元的能量值，h(f) 代表該能量值使得神經(jīng)元的狀態(tài)發(fā)生改變的概率有多大，能量值越大，處于激活狀態(tài)的概率就越高。到這部分你已經(jīng)接觸到了關(guān)于神經(jīng)網(wǎng)絡(luò)的幾個(gè)基本術(shù)語，下面用更加規(guī)范的符號(hào)來表示，神經(jīng)元的激活值(activations) f ，表示計(jì)算神經(jīng)元的能量值, 神經(jīng)元的激活狀態(tài) h(f) ，h 表示激活函數(shù)。

在神經(jīng)網(wǎng)絡(luò)中，每個(gè)處理單元事實(shí)上就是一個(gè)邏輯回歸模型，邏輯回歸模型接收上層的輸入，把模型的預(yù)測(cè)結(jié)果作為輸出傳輸?shù)较乱粋€(gè)層次。通過這樣的過程，神經(jīng)網(wǎng)絡(luò)可以完成非常復(fù)雜的非線性分類。

下圖會(huì)演示神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別領(lǐng)域的一個(gè)著名應(yīng)用，這個(gè)程序叫做LeNet，是一個(gè)基于多個(gè)隱層構(gòu)建的神經(jīng)網(wǎng)絡(luò)。通過LeNet可以識(shí)別多種手寫數(shù)字，并且達(dá)到很高的識(shí)別精度與擁有較好的魯棒性。

播放GIF

右下方的方形中顯示的是輸入計(jì)算機(jī)的圖像，方形上方的紅色字樣“answer”后面顯示的是計(jì)算機(jī)的輸出。左邊的三條豎直的圖像列顯示的是神經(jīng)網(wǎng)絡(luò)中三個(gè)隱藏層的輸出，可以看出，隨著層次的不斷深入，越深的層次處理的細(xì)節(jié)越低，例如層3基本處理的都已經(jīng)是線的細(xì)節(jié)了。LeNet的發(fā)明人就是前文介紹過的機(jī)器學(xué)習(xí)的大牛Yann LeCun。

大約二三十年前，Neural Network曾經(jīng)是ML領(lǐng)域特別火熱的一個(gè)方向，但是后來確慢慢淡出了，進(jìn)入90年代，神經(jīng)網(wǎng)絡(luò)的發(fā)展進(jìn)入了一個(gè)瓶頸期。其主要原因是盡管有BP算法的加速，神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程仍然很困難。因此90年代后期支持向量機(jī)(SVM)算法取代了神經(jīng)網(wǎng)絡(luò)的地位。

原因包括以下幾個(gè)方面：
1. 比較容易過訓(xùn)練，參數(shù)比較難確定；
2. 訓(xùn)練速度比較慢，在層次比較少(小于等于3)的情況下效果并不比其它方法更優(yōu)；

所以中間有大約20多年的時(shí)間，神經(jīng)網(wǎng)絡(luò)被關(guān)注很少，這段時(shí)間基本上由SVM和Boosting算法主導(dǎo)。但是，Hinton堅(jiān)持下來并最終（和Bengio、Yann.lecun等）提成了一個(gè)實(shí)際可行的Deep Learning框架。

2.10 深度學(xué)習(xí)

雖然深度學(xué)習(xí)這四字聽起來頗為高大上，但其理念卻非常簡(jiǎn)單，就是傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)發(fā)展到了多隱藏層的情況。

在上文介紹過，自從90年代以后，神經(jīng)網(wǎng)絡(luò)已經(jīng)消寂了一段時(shí)間。但是BP算法的發(fā)明人Geoffrey Hinton一直沒有放棄對(duì)神經(jīng)網(wǎng)絡(luò)的研究。由于神經(jīng)網(wǎng)絡(luò)在隱藏層擴(kuò)大到兩個(gè)以上，其訓(xùn)練速度就會(huì)非常慢，因此實(shí)用性一直低于支持向量機(jī)。2006年，Geoffrey Hinton在科學(xué)雜志《Science》上發(fā)表了一篇文章，論證了兩個(gè)觀點(diǎn)：

1.多隱層的神經(jīng)網(wǎng)絡(luò)具有優(yōu)異的特征學(xué)習(xí)能力，學(xué)習(xí)得到的特征對(duì)數(shù)據(jù)有更本質(zhì)的刻畫，從而有利于可視化或分類；
2.深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練上的難度，可以通過“逐層初始化” 來有效克服。

通過這樣的發(fā)現(xiàn)，不僅解決了神經(jīng)網(wǎng)絡(luò)在計(jì)算上的難度，同時(shí)也說明了深層神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)上的優(yōu)異性。從此，神經(jīng)網(wǎng)絡(luò)重新成為了機(jī)器學(xué)習(xí)界中的主流強(qiáng)大學(xué)習(xí)技術(shù)。同時(shí)，具有多個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò)被稱為深度神經(jīng)網(wǎng)絡(luò)，基于深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)研究稱之為深度學(xué)習(xí)。

由于深度學(xué)習(xí)的重要性質(zhì)，在各方面都取得極大的關(guān)注，按照時(shí)間軸排序，有以下四個(gè)標(biāo)志性事件值得一說：

1. 2012年6月，《紐約時(shí)報(bào)》披露了Google Brain項(xiàng)目，這個(gè)項(xiàng)目是由Andrew Ng和Map-Reduce發(fā)明人Jeff Dean共同主導(dǎo)，用16000個(gè)CPU Core的并行計(jì)算平臺(tái)訓(xùn)練一種稱為“深層神經(jīng)網(wǎng)絡(luò)”的機(jī)器學(xué)習(xí)模型，在語音識(shí)別和圖像識(shí)別等領(lǐng)域獲得了巨大的成功。Andrew Ng就是文章開始所介紹的機(jī)器學(xué)習(xí)的大牛。
2. 2012年11月，微軟在中國(guó)天津的一次活動(dòng)上公開演示了一個(gè)全自動(dòng)的同聲傳譯系統(tǒng)，講演者用英文演講，后臺(tái)的計(jì)算機(jī)一氣呵成自動(dòng)完成語音識(shí)別、英中機(jī)器翻譯，以及中文語音合成，效果非常流暢，其中支撐的關(guān)鍵技術(shù)是深度學(xué)習(xí)；
3. 2013年1月，在百度的年會(huì)上，創(chuàng)始人兼CEO李彥宏高調(diào)宣布要成立百度研究院，其中第一個(gè)重點(diǎn)方向就是深度學(xué)習(xí)，并為此而成立深度學(xué)習(xí)研究院(IDL)。
4. 2013年4月，《麻省理工學(xué)院技術(shù)評(píng)論》雜志將深度學(xué)習(xí)列為2013年十大突破性技術(shù)(Breakthrough Technology)之首。

神經(jīng)網(wǎng)絡(luò)研究領(lǐng)域領(lǐng)軍者Hinton在2006年提出了神經(jīng)網(wǎng)絡(luò)Deep Learning算法，使神經(jīng)網(wǎng)絡(luò)的能力大大提高，向支持向量機(jī)發(fā)出挑戰(zhàn)。Deep Learning假設(shè)神經(jīng)網(wǎng)絡(luò)是多層的，首先用RestrictedBoltzmann Machine（非監(jiān)督學(xué)習(xí)）學(xué)習(xí)網(wǎng)絡(luò)的結(jié)構(gòu)，然后再通過Back Propagation（監(jiān)督學(xué)習(xí)）學(xué)習(xí)網(wǎng)絡(luò)的權(quán)值。

深度學(xué)習(xí)算法是對(duì)人工神經(jīng)網(wǎng)絡(luò)的發(fā)展。在近期贏得了很多關(guān)注，深度學(xué)習(xí)試圖建立大得多也復(fù)雜得多的神經(jīng)網(wǎng)絡(luò)。很多深度學(xué)習(xí)的算法是半監(jiān)督式學(xué)習(xí)算法，用來處理存在少量未標(biāo)識(shí)數(shù)據(jù)的大數(shù)據(jù)集。常見的深度學(xué)習(xí)算法包括：受限波爾茲曼機(jī)（Restricted Boltzmann Machine， RBN）， Deep Belief Networks（DBN），卷積網(wǎng)絡(luò)（Convolutional Network）, 堆棧式自動(dòng)編碼器（Stacked Auto-encoders）。

總之，deep learning能夠得到更好地表示數(shù)據(jù)的feature，同時(shí)由于模型的層次、參數(shù)很多，capacity足夠，因此，模型有能力表示大規(guī)模數(shù)據(jù)，所以對(duì)于圖像、語音這種特征不明顯（需要手工設(shè)計(jì)且很多沒有直觀物理含義）的問題，能夠在大規(guī)模訓(xùn)練數(shù)據(jù)上取得更好的效果。此外，從模式識(shí)別特征和分類器的角度，deep learning框架將feature和分類器結(jié)合到一個(gè)框架中，用數(shù)據(jù)去學(xué)習(xí)feature，在使用中減少了手工設(shè)計(jì)feature的巨大工作量（這是目前工業(yè)界工程師付出努力最多的方面），因此，不僅僅效果可以更好，而且，使用起來也有很多方便之處。

Deep Learning與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)異同：

相同點(diǎn)： Deep Learning采用了神經(jīng)網(wǎng)絡(luò)相似的分層結(jié)構(gòu)，系統(tǒng)由包括輸入層、隱層（多層）、輸出層組成的多層網(wǎng)絡(luò)，只有相鄰層節(jié)點(diǎn)之間有連接，同一層以及跨層節(jié)點(diǎn)之間相互無連接，每一層可以看作是一個(gè)Logistic Regression模型；這種分層結(jié)構(gòu)，是比較接近人類大腦的結(jié)構(gòu)的。
不同點(diǎn)：而為了克服神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的問題，DL采用了與神經(jīng)網(wǎng)絡(luò)很不同的訓(xùn)練機(jī)制。傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中，采用的是Back Propagation的方式進(jìn)行，簡(jiǎn)單來講就是采用迭代的算法來訓(xùn)練整個(gè)網(wǎng)絡(luò)，隨機(jī)設(shè)定初值，計(jì)算當(dāng)前網(wǎng)絡(luò)的輸出，然后根據(jù)當(dāng)前輸出和label之間的差去改變前面各層的參數(shù)，直到收斂（整體是一個(gè)梯度下降法）。而DeepLearning整體上是一個(gè)Layer-Wise的訓(xùn)練機(jī)制。這樣做的原因是因?yàn)?，如果采用Back Propagation的機(jī)制，對(duì)于一個(gè)Deep Network（7層以上），殘差傳播到最前面的層已經(jīng)變得太小，出現(xiàn)所謂的Gradient Diffusion。

2.11 降低維度算法（無監(jiān)督學(xué)習(xí)）

像聚類算法一樣，降低維度算法試圖分析數(shù)據(jù)的內(nèi)在結(jié)構(gòu)，不過降低維度算法是以非監(jiān)督學(xué)習(xí)的方式試圖利用較少的信息來歸納或者解釋數(shù)據(jù)。這類算法可以用于高維數(shù)據(jù)的可視化或者用來簡(jiǎn)化數(shù)據(jù)以便監(jiān)督式學(xué)習(xí)使用。常見的算法包括：主成份分析（Principle Component Analysis， PCA），偏最小二乘回歸（Partial Least Square Regression，PLS）， Sammon映射，多維尺度（Multi-Dimensional Scaling, MDS）, 投影追蹤（Projection Pursuit）等。

其主要特征是將數(shù)據(jù)從高維降低到低維層次。在這里，維度其實(shí)表示的是數(shù)據(jù)的特征量的大小，例如，房?jī)r(jià)包含房子的長(zhǎng)、寬、面積與房間數(shù)量四個(gè)特征，也就是維度為4維的數(shù)據(jù)?？梢钥闯鰜?，長(zhǎng)與寬事實(shí)上與面積表示的信息重疊了，例如面積=長(zhǎng) × 寬。通過降維算法我們就可以去除冗余信息，將特征減少為面積與房間數(shù)量?jī)蓚€(gè)特征，即從4維的數(shù)據(jù)壓縮到2維。于是我們將數(shù)據(jù)從高維降低到低維，不僅利于表示，同時(shí)在計(jì)算上也能帶來加速。

剛才說的降維過程中減少的維度屬于肉眼可視的層次，同時(shí)壓縮也不會(huì)帶來信息的損失(因?yàn)樾畔⑷哂嗔?。如果肉眼不可視，或者沒有冗余的特征，降維算法也能工作，不過這樣會(huì)帶來一些信息的損失。但是，降維算法可以從數(shù)學(xué)上證明，從高維壓縮到的低維中最大程度地保留了數(shù)據(jù)的信息。因此，使用降維算法仍然有很多的好處。

降維算法的主要作用是壓縮數(shù)據(jù)與提升機(jī)器學(xué)習(xí)其他算法的效率。通過降維算法，可以將具有幾千個(gè)特征的數(shù)據(jù)壓縮至若干個(gè)特征。另外，降維算法的另一個(gè)好處是數(shù)據(jù)的可視化，例如將5維的數(shù)據(jù)壓縮至2維，然后可以用二維平面來可視。降維算法的主要代表是PCA算法(即主成分分析算法)。

2.12 集成算法

集成算法用一些相對(duì)較弱的學(xué)習(xí)模型獨(dú)立地就同樣的樣本進(jìn)行訓(xùn)練，然后把結(jié)果整合起來進(jìn)行整體預(yù)測(cè)。集成算法的主要難點(diǎn)在于究竟集成哪些獨(dú)立的較弱的學(xué)習(xí)模型以及如何把學(xué)習(xí)結(jié)果整合起來。這是一類非常強(qiáng)大的算法，同時(shí)也非常流行。常見的算法包括：Boosting， Bootstrapped Aggregation（Bagging）， AdaBoost，堆疊泛化（Stacked Generalization， Blending），梯度推進(jìn)機(jī)（Gradient Boosting Machine, GBM），隨機(jī)森林（Random Forest）。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： timtxu > 《時(shí)尚科技》

舉報(bào)/認(rèn)領(lǐng)