【原】用最簡單的例子，深入解析人工神經(jīng)網(wǎng)絡(luò)，徹底理解機(jī)器學(xué)習(xí)過程

老胡說科學(xué) 2024-03-23 發(fā)布于江蘇

展開全文

人工神經(jīng)網(wǎng)絡(luò)其實就像是一個復(fù)雜的計算器，你給它輸入一些東西，它就能給你一個結(jié)果。就像你用計算器輸入2+2，它會給你輸出4一樣，但人工神經(jīng)網(wǎng)絡(luò)能處理的不僅僅是數(shù)字加減，它能處理更復(fù)雜的東西，比如圖片、文字等等。所以，當(dāng)我們說人工神經(jīng)網(wǎng)絡(luò)是一個“函數(shù)逼近器”時，其實就是說它能模擬各種復(fù)雜的計算過程，幫助我們從輸入得到想要的輸出。

如果是一張汽車的圖片，必須有一個函數(shù)，可以接收這張圖片并預(yù)測它是什么類型的車，僅僅通過那些原始的像素值。

對于傳統(tǒng)編程，如果有一段英文文本，必須有一個函數(shù)，可以接收這段文本并輸出相同的文本，但是用中文。

如果你有一個問題，必須有一個函數(shù)，可以產(chǎn)生答案。

但問題是，在傳統(tǒng)編程中，我們一直在編寫函數(shù)，它們非常強大，但當(dāng)函數(shù)太難以至于我們無法解釋它時會發(fā)生什么？例如，當(dāng)你看到這個數(shù)字時，

你知道它是5，但如果你必須編寫一個算法，接收這張圖片并說它是5，突然之間這變得極其困難。

任務(wù)很簡單，但接收一張手寫數(shù)字的圖片并輸出是哪個數(shù)字的函數(shù)非常難以編寫，所以這就是為什么我們需要機(jī)器學(xué)習(xí)。這里的想法很簡單，如果你知道一定存在一個可以解決這個問題的函數(shù)，但我們不知道那個函數(shù)是什么樣子的，也許我們可以定義一個結(jié)構(gòu)，一個人工神經(jīng)網(wǎng)絡(luò)，它可以學(xué)習(xí)這個函數(shù)，而為了學(xué)習(xí)這個函數(shù)，它需要一些可以學(xué)習(xí)的東西，這意味著它需要數(shù)據(jù)，比如很多不同的手寫數(shù)字圖片。

讓我們看一個非常簡單的例子，

你可以看到一些數(shù)據(jù)點，如果我問你模擬這些數(shù)據(jù)的函數(shù)是什么，你可能會想象一條穿過這些數(shù)據(jù)點的曲線。這就是神經(jīng)網(wǎng)絡(luò)也應(yīng)該學(xué)習(xí)的，它應(yīng)該學(xué)會逼近這些數(shù)據(jù)所代表的函數(shù)，如果出現(xiàn)了一個新的x值，我們應(yīng)該能夠預(yù)測y值，即使我們之前不知道這個點。

回到手寫數(shù)字，一個非常著名的手寫數(shù)字?jǐn)?shù)據(jù)集叫MNIST，其中存儲了成千上萬個手寫數(shù)字。

如果你想要制作一個從這些數(shù)據(jù)中學(xué)習(xí)的模型，以便能夠識別未見過的手寫數(shù)字，你可以借鑒人類大腦學(xué)習(xí)的方式。

我們的大腦由很多細(xì)胞組成，這些細(xì)胞叫做神經(jīng)元。神經(jīng)元有一些像天線一樣的部分叫做樹突，它們用來接收來自其他神經(jīng)元的信號。神經(jīng)元的主體會決定是否要把這些信號傳遞給下一個神經(jīng)元。如果決定傳遞，神經(jīng)元會通過一根叫做軸突的長線把信號發(fā)送出去，直到信號到達(dá)另一個叫做突觸的地方。在突觸處，信號會被傳遞給下一個神經(jīng)元。這就是我們的大腦如何處理和傳遞信息的基本方式。

當(dāng)我們學(xué)習(xí)時，大腦中神經(jīng)元之間的連接發(fā)生變化，它們變得更強，形成新的連接，神經(jīng)元變得更高效。

人工神經(jīng)網(wǎng)絡(luò)試圖模擬這個過程，它們由人工神經(jīng)元組成，即簡單的函數(shù)，接收來自其他神經(jīng)元的值，并將它們組合成一個傳遞給其他神經(jīng)元的信號。

具體的情況下，上圖是一個28x28像素的圖片，每個像素值的范圍是0到1，黑色像素是0，白色像素是1，這些像素構(gòu)成了輸入層。

現(xiàn)在我們想知道圖片顯示的是哪個數(shù)字，因為有10個可能的數(shù)字，所以我們對每個輸入的圖像產(chǎn)生10個預(yù)測，所以這里可以添加10個神經(jīng)元并稱之為輸出層，

每個輸入神經(jīng)元（一個像素點）將連接到每個輸出神經(jīng)元（0-9的10個數(shù)字），我們用所謂的權(quán)重連接它們，每個權(quán)重僅僅是一個數(shù)字，一開始這個數(shù)字可以隨機(jī)選擇。

在這個例子中，有784個輸入神經(jīng)元（對應(yīng)于28x28像素的圖片），每個輸入神經(jīng)元都連接到10個輸出神經(jīng)元（對應(yīng)于10個可能的數(shù)字）。所以總共會有784個像素點乘以10個數(shù)字，也就是7840個連接。每個連接都有一個權(quán)重，這些權(quán)重會在訓(xùn)練過程中進(jìn)行調(diào)整，以便網(wǎng)絡(luò)能夠正確地識別輸入圖片中的數(shù)字。

每個輸出神經(jīng)元將取輸入值，將每個值乘以相應(yīng)的權(quán)重并將它們求和以得到一個新值，

在這個例子中，我們期望的是，代表數(shù)字5的那個神經(jīng)元給出一個很高的數(shù)值（權(quán)重），而其他代表其他數(shù)字的神經(jīng)元給出的數(shù)值都比較低。這樣，網(wǎng)絡(luò)就能正確地識別出輸入圖片是數(shù)字5。

如果輸入數(shù)字0，再一次，只有代表0的輸出神經(jīng)元應(yīng)該亮起（獲得很高的數(shù)值），這可能是我們能構(gòu)建的最簡單的神經(jīng)網(wǎng)絡(luò)。

但我們的任務(wù)是教會這個人工神經(jīng)網(wǎng)絡(luò)識別這些數(shù)字，這意味著我們必須以某種方式改變權(quán)重，讓模型做出更好的預(yù)測，這是通過向網(wǎng)絡(luò)展示一系列的樣本圖片（比如手寫數(shù)字的圖片），然后觀察網(wǎng)絡(luò)的預(yù)測結(jié)果是否準(zhǔn)確來完成的。如果網(wǎng)絡(luò)的預(yù)測結(jié)果不準(zhǔn)確，就需要調(diào)整權(quán)重。

為了知道如何調(diào)整權(quán)重，我們使用了一個叫做“損失函數(shù)（Loss Funtion）”的工具，它可以幫助我們衡量網(wǎng)絡(luò)的預(yù)測結(jié)果和實際結(jié)果之間的差異。我們的目標(biāo)是讓這個損失盡可能小，這意味著我們的預(yù)測越準(zhǔn)確。

事實上，如果你可視化每個神經(jīng)元的權(quán)重，隨著模型學(xué)習(xí)，我們可以看到，盡管它們一開始看起來是隨機(jī)的。但隨著模型的學(xué)習(xí)和訓(xùn)練，這些權(quán)重會逐漸調(diào)整，開始形成一些特定的模式。這些模式讓模型能夠識別不同數(shù)字的特征，從而區(qū)分它們。最初，模型可能只能學(xué)習(xí)簡單的線性關(guān)系，這意味著它能區(qū)分一些非?；镜臄?shù)字特征。

為了讓模型能夠?qū)W習(xí)更復(fù)雜的關(guān)系，我們可以在輸入層和輸出層之間添加更多的層，這些額外的層被稱為隱藏層。

添加更多的隱藏層可以使神經(jīng)網(wǎng)絡(luò)變得“更深”，這就是“深度學(xué)習(xí)”的概念。隱藏層中的神經(jīng)元和輸出層中的神經(jīng)元工作方式相似，但每個神經(jīng)元還有一個激活函數(shù)（Activation function），這個函數(shù)可以是非線性的，使得模型能夠?qū)W習(xí)更復(fù)雜的關(guān)系，從而提高識別數(shù)字的準(zhǔn)確性。

回到簡單的二維函數(shù)示例，激活函數(shù)將使我們能夠彎曲直線，以便我們可以更準(zhǔn)確地模擬數(shù)據(jù)。

有許多激活函數(shù)，但其中最簡單的一個叫做ReLu，它把負(fù)數(shù)變成0，正數(shù)保持不變。

當(dāng)我們給神經(jīng)網(wǎng)絡(luò)添加更多的神經(jīng)元或者層數(shù)時，它的能力會增加，也就是說它能學(xué)習(xí)到更復(fù)雜的東西。但是，有一個問題，如果我們讓網(wǎng)絡(luò)變得太大，它可能就會變得太“聰明”了，以至于它不僅學(xué)會了我們想讓它學(xué)的東西，還記住了所有的訓(xùn)練數(shù)據(jù)。這種情況叫做過擬合，就像是模型變得太專注于訓(xùn)練數(shù)據(jù)，以至于在面對新的、沒見過的數(shù)據(jù)時就表現(xiàn)不好了。另一方面，如果模型太簡單，它可能就學(xué)不到足夠的東西，這種情況叫做欠擬合。所以，神經(jīng)網(wǎng)絡(luò)的主要目標(biāo)就是找到一個平衡點，構(gòu)建一個既不太復(fù)雜也不太簡單，能夠從數(shù)據(jù)中學(xué)習(xí)規(guī)律的模型。