logistic回歸與線性回歸實際上有很多相同之處,最大的區(qū)別就在于他們的因變量不同,其他的基本都差不多,正是因為如此,這兩種回歸可以歸于同一個家族,即廣義線性模型(generalized 與線性回歸不同,邏輯回歸主要用于解決分類問題,那么線性回歸能不能做同樣的事情呢?下面舉一個例子。比如惡性腫瘤和良性腫瘤的判定。假設(shè)我們通過擬合數(shù)據(jù)得到線性回歸方程和一個閾值,用閾值判定是良性還是惡性: 如圖,size小于某值就是良性,否則惡性。但是“噪聲”對線性方程的影響特別大,會大大降低分類準(zhǔn)確性。例如再加三個樣本就可以使方程變成這樣: 那么,邏輯斯特回歸是怎么做的呢?如果不能找到一個絕對的數(shù)值判定腫瘤的性質(zhì),就用概率的方法,預(yù)測出一個概率,比如>0.5判定為惡性的。 2.2 Sigmoid函數(shù) 邏輯回歸首先把樣本映射到[0,1]之間的數(shù)值,這就歸功于sigmoid函數(shù),可以把任何連續(xù)的值映射到[0,1]之間,數(shù)越大越趨向于0,越小越趨近于1。 函數(shù)的圖像如下圖,x=0的時候y對應(yīng)中心點。 判定邊界:對多元線性回歸方程求Sigmoid函數(shù)hθ(x)=g(θ0+θ1x1+...+θnxn)hθ(x)=g(θ0+θ1x1+...+θnxn),找到一組θθ,假設(shè)得到?3+x1+x2=0?3+x1+x2=0的直線,把樣本分成兩類。把(1,1)代入g函數(shù),概率值<0.5,就判定為負(fù)樣本。這條直線就是判定邊界,如下圖:>0.5,就判定為負(fù)樣本。這條直線就是判定邊界,如下圖:> 擬合:擬合模型/函數(shù) 由測量的數(shù)據(jù),估計一個假定的模型/函數(shù)。如何擬合,擬合的模型是否合適?可分為以下三類 1合適擬合 2欠擬合 3 過擬合 看過一篇文章(附錄)的圖示,理解起來很不錯: 欠擬合: 合適的擬合 過擬合 過擬合的問題如何解決? 模型太復(fù)雜,參數(shù)過多,特征數(shù)目過多。 參考文章: |
|
來自: 萬皇之皇 > 《數(shù)理化生工》