午夜视频在线网站,日韩视频精品在线,中文字幕精品一区二区三区在线,在线播放精品,1024你懂我懂的旧版人,欧美日韩一级黄色片,一区二区三区在线观看视频

分享

用R語言做數(shù)據(jù)分析——廣義線性模型

 geoallan 2017-07-12

用R語言做數(shù)據(jù)分析——廣義線性模型

之前講到的線性模型,是通過一系列連續(xù)型或類別型變量來預(yù)測正態(tài)分布的響應(yīng)變量。但在許多情況下,假設(shè)因變量為正態(tài)分布并不合理,例如以下集中情況:

  • 結(jié)果變量可能是類別型的。二值變量(比如是/否、通過/失敗,活著/死亡)和多分類變量(比如差/及格/良好/優(yōu)秀)都顯然不是正態(tài)分布。

  • 結(jié)果變量可能是計(jì)數(shù)型的(比如,一周交通事故的數(shù)目、每日灑水消耗的數(shù)量)。這類變量都是非負(fù)的有限值,而且它們的均值和方差通常都是相關(guān)的(正態(tài)分布變量間是相互獨(dú)立的)。

廣義線性模型擴(kuò)展了線性模型的框架,它包含了非正態(tài)因變量的分析,使線性模型對于解決實(shí)際問題更具有通用性和廣泛性。

廣義線性模型概論

許多廣泛應(yīng)用的、流行的數(shù)據(jù)分析方法其實(shí)都?xì)w屬于廣義線性模型框架?,F(xiàn)在假設(shè)我們要對響應(yīng)變量Y和p個(gè)預(yù)測變量X1......Xp間的關(guān)系進(jìn)行建模,在標(biāo)準(zhǔn)線性模型中,我們可以假設(shè)Y呈正態(tài)分布,關(guān)系的形式為:

用R語言做數(shù)據(jù)分析——廣義線性模型

該等式表明響應(yīng)變量的條件均值是預(yù)測變量的線性組合。參數(shù)βj指一單位Xj的變化造成的Y預(yù)期的變化,β0指當(dāng)所有預(yù)測變量都為0時(shí)Y的預(yù)測值。對于這個(gè)等式,我們可以通俗地理解為:給定一系列X變量的值,賦予X變量合適的權(quán)重,然后將它們加起來,便可預(yù)測Y觀測值分布的均值。

我們并沒有對預(yù)測變來那個(gè)Xj做任何分布的假設(shè),與Y不同,它們不需要呈正態(tài)分布。實(shí)際上,它們常為類別型變量。另外、對預(yù)測變量使用非線性函數(shù)也是允許的,比如我們可以使用X^2或者X1*X2,只要等式的參數(shù)(β0、β1、...、βp)為線性即可。

廣義線性模型擬合的形式為:

用R語言做數(shù)據(jù)分析——廣義線性模型

其中g(shù)(u y)是條件均值的函數(shù)(稱為連接函數(shù))。另外、我們可以不假設(shè)Y為正態(tài)分布,把它改為Y服從指數(shù)分布族中的任意一種分布即可。設(shè)定好連接函數(shù)和概率分布后,可以通過最大似然估計(jì)的多次迭代推導(dǎo)出各參數(shù)值。

glm()函數(shù)

R語言中可通過glm()函數(shù)擬合廣義線性模型,函數(shù)基本形式為:

glm(formula, family=family(link=function), data=)

下圖列出了概率分布(family)和相應(yīng)默認(rèn)的連接函數(shù)(function)。

用R語言做數(shù)據(jù)分析——廣義線性模型

glm()函數(shù)可以擬合許多流行的模型,比如Logistic回歸、泊松回歸,下面對這兩個(gè)模型進(jìn)行闡述。假設(shè)我們有一個(gè)響應(yīng)變量(Y)、三個(gè)預(yù)測變量(X1、X2、X3)和一個(gè)包含數(shù)據(jù)的數(shù)據(jù)框(mydata)。

Logistic回歸

Logistic回歸適用于二值響應(yīng)變量(0,1)。模型假設(shè)Y服從二項(xiàng)分布,線性模型的擬合形式為:

用R語言做數(shù)據(jù)分析——廣義線性模型

其中π=μY是Y的條件均值(即給定一系列X的值時(shí)Y=1的概率),(π /1-π )為Y=1時(shí)的優(yōu)勢比,log(π /1-π )為對數(shù)優(yōu)勢比,或logit。在這個(gè)例子中,log(π /1-π )為連接函數(shù),概率分布為二項(xiàng)分布,可用以下代碼擬合Logistic回歸模型:

glm(Y~X1+X2+X3, family=binomial(link='logit'), data=mydata)

泊松回歸

泊松回歸適用于在給定時(shí)間內(nèi)響應(yīng)變量為事件發(fā)生數(shù)目的情形。它假設(shè)Y服從泊松分布,線性模型的擬合形式為:

用R語言做數(shù)據(jù)分析——廣義線性模型

其中λ是Y的均值(也等于方差)。此時(shí),連接函數(shù)為log(λ),概率分布為泊松分布,可用如下代碼擬合泊松回歸模型:

glm(Y~X1+X2+X3, family=poisson(link='log'), data=mydata)

標(biāo)準(zhǔn)線性模型

標(biāo)準(zhǔn)線性模型屬于廣義線性模型的一個(gè)特例。如果令連接函數(shù)g(μY)=μY或恒等函數(shù),并設(shè)定概率分布為正態(tài)分布,那么可用如下代碼擬合標(biāo)準(zhǔn)線性模型:

glm(Y~X1+X2+X3, family=gaussian(link='identity'), data=mydata)

生成的結(jié)果與下列代碼的結(jié)果相同:

lm(Y~X1+X2+X3, data=mydata)

總之,廣義線性模型通過擬合響應(yīng)變量的條件均值的一個(gè)函數(shù),假設(shè)響應(yīng)變量服從指數(shù)分布族的某個(gè)分布,極大地?cái)U(kuò)展了標(biāo)準(zhǔn)線性模型。模型 參數(shù)估計(jì)的推導(dǎo)依據(jù)是極大似然估計(jì),而非最小二乘法。

    本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多