引言
我們經(jīng)常想觀察一批數(shù)據(jù)的分布形態(tài),直方圖、密度圖、箱線圖、小提琴圖和點(diǎn)圖等都是很好的實(shí)現(xiàn)形式。在此,我們簡略介紹直方圖、密度圖和箱線圖,這種三種圖形對我們來說更為常用。
直方圖
很多人沒搞清楚條形圖和直方圖之間的區(qū)別。條形圖主要用于展示分類數(shù)據(jù),即名義數(shù)據(jù),各組分開而立。而直方圖多用于展示數(shù)值型數(shù)據(jù),各組相依。
單組直方圖
最基本的語句就是在ggplot語句后再加geom_histogram()即可。
library(gcookbook)
library(ggplot2)
ggplot(faithful, aes(x=waiting)) + geom_histogram()
直方圖默認(rèn)最大為30組,我們可以使用*binwidth來改變。
ggplot(faithful, aes(x=waiting)) +geom_histogram(binwidth=8, fill="white", colour="black")#改為8組
分組直方圖
分組直方圖做法與其他圖形一樣,我們用到facet_grid(var ~ .),該方法是以var變量進(jìn)行分類,做多個圖形,非一個圖形中做多個直方圖。如果變量為數(shù)字,應(yīng)當(dāng)因子化。
library(MASS) #取binwidth數(shù)據(jù)
ggplot(birthwt, aes(x=bwt))+geom_histogram(fill="white", colour="black")+facet_grid(smoke ~ .)
核密度曲線
如果你想要做密度曲線,則用geom_density映射一連續(xù)變量。
ggplot(faithful, aes(x=waiting)) + geom_density()
#你也可以將包住的部分給填充顏色
ggplot(faithful, aes(x=waiting)) +
geom_density(fill="blue", alpha=.2) +
xlim(35, 105)
#如果你不喜歡線與下方相連,可以使用另外一種方式
ggplot(faithful, aes(x=waiting)) + geom_line(stat="density") +
expand_limits(y=0)#expand_limits使y軸范圍包含0值。
#密度曲線與直方圖共戲
ggplot(faithful, aes(x=waiting, y=..density..)) +
geom_histogram(fill="cornsilk", colour="grey60", size=.2) +
geom_density() +
xlim(35, 105)
分組密度曲線
birthwt1 <- birthwt
birthwt1$smoke <- factor(birthwt1$smoke)
ggplot(birthwt1, aes(x=bwt, fill=smoke)) + geom_density(alpha=.3)
箱線圖
箱線圖應(yīng)用十分廣泛,特別是在比較多組數(shù)據(jù)上。上代碼,看看如何實(shí)用。
ggplot(birthwt, aes(x=factor(race), y=bwt)) + geom_boxplot()
#如果存在多個多個離群點(diǎn),可用outlier.size 和outlier.shape進(jìn)行大小和形狀設(shè)置
ggplot(birthwt, aes(x=factor(race), y=bwt)) +
geom_boxplot(outlier.size=1.5, outlier.shape=21)
#為了看數(shù)據(jù)分布是否有偏,我們還可以增加均值與中值進(jìn)行比較,主要用stat_summary把均值以菱形相展示。
ggplot(birthwt, aes(x=factor(race), y=bwt)) + geom_boxplot() +
stat_summary(fun.y="mean", geom="point", shape=23, size=3, fill="white")
|