午夜视频在线网站,日韩视频精品在线,中文字幕精品一区二区三区在线,在线播放精品,1024你懂我懂的旧版人,欧美日韩一级黄色片,一区二区三区在线观看视频

分享

如何解釋和展示你的實(shí)證結(jié)果(上)

 liyu_sun 2022-01-16

作者:曹琳君 (南開大學(xué))
郵箱:linjuncao@yeah.net溫馨提示: 文中鏈接在微信中無法生效。請(qǐng)點(diǎn)擊底部「閱讀原文」?;蛑苯娱L(zhǎng)按/掃描如下二維碼,直達(dá)原文:

編者按:本文主要摘譯自下文,特此致謝!
Source:King G, Tomz M, Wittenberg J. Making the most of statistical analyses: Improving interpretation and presentation[J]. American journal of political science, 2000: 347-361. -PDF-


目錄

  • 1. 引言

  • 2. 統(tǒng)計(jì)解釋的問題

  • 3. 基于模擬的解釋方法

    • 3.1 統(tǒng)計(jì)模擬

    • 3.2 統(tǒng)計(jì)模擬的參數(shù)

  • 4. 模擬參數(shù)的轉(zhuǎn)換

    • 4.1 預(yù)測(cè)值

    • 4.2 期望值

    • 4.3 首次差分

    • 4.4 替代方法

  • 5. 算法的使用技巧

    • 5.1 模擬參數(shù)的技巧

    • 5.2 模擬感興趣的數(shù)量的技巧

  • 6. 結(jié)束語(yǔ)

  • 7. 相關(guān)推文


1. 引言

如何優(yōu)雅精確的表述實(shí)證分析結(jié)果,幾乎是所有青年學(xué)者在進(jìn)行實(shí)證分析時(shí)所面臨的重要問題。如果學(xué)者們不能充分地解讀數(shù)據(jù)結(jié)果,就可能會(huì)遺漏重要問題。針對(duì)這種現(xiàn)象,King 等 (2000) 分析了統(tǒng)計(jì)解釋中常見的問題,并給出了解決方法和開發(fā)了 CLARIFY 程序供研究者模擬使用。本文主要是對(duì)這篇論文核心理論內(nèi)容進(jìn)行介紹。

2. 統(tǒng)計(jì)解釋的問題

文章目的是解釋一類非常普遍的統(tǒng)計(jì)模型的原始結(jié)果,可以用兩個(gè)方程式總結(jié):

第一個(gè)方程描述了統(tǒng)計(jì)模型的隨機(jī)成分:生成因變量的概率密度函數(shù) 來自概率密度 的隨機(jī)抽取。此函數(shù)的某些特征隨觀測(cè)值的變化而變化,而其他特征在所有 中保持不變。本文用參數(shù)向量 表示變化特征,并將非參數(shù)化特征降為輔助參數(shù)矩陣 。

第二個(gè)方程給出了模型的系統(tǒng)組成部分。該部分表明了 如何在觀測(cè)值中變化。 的變化取決于解釋變量 向量 和 向量 的效應(yīng)參數(shù)。函數(shù)形式 有時(shí)稱為鏈接函數(shù),指定如何將解釋變量和效果參數(shù)轉(zhuǎn)換為 。

這個(gè)類的一個(gè)成員是線性正態(tài)回歸模型,也稱為最小二乘回歸。具體而言: 服從正態(tài)分布;將主參數(shù)向量設(shè)置為標(biāo)量平均值 ,并假設(shè)輔助參數(shù)矩陣是標(biāo)量同調(diào)方差 ;將系統(tǒng)分量設(shè)為線性形式。

類似地,我們可以通過將隨機(jī)分量表示為帶有主參數(shù)的伯努利分布來寫一個(gè) Logit 模型 :

King 等 (2000) 認(rèn)為在估計(jì)了統(tǒng)計(jì)模型之后,許多研究人員在粗略地看了效應(yīng)參數(shù)的標(biāo)志和 “統(tǒng)計(jì)顯著性” 后就停止了研究。這種方法顯然不能滿足我們有意義的統(tǒng)計(jì)交流標(biāo)準(zhǔn),因?yàn)閷?duì)于許多非線性模型而言, 和 是難以解釋的并且僅與研究的問題間接相關(guān) (Cain 和 Watts,1970;Blalock,1967)。

一些研究人員更進(jìn)一步,計(jì)算了導(dǎo)數(shù)、擬合值和一階差值 (Long,1997;King,1989),它確實(shí)傳達(dá)了對(duì)有趣數(shù)量的精確估計(jì),且不需要什么專業(yè)知識(shí)就能理解。然而,即使這些方法也不夠充分,因?yàn)樗鼈兒雎粤藘煞N形式的不確定性:估計(jì)的不確定性 (來自未知的 和 ) 和基本不確定性 (來自偶然因素的不確定性)。

研究人員經(jīng)常通過報(bào)告標(biāo)準(zhǔn)誤差或 統(tǒng)計(jì)來承認(rèn)第一種不確定性,但他們?cè)谟?jì)算感興趣的數(shù)量時(shí)忽略了這一點(diǎn)。由于 和 是不確定的,基于這些參數(shù)估計(jì)的任何計(jì)算——包括導(dǎo)數(shù)、擬合值和一階差分——都是不確定的,但幾乎沒有學(xué)者考慮到這一事實(shí)。

第二種不確定性通常是由無數(shù)可能影響 但不包括在 中的偶然事件(如天氣或疾病) 造成的。即使我們知道參數(shù)的準(zhǔn)確值 (從而消除了估計(jì)的不確定性),基本不確定性也會(huì)使我們無法準(zhǔn)確地預(yù)測(cè) 。我們計(jì)算感興趣數(shù)量的方法必須考慮這兩種不確定性。

3. 基于模擬的解釋方法

King 等 (2000) 推薦將統(tǒng)計(jì)模擬作為計(jì)算 quantities of interest 和不確定性的方法。我們建議將統(tǒng)計(jì)模擬作為計(jì)算感興趣數(shù)量及其不確定性的簡(jiǎn)單方法。模擬還可以幫助研究人員了解整個(gè)統(tǒng)計(jì)模型,充分利用參數(shù)估計(jì),并以讀者友好的方式傳達(dá)研究結(jié)果 (Fair,1980;Tanner,1996;Stern,1997)。

3.1 統(tǒng)計(jì)模擬

統(tǒng)計(jì)模擬使用調(diào)查抽樣的邏輯來估算復(fù)雜的數(shù)學(xué)計(jì)算。在調(diào)查研究中,我們通過從人群中隨機(jī)抽取樣本來了解人群。模擬遵循類似的邏輯,但告訴我們概率分布而不是總體。我們通過模擬 (繪制隨機(jī)數(shù)) 來了解分布,并使用繪制來近似分布的某些特征。隨著繪制次數(shù) M 的增加,近似值變得更加精確。因此,模擬使我們能夠在不借助高等數(shù)學(xué)的情況下估算概率分布的任何特征。

例如,我們可以通過積分 來計(jì)算一個(gè)概率分布 的平均值?;蛘?,我們可以通過從 中抽取大量隨機(jī)數(shù)進(jìn)行模擬來估算均值。如果對(duì) 的理論方差感興趣,我們可以計(jì)算大量隨機(jī)抽取的樣本方差,如果想要 的概率,我們可以計(jì)算超過 0.8 的抽取比例。

此外,可以通過增加模擬次數(shù) (M) 來計(jì)算任意期望的精度,這類似于增加調(diào)查抽樣中的觀測(cè)次數(shù)。評(píng)估這種近似的精度很簡(jiǎn)單:重復(fù)運(yùn)行相同的程序,進(jìn)行相同數(shù)量的模擬。如果在重復(fù)的過程中答案在四個(gè)小數(shù)點(diǎn)內(nèi)保持不變,這就是近似的精確程度。如果需要更高的精度,可以增加模擬的次數(shù),然后再試一次。模擬不會(huì)損失任何東西——除了一點(diǎn)計(jì)算機(jī)時(shí)間——而且在使用上獲得了很多便利。

3.2 統(tǒng)計(jì)模擬的參數(shù)

我們現(xiàn)在解釋研究人員如何使用模擬來計(jì)算感興趣的數(shù)量和解釋不確定性。第一步是模擬主要參數(shù)和輔助參數(shù)。為了模擬參數(shù),我們需要點(diǎn)估計(jì)和估計(jì)的方差-協(xié)方差矩陣,大多數(shù)統(tǒng)計(jì)軟件都可以實(shí)現(xiàn)。基于中心極限定理,在樣本足夠大且方差有界的情況下,我們可以從均值為的多元正態(tài)分布中隨機(jī)抽取(模擬)參數(shù),如公式 (4) 所示:

因此,我們可以通過以下步驟得到 的一個(gè)模擬:

  1. 通過常用軟件估計(jì)模型,并記錄點(diǎn)估計(jì)值 和方差矩陣 ;
  2. 由公式 4 的多元正態(tài)分布得出向量 的一個(gè)值, 。

重復(fù)第二步,假設(shè) M = 1000 次,得到 1000 次抽樣的主參數(shù)和輔助參數(shù)。如果我們可以完全了解 的全部元素,所有抽樣的結(jié)果將是一致的。我們關(guān)于 的信息了解越少,每次抽樣結(jié)果的差異就越大。在接下來的三個(gè)小節(jié)中,我們將描述將模擬參數(shù)轉(zhuǎn)換為預(yù)測(cè)值、期望值和第一個(gè)差值的算法。

4. 模擬參數(shù)的轉(zhuǎn)換

4.1 預(yù)測(cè)值

根據(jù)每個(gè)解釋變量的被抽樣值,我們可以得到一個(gè) 值,用 表示。將模擬的 表示為 ,將相應(yīng)的 表示為 由于使用的 值的種類不同,預(yù)測(cè)值會(huì)有很多種,但這些都不等于線性回歸中的期望值 。模擬預(yù)測(cè)值的步驟如下:

  1. 利用上面小節(jié)的算法計(jì)算向量 ;
  2. 確定你希望計(jì)算的預(yù)測(cè)值的類型,并在此基礎(chǔ)上為每個(gè)解釋變量選擇一個(gè)值,用 表示;
  3. 從 的前部分提取模擬系數(shù)并計(jì)算 ,其中 是統(tǒng)計(jì)模型的系統(tǒng)組成部分;
  4. 通過從 中抽取隨機(jī)數(shù)來模擬結(jié)果變量 。

重復(fù)此算法,例如 M=1000 次,以產(chǎn)生 1000 個(gè)預(yù)測(cè)值,從而近似于 的整個(gè)概率分布。通過這些模擬,研究人員不僅可以計(jì)算平均預(yù)測(cè)值,還可以計(jì)算平均值周圍的不確定性。預(yù)測(cè)值將以與因變量相同的度量表示,因此它不需要什么專業(yè)知識(shí)來理解。

4.2 期望值

根據(jù)所研究的問題,因變量的期望值或平均值可能比預(yù)測(cè)值更有趣。兩者之間的區(qū)別是微妙但重要的。預(yù)測(cè)值既包含基本的不確定性,也包含估計(jì)的不確定性,而期望值則平均化了由于世界上純粹的隨機(jī)性而產(chǎn)生的基本可變性,只剩下由于沒有無限多的觀測(cè)值而導(dǎo)致的估計(jì)不確定性。因此,即使在平均值幾乎相同的情況下,預(yù)測(cè)值的方差比期望值大。

因此,在進(jìn)行數(shù)據(jù)選擇時(shí),研究人員應(yīng)該考慮基本不確定性對(duì)于他們得出的結(jié)論的重要性。在某些應(yīng)用中,例如關(guān)于選舉或匯率的預(yù)測(cè),學(xué)者、政治家以及投資者不僅想知道預(yù)期結(jié)果,還想知道由于未建模的隨機(jī)因素,結(jié)果可能偏離預(yù)期的程度。這種情況下預(yù)測(cè)值更加合適。對(duì)于其他應(yīng)用,研究人員可能希望強(qiáng)調(diào)特定解釋變量的平均效應(yīng),因此期望值將是最佳選擇。

模擬期望值的步驟如下:

  1. 按照模擬參數(shù)的步驟,計(jì)算向量 ;
  2. 為每個(gè)解釋變量選擇一個(gè)值,并將值用向量表示為 ;
  3. 從 的前部分提取模擬系數(shù)并計(jì)算 ,其中 是統(tǒng)計(jì)模型的系統(tǒng)組成部分;
  4. 從 中計(jì)算結(jié)果變量 ) 的 值;
  5. 通過計(jì)算 m 次模擬的平均值,得出一個(gè)模擬期望值,對(duì)基本不確定性進(jìn)行平均:。

4.3 首次差分

首次差分是兩個(gè)期望值 (而非預(yù)測(cè)值) 之間的差異。為了模擬首次差分,研究人員只需使用解釋變量的不同設(shè)置,運(yùn)行預(yù)期值算法的步驟 2-5 兩次。例如,要模擬第一個(gè)解釋變量的首次差分,需要將除第一個(gè)解釋變量外的所有解釋變量的值設(shè)置為其平均值,并將第一個(gè)變量固定在其起點(diǎn)。將解釋變量的起始值向量表示為 并生成期望 。接下來,將第一個(gè)解釋變量的值更改為其結(jié)束點(diǎn),讓其他變量保持不變。設(shè)置新的變量為 ,重復(fù)運(yùn)算并得到 。用 就可以得到首次差分的值。

重復(fù)第一個(gè)差分算法,例如重復(fù) 1000 次,就可以得到近似第一個(gè)差分的分布。平均模擬值可以以獲得點(diǎn)估計(jì)值,計(jì)算標(biāo)準(zhǔn)偏差可以以獲得標(biāo)準(zhǔn)誤差,對(duì)值進(jìn)行排序可以獲得近似的置信區(qū)間。

4.4 替代方法

在本節(jié)中,我們將討論生成感興趣的量和測(cè)量其不確定度的其他幾種技術(shù)。這些方法可以作為模擬的有價(jià)值的補(bǔ)充,因?yàn)樗鼈兲峁┝酥匾臄?shù)學(xué)直覺。

4.4.1 計(jì)算機(jī)密集型替代方案

上文中提供的方法并不是獲得模擬數(shù)據(jù)的唯一方法,使用馬爾可夫鏈蒙特卡羅技術(shù)的完全貝葉斯方法也可以獲得模擬數(shù)據(jù),且該方法可以允許研究人員從精確的有限樣本分布中提取,而不是依賴中心極限定理來證明漸近正態(tài)近似 (Carlin 和 Louis,1996)。然而,這些方法仍然難以在實(shí)際中使用,主要是因?yàn)榻y(tǒng)計(jì)學(xué)家對(duì)于確定馬爾可夫鏈何時(shí)在分布上收斂到真實(shí)后驗(yàn)概率的適當(dāng)標(biāo)準(zhǔn)仍然存在分歧。

另一個(gè)有用的替代方法是 Bootstrapping,這是一種非參數(shù)方法,依賴于抽樣邏輯來近似參數(shù)分布。從理論上講, 的抽樣分布可以看作是無數(shù)個(gè) 的直方圖,且每一個(gè)都是從同一總體中的不同樣本 (大小為 n) 中估算出來的。

Bootstrapping 方法通過從原始樣本中抽取許多子樣本 (替換),估計(jì)每個(gè)子樣本的 ,然后構(gòu)建各個(gè)子樣本的直方圖來模擬這一過程。Bootstrap 方法的優(yōu)勢(shì)是,不需要強(qiáng)分布假設(shè)且具有小樣本分布特性。Bootstrapping 的缺點(diǎn)是它對(duì)某些量的估計(jì)是有偏的,例如 。

對(duì)于貝葉斯方法和 Bootstrapping,我們?cè)诒疚闹杏懻摰乃薪忉尫椒ǘ伎梢灾苯邮褂?。唯一的變化是,我們將使用基?MCMC 的模擬或自舉,而不是從方程4中的多元正態(tài)分布中提取參數(shù)。King 等 (2000) 提供的軟件包 CLARIFY 不需要額外的編程并且可以很容易地進(jìn)行修改,以解釋這些替代方法生成的參數(shù)。

4.4.2 分析方法

模擬的主要分析 (數(shù)學(xué)) 替代方法是 delta 方法,該方法使用微積分工具來獲得近似隨機(jī)變量的非線性函數(shù) (van 等,1998)。具體而言,假設(shè) , 是一個(gè)非線性函數(shù),且 ,?;诖耍?的最大似然估計(jì)為 ,其方差約為 。

盡管 delta 方法在提高計(jì)算速度和通過數(shù)學(xué)分析揭示統(tǒng)計(jì)直覺方面很有用,但它存在兩個(gè)缺點(diǎn),仿真可以幫助克服這兩個(gè)缺點(diǎn)。首先,該方法在技術(shù)上要求很高,因?yàn)樗枰芯咳藛T計(jì)算導(dǎo)數(shù)和線性化函數(shù)的矩。因此,大多數(shù)學(xué)者不使用 delta 方法也就不足為奇了,即使他們意識(shí)到報(bào)告不確定性的重要性。其次,delta 方法中使用的 Taylor 級(jí)數(shù)僅近似于非線性形式。盡管研究人員有時(shí)可以在 Taylor 序列中使用額外的項(xiàng)來改進(jìn)近似值,但這可能很困難,而且通常不可能找到額外項(xiàng)的估計(jì)值。在實(shí)踐中,大多數(shù)研究人員在將序列擴(kuò)展到一階或二階后停止,這可能會(huì)影響近似的準(zhǔn)確性。通過模擬,只需增加 M 并讓計(jì)算機(jī)運(yùn)行更長(zhǎng)時(shí)間,就可以達(dá)到任意高的精度。

5. 算法的使用技巧

5.1 模擬參數(shù)的技巧

統(tǒng)計(jì)程序通常報(bào)告參數(shù)估計(jì)的標(biāo)準(zhǔn)誤差,但精確模擬需要完整的方差矩陣 。 的對(duì)角線元素包括平方標(biāo)準(zhǔn)誤差,而非對(duì)角元素表示從相同的概率分布重復(fù)抽取的一個(gè)參數(shù)估計(jì)和另一個(gè)參數(shù)估計(jì)之間的協(xié)方差。單獨(dú)模擬每個(gè)參數(shù)是不正確的,因?yàn)榇诉^程將忽略參數(shù)之間的協(xié)方差。幾乎所有好的統(tǒng)計(jì)數(shù)據(jù)包都可以報(bào)告完整的方差矩陣,但大多數(shù)都要求研究人員通過設(shè)置選項(xiàng)或全局變量來明確要求。附錄中描述的軟件自動(dòng)獲取方差矩陣 (我們將會(huì)在之后的文章中詳細(xì)介紹相關(guān)命令的使用)。

在模擬參數(shù)的過程中,一個(gè)常見的錯(cuò)誤是從多元正態(tài)分布中提取時(shí)排除了一些參數(shù)。參數(shù)具有不同的邏輯狀態(tài),例如效應(yīng)參數(shù) 和輔助參數(shù) ,但我們的算法不需要區(qū)分兩者:兩者都是不確定的,應(yīng)該進(jìn)行模擬,即使只有一個(gè)在以后的計(jì)算中證明是有用的。通過從模擬階段排除某些參數(shù),可以加速我們的算法,但對(duì)于絕大多數(shù)應(yīng)用來說,這些技巧是不必要的,并且可能導(dǎo)致錯(cuò)誤。研究人員通常會(huì)無偏差地遵循我們模擬參數(shù)的算法,從而減少出錯(cuò)的風(fēng)險(xiǎn)。

在一些統(tǒng)計(jì)模型中, 的元素是正交的,因此軟件包為每個(gè)集合提供單獨(dú)的方差矩陣。在實(shí)現(xiàn)模擬參數(shù)的算法時(shí),研究人員可能希望通過將單獨(dú)估計(jì)的方差矩陣放置在對(duì)角線上,并在其他地方插入零來創(chuàng)建一個(gè)整體對(duì)角線矩陣。顯然,如果 的子集真的是正交的,則可以從獨(dú)立的多元正態(tài)分布中得出這兩個(gè)集合的等價(jià)圖,但使用單個(gè)抽樣分布可能更容易。

研究人員應(yīng)重新參數(shù)化 元素,以增加漸近多元正態(tài)近似在有限樣本中成立的可能性。通常,所有參數(shù)都應(yīng)該重新參數(shù)化,除非它們已經(jīng)是無界的且邏輯對(duì)稱的。

5.2 模擬感興趣的數(shù)量的技巧

將模擬參數(shù)轉(zhuǎn)換為感興趣的量時(shí),最安全的做法是模擬 ,并以此作為獲取其他量的基礎(chǔ)。該規(guī)則相當(dāng)于將所有模擬參數(shù)以及統(tǒng)計(jì)模型中的所有信息合并到計(jì)算中。當(dāng)然,確實(shí)存在一些捷徑。例如,在 Logit 模型中,我們可以通過以 停止來獲得 。如果在估計(jì)階段使用 的某個(gè)函數(shù),如 作為因變量,研究者可以模擬 ,然后用逆函數(shù) 來揭示 。

此外,研究人員應(yīng)該通過重復(fù)整個(gè)算法來評(píng)估任何模擬量的精度,并看看是否有任何實(shí)質(zhì)性的重要內(nèi)容發(fā)生了變化。如果確實(shí)發(fā)生了變化,則增加模擬次數(shù)并再試一次。在某些情況下,特別是當(dāng)研究人員錯(cuò)誤地指定了一個(gè)非線性統(tǒng)計(jì)模型時(shí),精確地估計(jì)一個(gè)期望值所需的模擬次數(shù)可能比正常情況下要多。數(shù)值估計(jì)應(yīng)該報(bào)正確的精度水平,例如,如果重復(fù)運(yùn)行相同數(shù)量的模擬產(chǎn)生的估算值僅在小數(shù)點(diǎn)后第四位發(fā)生變化,則報(bào)告的數(shù)字應(yīng)四舍五入至小數(shù)點(diǎn)后兩或三位。

6. 結(jié)束語(yǔ)

King 等 (2000) 指出不確定性是學(xué)者們?cè)谶M(jìn)行數(shù)據(jù)分析時(shí)常遇到的問題,主要包括估計(jì)的不確定性 (來自未知的 和 ) 和基本不確定性 (來自偶然因素的不確定性)。同時(shí),三位學(xué)者指出統(tǒng)計(jì)模擬是解決不確定性的主要方法,并開發(fā)了對(duì)應(yīng)的 Stata 程序 CLARIFY。本文主要是對(duì)這篇文章的核心理論思想的推介,我們將在之后的文章中具體介紹相關(guān)的 Stata 命令。

7. 相關(guān)推文

Note:產(chǎn)生如下推文列表的 Stata 命令為:
? lianxh 模擬, m
安裝最新版 lianxh 命令:
? ssc install lianxh, replace

  • 專題:Stata教程
    • Stata博文系列:邊模擬邊學(xué)計(jì)量經(jīng)濟(jì)學(xué)-Econometrics-By-Simulation
  • 專題:Stata程序
    • Stata:蒙特卡洛模擬A-(Monte-Carlo-Simulation)沒那么神秘
    • Stata程序:Monte-Carlo-模擬之產(chǎn)生符合特定分布的隨機(jī)數(shù)
    • Stata:蒙特卡洛模擬分析 (Monte Carlo Simulation)
  • 專題:回歸分析
    • Stata:在線可視化模擬-OLS-的性質(zhì)
  • 專題:時(shí)間序列
    • Stata: VAR - 模擬、估計(jì)和推斷

圖片?

圖片

New! Stata 搜索神器:lianxhsongbl  GIF 動(dòng)圖介紹
搜: 推文、數(shù)據(jù)分享、期刊論文、重現(xiàn)代碼 ……
?? 安裝:
? . ssc install lianxh
? . ssc install songbl
??  使用:
? . lianxh DID 倍分法
? . songbl all

圖片

?? 關(guān)于我們

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多