午夜视频在线网站,日韩视频精品在线,中文字幕精品一区二区三区在线,在线播放精品,1024你懂我懂的旧版人,欧美日韩一级黄色片,一区二区三区在线观看视频

分享

小白學數(shù)據(jù) | 除了計算大姨媽周期,時間序列分析還有什么用

 云毅遙 2017-02-21

大數(shù)據(jù)文摘作品,轉(zhuǎn)載要求見文末

作者 | Lizyjieshu

審校 | Aileen,行者 

———

據(jù)說最貼心的男票是會記錄下女票每一次大姨媽來的時間,然后繪制成一張月份折線圖以監(jiān)測女票的身體健康(以避開無法啪啪啪的時間)。你知不知道,這張圖其實就是一個時間序列圖,你看圖預測未來幾個月女票的大姨媽時間就叫做時間序列分析……


咳咳,言歸正傳,時間序列分析是一種廣泛應用的數(shù)據(jù)處理統(tǒng)計方法,除了計算大姨媽周期,在實際很生活還有很多應用,小白今天就來帶大家探探究竟。

———

小白問:時間序列分析就是分析時間的么?

答:你是想問分析的是什么數(shù)據(jù)吧?簡單來說,時間序列數(shù)據(jù)是在特定時間內(nèi)監(jiān)測或記錄下的有序數(shù)據(jù)集合。太陽活動、潮汐、股票市場趨勢、疾病傳播等都是時間序列的典型案例。幾乎在任意應用科學或工程學領(lǐng)域,只要涉及到基于時間的測量,都可以找到時間序列的聲影??茖W的定義就是:在特定時間(例如,小時,月或年)內(nèi)記錄下的有序觀測值集合。

下圖為1720年至1980年的太陽活動圖,就是典型的時間序列:  

小白問:哦,就是說在規(guī)律的時間間隔內(nèi)檢測到的有序數(shù)據(jù)集,那怎么來分析數(shù)據(jù)呢?

答:首先,時間序列分析的前提是認為這些收集到的數(shù)據(jù)點在一段時間內(nèi)的變化可能具有特定的內(nèi)部結(jié)構(gòu),比如趨勢啦或季節(jié)變化啦等等。在此前提下,通過比較不同時間點上單個或多個時間序列的值,對時間序列數(shù)據(jù)進行分析,進而提取出有意義的統(tǒng)計量或其他數(shù)據(jù)特征。

小白問:分析完了怎么用吶?  

答:當然就是來預測女票大姨媽啦。哦,口誤,當然是利用時間系列模型,基于前期觀察到的序列規(guī)律來預測未來的數(shù)值啦。比如下圖,綠線就是預測值,周邊的灰色是置信區(qū)間:

 小白問:什么信什么區(qū)間?

答:哈哈,我就知道你會問這個問題。舉個例子,你明天要考試數(shù)學了,你覺得大概能多少分? 估計70分吧,上下不超過10分。那你對這個預測有多大把握呢?9成吧!我們就說你明天數(shù)學考試成績90%的置信區(qū)間(Confidence Interval)為60~80,也就是你有90%的信心考出介于60~80的分數(shù)。

小白問:好像懂些了。其實我真想做個時間序列分析,然后預測女票啥時候會生氣啊!

答:你還想預測女票啥時候會生氣?你咋不找個機器人做女票!時間序列預測的應用可比這廣泛多了,比如金融市場分析、庫存控制、銷售與市場預測、產(chǎn)量預測、地震預測、工作量預測等等,舉例都舉不完。

小白問:不明覺厲!

呃,那我再給你說明白點兒。下面這張圖非常清楚地解釋了一般時間序列可以被分解成的三個部分。最上面的曲線是我們實際觀測到的點,它是由下面三個曲線疊加而成的結(jié)果——趨勢性(第二條曲線),季節(jié)性(第三條曲線)和隨機性(第四條曲線) 

 

時間序列分析的目的主要有兩個,一是要識別監(jiān)測到的數(shù)據(jù)所展現(xiàn)出的現(xiàn)象及其本質(zhì),就是找到規(guī)律,這個規(guī)律往往是趨勢性的或者有著較為明確的周期即季節(jié)性,因此就需要去掉一些不必要的噪音干擾(比如上面的的第四條曲線),并且把趨勢性和季節(jié)性分解出來,想圖示那樣;二是要利用這些數(shù)據(jù)來預測未來同樣時間軸上可能會出現(xiàn)的數(shù)值(統(tǒng)籌考慮三個分解部分)。

這兩個目的都要求我們識別時間序列數(shù)據(jù)內(nèi)在的模式并將其盡可能準確地描述出來。因為事物發(fā)展的規(guī)律在長期內(nèi)相對穩(wěn)定(比如你女票的大姨媽來訪這樣的事件的發(fā)生),所以趨勢性和季節(jié)性這樣代表規(guī)律的因素,它們的數(shù)值變化也相對穩(wěn)定,在未來的一定時期內(nèi),還會像現(xiàn)在看到的這樣子變化,所以一旦我們了解了數(shù)據(jù)系列的模式,就可以解釋這些數(shù)據(jù)并結(jié)合其他數(shù)據(jù)來做預測(例如:季節(jié)性商品價格的變化和預測)。

不過小白你要記住,無論我們的理解有多深刻,對現(xiàn)象的解釋有多靠譜,時間序列預測的未來越久遠,準確度會愈低。

小白問:一定一定。對了,時間序列分析不會出現(xiàn)很多異常的影響因素么?比如女票為了不影響游泳比賽,吃藥推遲了大姨媽時間,再按照曲線推測她后續(xù)的經(jīng)期,就會不準了吧? 

答:好問題,看來小白你已經(jīng)會舉一反三了。是的,通常收集到的時間序列數(shù)據(jù)中都會包含有一些隨機擾動因素的影響,我們把這些具有不確定性的因素導致的數(shù)量變化統(tǒng)稱為隨機變量,業(yè)內(nèi)常見的是通過“平滑數(shù)據(jù)”的方法來降低或消除隨機變量帶來的影響,“平滑”通常也被稱為過濾,目前主要有兩大類:平均法和指數(shù)平滑法

小白問:指數(shù)平滑聽起來就是更快一點的平滑唄?

答:差不多是這個意思。

平均法就是取相鄰幾個數(shù)的平均數(shù),然后分析平均數(shù)而不是原始數(shù)據(jù)。舉一個簡單的例子,平均法中最常見的其中一種叫做“移動平均”(Moving Average),這個例子中,我們把前三個時間點的數(shù)值取平均數(shù),當作第3個時間點的移動平均數(shù)8.667=(9+8+9)/3,第2,3,4個點數(shù)值的平均數(shù)作為第4個點的移動平均數(shù)…以此類推。  

指數(shù)平滑法稍微復雜一點,但是也更受歡迎,很多時候也更準確。平均法中,過去的歷史觀測點的權(quán)重是一樣的,而在指數(shù)平滑法里,越遙遠的觀測點的權(quán)重呈指數(shù)倍減少,就是說越靠近的點給的權(quán)重越高。

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多