午夜视频在线网站,日韩视频精品在线,中文字幕精品一区二区三区在线,在线播放精品,1024你懂我懂的旧版人,欧美日韩一级黄色片,一区二区三区在线观看视频

分享

工業(yè)場景中的預測性維護

 阿明哥哥資料區(qū) 2020-08-20

?【PPT下載】中國數(shù)據(jù)分析師行業(yè)峰會精彩PPT下載(共計21個文件)


生產(chǎn)管理學中著名的“海恩法則”指出: 每一起嚴重事故的背后,必然有29次輕微事故和300起未遂先兆以及1000起事故隱患。經(jīng)分析,相當多的惡性事故發(fā)生前,現(xiàn)場的傳感器數(shù)據(jù)都表現(xiàn)出了明顯的異常,完全可以通過監(jiān)測、報警等方式及時預警并啟動預案,防患于未然。本文結(jié)合個人實踐經(jīng)驗,主要從監(jiān)督學習與異常檢測這兩種視角看待問題,嘗試在適當?shù)募俣ㄏ陆鉀Q之。

監(jiān)督學習視角

如果數(shù)據(jù)容易標記,可以標記到時間窗,做有監(jiān)督學習分類模型。這里分為兩種方式:

第一種是傳統(tǒng)特征工程設(shè)計,將生成的特征輸入到機器學習模型中。工業(yè)場景中常見的數(shù)據(jù)不平衡、樣本量小、過擬合等問題,都應(yīng)納入基本考量。

圖 機器學習分類框架
第二種是:用NN模型直接進行序列分類。值得一提的是,LSTM-FCN和ALSTM-FCN在序列信號進行分類的任務(wù)中表現(xiàn)出很好的效果。
 
在許多工業(yè)場景中,手工設(shè)計特征需要工業(yè)領(lǐng)域甚至是特定工藝的深入業(yè)務(wù)理解,要設(shè)計基本統(tǒng)計、功率譜參數(shù)、業(yè)務(wù)衍生等多層次特征。特別是業(yè)務(wù)衍生特征,如果現(xiàn)場工程師提供了一個超強的特征(即magic feature),例如某真空蒸發(fā)器在同時出現(xiàn)負壓超過68kPa,溫度超過90℃的情況下極易致使損壞,那么該真空蒸發(fā)器的預警建模難度就會大大降低。

樹模型給出的特征重要度可為特征提供優(yōu)良的可解釋性,對異常追根溯源有很好的指導作用。

圖 xgboost的特征重要性排序
 
深度學習的優(yōu)點是端到端的快速解決問題,繞過了成本高昂的特征工程,極大降低了業(yè)務(wù)知識門檻,而缺點是與之俱來的可解釋性問題。好消息是機器學習正朝著更高的易用性、更低的技術(shù)門檻、更敏捷的開發(fā)成本的方向去發(fā)展,Auto-ML極大減少了手工工作,其中自動化特征工程旨在自動創(chuàng)建候選特征。在時序數(shù)據(jù)分類問題上,使用tsfresh可以自動抽取超過100個特征子集(每個特征子集根據(jù)參數(shù)設(shè)置包含一個或多個特征)。

圖 tsfresh的時序特征抽取

為了避免提取無關(guān)的功能,tsfresh具有內(nèi)置的過濾過程,這一過程評估每個特征的解釋能力和重要性。我們也可使用標準的Filter、Wrapper、Embedded。

有時樣本的標記成本高,我們可以使用半監(jiān)督學習的方法--使用協(xié)同學習 (co-training),用有標記的數(shù)據(jù)迭代生成偽標記。

圖 協(xié)同學習的標記過程

異常檢測視角


接下來讓我們從異常檢測的視角去審視同樣的問題,這里的異常表示廣義的故障,即過程中至少一個特征或變量發(fā)生異常偏離。我們經(jīng)常面對樣本沒有標記或標記主觀差異性大的現(xiàn)實,可以說,無監(jiān)督學習或者基于統(tǒng)計的離群點檢測是工作的重點。

一般來說“異?!睌?shù)據(jù)內(nèi)含2個假定:1.具有某種比例稀少的特征。2.最少在某個隱空間中,與其他數(shù)據(jù)是A與A-bar(只有落在某區(qū)域才正常)或者A、B、C、D(異常數(shù)據(jù)自成一類)這樣的關(guān)系。

圖 正常數(shù)據(jù)與異常數(shù)據(jù)的兩種關(guān)系

下面介紹幾類效果較好的異常檢測算法的原理及其適用場景。

一、基于統(tǒng)計的方法

這一類方法最為簡單直接,且很多場景中相當有效。

在某個序列不含多個模式的時候,(舉例)我們姑且默認某個數(shù)據(jù)分布近似正態(tài)分布,在1、2、3倍標準差內(nèi)會有68%、95%、99%的數(shù)據(jù),我們稍微放寬對分布的假設(shè),可以想到箱線圖。考慮把上下觸須作為數(shù)據(jù)分布的邊界,任何超過內(nèi)限(或者外限)數(shù)據(jù)點都可以認為是離群點或異常值。

圖 箱線圖與正態(tài)分布

在實踐中,應(yīng)當注意“訓練數(shù)據(jù)”的正常性,如果在適用一維GMM的數(shù)據(jù)(例如有開車、停車兩種模式的電流測點數(shù)據(jù))上使用該方法,效果應(yīng)該不會很理想。

二、基于距離的方法

基于距離的方法同樣是忽略了時序,只不過對象從單個測量值變成了時窗,在做完特征構(gòu)建后,每個時窗都投射成了高維空間中的點。

用簡單的K近鄰就可以很好地進行異常檢驗,前提是我們構(gòu)造特征空間的過程是合適的。一個樣本點和它的第k個近鄰的距離(或平均距離)就可以被當做score,顯然異常點的score比較大。同樣,具有噪聲的基于密度的聚類方法(DBSCAN)和局部離群因子檢測方法( LOF)通過計算數(shù)據(jù)密度來檢測異常。當然,這同樣要求在特征空間異常點所在空間的數(shù)據(jù)點少,密度低。孤立森林(IF)的原理也有異曲同工之妙,它假定遠離主流樣本的點可以被更少的超平面分離。

圖 基于KNN的異常檢測

除這些方法外,也可以直接對樣本的協(xié)方差矩陣分析,把樣本的馬氏距離看作樣本點的異常度。

三、基于重建誤差

如果我們能標記或取得一些正常樣本點,我們可以用“有罪推定”的想法,即“不像好的,那就是壞的”,利用重建誤差做異常檢測。在工業(yè)生產(chǎn)中,取正常樣本是較為簡單的事。

假設(shè)數(shù)據(jù)在低維空間上有嵌入,那么在低維空間投射后表現(xiàn)不好的數(shù)據(jù)點就可以認為是異常點。具體來說,PCA找到k個特征向量,計算每個樣本再經(jīng)過這k個特征向量投射后的重建誤差,正常點的重建誤差應(yīng)小于異常點。

圖 基于PCA的重構(gòu)數(shù)據(jù)計算

利用同樣的思想,我們也可以用自動編碼器(AE)/GAN實現(xiàn),基本上假設(shè)是異常點服從不同的分布。根據(jù)正常數(shù)據(jù)訓練出來的AE,能夠?qū)⒄颖局亟ㄟ€原,但是卻無法將異于正常分布的數(shù)據(jù)點較好地還原,重建誤差較大。在LSTM-GAN中,以 LSTM 為基本模型來捕獲時間上的依賴關(guān)系,并將其嵌入到 GAN 的框架中,利用 GAN 的生成器和判別器來檢測異常,利用判別器得到判別損失,利用生成器得到重建的損失。


四、基于時間序列預測


在工業(yè)場景中考慮時序的異常檢測,與客流量預測、網(wǎng)絡(luò)KPI異常檢測等不太一樣,因為很多測點的劇烈升降是客觀的操作行為,我們可以結(jié)合監(jiān)督學習過濾掉這些手動操作產(chǎn)生的錯誤告警。一般來說,考慮時序的異常檢測可以分為對比與預測這兩大類的方法。

對比方法指的是移動平均、絕對偏差等方法,這類方法用時序上最近的若干數(shù)據(jù)點做樣本,和一個總體序列進行比對,不同的只是比對的對象。計算后常用殘差的標準差判定異常。

圖 使用滑動平均計算誤差

預測方法包含統(tǒng)計上的分解方法、其他可用于時序預測的ML模型。這類方法實際上是預測某個時間點的數(shù)值,再衡量這個時間點的真實值與預測值的差值是否超過給定閾值,從而判定異常。

其中,STL會把時間序列分解為趨勢項、季節(jié)項和余項。這種方法該方法的優(yōu)點在于其簡單性和健壯性。

圖 基于STL的殘差計算

同樣,我們也可使用LSTM等模型得到預測序列,之后可用使用格拉布斯法判斷殘差值。

圖 借助時序預測進行異常檢測
 

五、預警上下限/預警帶


在很多工業(yè)監(jiān)測平臺上,都標配預警上下限/預警帶功能,這一功能直觀且具有兜底能力,工廠管理人員與技術(shù)人員對此接受程度很高。

圖 人工設(shè)置的監(jiān)測預警帶

這種方法有一些不足之處:

1.  只能針對一種工況,即使只有“開車/停車”,也只能設(shè)置-0.2-9.7這種包含兩種模式大部分數(shù)據(jù)的預警帶;

2. 太寬會漏掉異常,太窄會大量誤報警。

結(jié)合基于距離、時間序列的一些方法,我們優(yōu)化了預警帶的效果。針對不同的工況,模型會給出特定的預警帶,實現(xiàn)了更準確的監(jiān)控,順便也完成了不同工況生產(chǎn)的數(shù)據(jù)統(tǒng)計。

圖 多工況模型控制的監(jiān)測預警帶

未來展望


故障監(jiān)測、預測的解決方案與實施路徑是很多的,在探索這些問題的同時,還可以結(jié)合壽命預測與維修決策共同研究:

1. 通過不同類型異常事件與設(shè)備壽命的建模,可以做基于預測信息的細化設(shè)備健康管理研究。

2. 工廠中有大量手工填寫的維修記錄表,如果可以做好基于NLP的粗糙故障信息知識表示與故障信息挖掘研究,有望形成故障樹或者其他形式的智能維修決策。

工業(yè)場景中,我們探索如何從傳感器數(shù)據(jù)中提取有價值的信息,工廠的數(shù)字化使得企業(yè)能夠?qū)⑷肆劢褂诩兇獾纳a(chǎn)。智能化的預知故障能夠及時發(fā)現(xiàn)早期故障及隱患,減少繼發(fā)性事故及惡性事故發(fā)生,對安全生產(chǎn)具有重要意義。
讀BD最佳實踐案例,贏DT未來!

18個行業(yè),106個中國大數(shù)據(jù)應(yīng)用最佳實踐案例:

(1)《贏在大數(shù)據(jù):中國大數(shù)據(jù)發(fā)展藍皮書》;

免費試讀:https://item.jd.com/12058569.html

(2)《贏在大數(shù)據(jù):金融/電信/媒體/醫(yī)療/旅游/數(shù)據(jù)市場行業(yè)大數(shù)據(jù)應(yīng)用典型案例》;

免費試讀:https://item.jd.com/12160046.html

(3)《贏在大數(shù)據(jù):營銷/房地產(chǎn)/汽車/交通/體育/環(huán)境行業(yè)大數(shù)據(jù)應(yīng)用典型案例》;

費試讀:https://item.jd.com/12160064.html

(4)《贏在大數(shù)據(jù):政府/工業(yè)/農(nóng)業(yè)/安全/教育/人才行業(yè)大數(shù)據(jù)應(yīng)用典型案例》。

免費試讀:https://item.jd.com/12058567.html

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多