針對上述問題,我們需要用到諸如深度Q學(xué)習(xí)(Deep-Q learning)之類的技術(shù),并使用機器學(xué)習(xí)來試著解決。深度Q學(xué)習(xí)顧名思義,深度Q學(xué)習(xí)不再維護一張大型的Q值表,而是利用神經(jīng)網(wǎng)絡(luò)從給定的動作和狀態(tài)輸入中去接近Q值函數(shù)。在一些公式中,作為輸入的狀態(tài)已經(jīng)被給出,而所有可能的動作Q值都作為輸出被產(chǎn)生。此處的神經(jīng)網(wǎng)絡(luò)被稱為Deep-Q–Network(DQN),其基本思想如下圖所示:圖片來源:在Python中使用OpenAI Gym進行深度Q學(xué)習(xí)的入門(請參見--https://www./blog/2019/04/introduction-deep-q-learning-python/)不過DQN在使用的時候有一定的難度。而在傳統(tǒng)的深度學(xué)習(xí)算法中,由于我們對輸入樣本進行了隨機化處理,因此輸入的類別在各種訓(xùn)練批次之間,都是非常均衡且穩(wěn)定的。在強化學(xué)習(xí)中,搜索會在探索階段(exploration phase)不斷被改進,進而不斷地更改輸入和動作的空間。此外,隨著系統(tǒng)逐漸加深對于環(huán)境的了解,Q的目標(biāo)值也會自動被更新。簡而言之,對于簡單的DQN系統(tǒng)而言,輸入和輸出都是經(jīng)常變化的。為了解決該問題,DQN引入了體驗重播(experience replay)和目標(biāo)網(wǎng)絡(luò)(target network)的概念來減緩變化,進而以受控且穩(wěn)定的方式逐步學(xué)習(xí)Q表。其中,體驗重播在特定的緩沖區(qū)中存儲一定量的狀態(tài)動作獎勵值(例如,最后有一百萬個)。而對于Q函數(shù)的訓(xùn)練,它使用來自緩沖區(qū)的隨機樣本的小批量來完成。因此,訓(xùn)練樣本不但是隨機的,并且能夠表現(xiàn)得更接近傳統(tǒng)深度學(xué)習(xí)中監(jiān)督學(xué)習(xí)的典型情況。這有點類似于系統(tǒng)具有高效的短期記憶,我們在探索未知環(huán)境時可以用到它。此外,DQN通常使用兩個網(wǎng)絡(luò)來存儲Q值。一個網(wǎng)絡(luò)不斷被更新,而另一個網(wǎng)絡(luò)(即:目標(biāo)網(wǎng)絡(luò))與第一個網(wǎng)絡(luò)以固定的間隔進行同步。我們使用目標(biāo)網(wǎng)絡(luò)來檢索Q值,以保證目標(biāo)值的變化波動較小。深度強化學(xué)習(xí)的實際應(yīng)用進行Atari游戲成立于2010年的DeepMind(請參見--https:///)是一家位于倫敦的初創(chuàng)公司。該公司于2014年被Google的母公司Alphabet所收購,并成功地將卷積神經(jīng)網(wǎng)絡(luò)(CNN)和Q學(xué)習(xí)結(jié)合起來用于訓(xùn)練。它為深度強化學(xué)習(xí)領(lǐng)域做出了開拓性貢獻。例如:某個代理可以通過原始像素的輸入(如某些感知信號),來進行Atari游戲。欲知詳情,請參見--https:///research/publications/playing-atari-deep-reinforcement-learning)圖片來源:DeepMind在arXiV上有關(guān)Atari的文章(2013年)(請參見--https:///pdf/1312.5602v1.pdf)。Alpha Go和Alpha Go Zero3000多年前起源于中國的圍棋,憑借著其復(fù)雜性,被稱為AI最具挑戰(zhàn)性的經(jīng)典游戲。標(biāo)準(zhǔn)的AI處理方法是:使用搜索樹(search tree)來測試所有可能的移動和位置。但是,AI無法處理大量棋子的可能性移動,或評估每個可能性棋盤位置的強度。借助深度強化學(xué)習(xí)的技術(shù)和新穎的搜索算法,DeepMind開發(fā)了AlphaGo,這是第一個擊敗了人類職業(yè)圍棋選手的計算機程序,第一個擊敗了圍棋世界冠軍的程序,也可以說是歷史上最強的圍棋選手。圖片來源:https:///point-nine-news/what-does-alphago-vs-8dadec65aafAlpha Go的升級版本被稱為Alpha Go Zero。該系統(tǒng)源于一個對圍棋規(guī)則一無所知的神經(jīng)網(wǎng)絡(luò)。該神經(jīng)網(wǎng)絡(luò)通過與功能強大的搜索算法相結(jié)合,不斷和自己下棋,與自己進行對抗。在重復(fù)進行游戲的過程中,神經(jīng)網(wǎng)絡(luò)會通過持續(xù)調(diào)整和更新,來預(yù)測下棋的步驟,并最終成為游戲的贏家。通過不斷的迭代,升級后的神經(jīng)網(wǎng)絡(luò)與搜索算法重新組合,以提升系統(tǒng)的性能,并不斷提高與自己對弈的水平。圖片來源:從零開始的Alpha Go Zero(請參見--https:///blog/article/alphago-zero-starting-scratch)在石油和天然氣行業(yè)中的應(yīng)用荷蘭皇家殼牌公司一直在其勘探和鉆探工作中通過強化學(xué)習(xí)的部署,以降低高昂的天然氣開采成本,并改善整個供應(yīng)鏈中的多個環(huán)節(jié)。那些經(jīng)過了歷史鉆探數(shù)據(jù)訓(xùn)練的深度學(xué)習(xí)算法,以及基于物理學(xué)的高級模擬技術(shù),讓天然氣鉆頭在穿過地表后,能夠智能地移動。深度強化學(xué)習(xí)技術(shù)還能夠?qū)崟r地利用來自鉆頭的機械數(shù)據(jù)(如:壓力和鉆頭的溫度),以及地表下的地震勘測數(shù)據(jù)。欲知詳情,請參見--https://www./sites/bernardmarr/2019/01/18/the-incredible-ways-shell-uses-artificial-intelligence-to-help-transform-the-oil-and-gas-giant/#187951c42701。自動駕駛雖然不是主流應(yīng)用,但是深度強化學(xué)習(xí)在自動駕駛汽車的各種挑戰(zhàn)性問題上,也發(fā)揮著巨大的潛力。其中包括:
車輛控制
坡道合并
個人駕駛風(fēng)格的感知
針對安全超車的多目標(biāo)強化學(xué)習(xí)
欲知詳情,請參見-- https:///pdf/1901.01536.pdf。總結(jié)深度增強學(xué)習(xí)是真正可擴展的通用人工智能(Artificial general intelligence,AGI),是AI系統(tǒng)的最終發(fā)展方向。在實際應(yīng)用中,它催生了諸如Alpha Go之類的智能代理,實現(xiàn)了自行從零開始學(xué)習(xí)游戲規(guī)則(也就是人們常說的:外部世界的法則),而無需進行明確的訓(xùn)練和基于規(guī)則的編程。我們樂觀地認(rèn)為,深度增強學(xué)習(xí)的未來和前景將是一片光明。 編輯 ∑Gemini