午夜视频在线网站,日韩视频精品在线,中文字幕精品一区二区三区在线,在线播放精品,1024你懂我懂的旧版人,欧美日韩一级黄色片,一区二区三区在线观看视频

分享

【團隊新作】深度強化學(xué)習(xí)進展: 從AlphaGo到AlphaGo Zero

 GTF_001 2018-09-09
CASIA

【今日聚焦】

2016年初, AlphaGo戰(zhàn)勝李世石成為人工智能的里程碑事件. 其核心技術(shù)深度強化學(xué)習(xí)受到人們的廣泛關(guān)注和研究, 取得了豐碩的理論和應(yīng)用成果. 并進一步研發(fā)出算法形式更為簡潔的AlphaGo Zero, 其采用完全不基于人類經(jīng)驗的自學(xué)習(xí)算法, 完勝AlphaGo, 再一次刷新人們對深度強化學(xué)習(xí)的認知. 深度強化學(xué)習(xí)結(jié)合了深度學(xué)習(xí)和強化學(xué)習(xí)的優(yōu)勢, 可以在復(fù)雜高維的狀態(tài)動作空間中進行端到端的感知決策.

一、深度強化學(xué)習(xí)算法進展

深度學(xué)習(xí)起源于人工神經(jīng)網(wǎng)絡(luò). 早期研究人員提出了多層感知機的概念, 并且使用反向傳播算法優(yōu)化多層神經(jīng)網(wǎng)絡(luò), 但是由于受到梯度彌散或爆炸問題的困擾和硬件資源的限制, 神經(jīng)網(wǎng)絡(luò)的研究一直沒有取得突破性進展. 最近幾年, 隨著計算資源的性能提升和相應(yīng)算法的發(fā)展, 深度學(xué)習(xí)在人工智能領(lǐng)域取得了一系列重大突破, 包括圖像識別、語音識別、自然語言處理等.

來自網(wǎng)絡(luò)


強化學(xué)習(xí)是機器學(xué)習(xí)中的一個重要研究領(lǐng)域, 它以試錯的機制與環(huán)境進行交互, 通過最大化累積獎賞來學(xué)習(xí)最優(yōu)策略。強化學(xué)習(xí)不需要監(jiān)督信號,可以在模型未知的環(huán)境中平衡探索和利用, 其主要算法有蒙特卡羅強化學(xué)習(xí), 時間差分(temporal difference:TD)學(xué)習(xí), 策略梯度等。深度學(xué)習(xí)具有較強的感知能力, 但是缺乏一定的決策能力; 而強化學(xué)習(xí)具有較強的決策能力, 但對感知問題束手無策. 因此, 將兩者結(jié)合起來, 優(yōu)勢互補, 能夠為復(fù)雜狀態(tài)下的感知決策問題提供解決思路。


1.深度Q網(wǎng)絡(luò)及其擴展

2015年, Google DeepMind團隊提出了深度Q網(wǎng)絡(luò)(deep Q network, DQN), DQN創(chuàng)新性地將卷積神經(jīng)網(wǎng)絡(luò)和Q學(xué)習(xí)結(jié)合到一起, 通過經(jīng)驗回放技術(shù)和固定目標Q網(wǎng)絡(luò), 使神經(jīng)網(wǎng)絡(luò)非線性動作值函數(shù)逼近器帶來的不穩(wěn)定性和發(fā)散性問題得到有效處理, 極大提升了強化學(xué)習(xí)方法的適用性. 經(jīng)驗回放增加了歷史數(shù)據(jù)的利用效率, 同時隨機采樣打破了數(shù)據(jù)間的相關(guān)性, 與目標Q網(wǎng)絡(luò)的結(jié)合進一步穩(wěn)定了動作值函數(shù)的訓(xùn)練過程. 此外, 通過截斷獎賞和正則化網(wǎng)絡(luò)參數(shù), 梯度被限制到合適的范圍內(nèi), 從而使訓(xùn)練過程更加魯棒。


此后, 研究人員又陸續(xù)提出了一些DQN的重要擴展, 進一步完善DQN 算法. 彩虹(Rainbow)將各類DQN的算法優(yōu)勢集成在一體, 取得目前最優(yōu)的算法性能, 視為DQN算法的集大成者.



2.A3C及其擴展

深度強化學(xué)習(xí)領(lǐng)域另一個重要算法是異步優(yōu)勢actor-critic (asynchronous advantage actor-critic, A3C)。A3C 采用了actor-critic(AC)這一強化學(xué)習(xí)算法.相比DQN 算法, A3C 算法不需要使用經(jīng)驗池存儲歷史樣本, 節(jié)省存儲空間, 并通過提高數(shù)據(jù)的采樣效率, 以此提升訓(xùn)練速度. 與此同時, 采用多個不同訓(xùn)練環(huán)境采集樣本,使樣本的分布也更加均勻, 更有利于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練.A3C算法在以上多個環(huán)節(jié)上做出了改進, 使得其在Atari游戲上的平均成績是DQN算法的4倍.A3C算法由于其優(yōu)秀的性能, 很快成為了深度強化學(xué)習(xí)領(lǐng)域新的基準算法.



3.策略梯度深度強化學(xué)習(xí)及其擴展

基于值函數(shù)的深度強化學(xué)習(xí)主要應(yīng)用于離散動作空間的任務(wù). 面對連續(xù)動作空間的任務(wù),基于策略梯度的深度強化學(xué)習(xí)算法能獲得更好的決策效果.Lillicrap等提出的深度確定性策略梯度算法(deep deterministic policy gradient, DDPG),以確定性策略梯度算法(deterministic policy gradient, DPG)為基礎(chǔ), 將DQN算法在離散控制任務(wù)上的成功經(jīng)驗應(yīng)用到連續(xù)控制任務(wù)的研究。DDPG是無模型、離策略(off-policy)actor-critic算法, 使用深度神經(jīng)網(wǎng)絡(luò)作為逼近器, 將深度學(xué)習(xí)和確定性策略梯度算法有效地結(jié)合在一起. Schulman等提出可信域策略優(yōu)化(trust region policy optimization, TRPO)處理隨機策略的訓(xùn)練過程, 保證策略優(yōu)化過程穩(wěn)定提升, 同時證明了期望獎賞呈單調(diào)性增長.



4.深度強化學(xué)習(xí)算法小結(jié)

除了上述深度強化學(xué)習(xí)算法, 還有深度遷移強化學(xué)習(xí)、分層深度強化學(xué)習(xí)、深度記憶強化學(xué)習(xí)以及多智能體深度強化學(xué)習(xí)等算法.綜合來看,基于值函數(shù)概念的DQN及其相應(yīng)的擴展算法在離散狀態(tài)、離散動作的控制任務(wù)中已經(jīng)表現(xiàn)了卓越的性能, 但是受限于值函數(shù)離散型輸出的影響, 在連續(xù)型控制任務(wù)上顯得捉襟見肘.基于策略梯度概念的,以DDPG, TRPO等為代表的策略型深度強化學(xué)習(xí)算法則更適用于處理基于連續(xù)狀態(tài)空間的連續(xù)動作的控制輸出任務(wù), 并且算法在穩(wěn)定性和可靠性上具有一定的理論保證, 理論完備性較強. 采用actor-critic架構(gòu)的A3C算法及其擴展算法, 相比于傳統(tǒng)DQN算法, 這類算法的數(shù)據(jù)利用效率更高, 學(xué)習(xí)速率更快, 通用性、可擴展應(yīng)用性更強, 達到的表現(xiàn)性能更優(yōu), 但算法的穩(wěn)定性無法得到保證. 而其他的如深度遷移強化學(xué)習(xí)、分層深度強化學(xué)習(xí)、深度記憶強化學(xué)習(xí)和多智能體深度強化學(xué)習(xí)等算法都是現(xiàn)在的研究熱點, 通過這些算法能應(yīng)對更為復(fù)雜的場景問題、系統(tǒng)環(huán)境及控制任務(wù), 是目前深度強化學(xué)習(xí)算法研究的前沿領(lǐng)域.



二、從AlphaGo到AlphaGo Zero

人工智能領(lǐng)域一個里程碑式的工作是由Google DeepMind 在2016 年初發(fā)表于《Nature》上的圍棋AI:AlphaGo.它創(chuàng)新性地結(jié)合深度強化學(xué)習(xí)和蒙特卡羅樹搜索, 通過策略網(wǎng)絡(luò)選擇落子位置降低搜索寬度, 使用價值網(wǎng)絡(luò)評估局面以減小搜索深度, 使搜索效率得到了大幅提升, 勝率估算也更加精確.與此同時, AlphaGo使用強化學(xué)習(xí)的自我博弈來對策略網(wǎng)絡(luò)進行調(diào)整, 改善策略網(wǎng)絡(luò)的性能, 使用自我對弈和快速走子結(jié)合形成的棋譜數(shù)據(jù)進一步訓(xùn)練價值網(wǎng)絡(luò). 最終在線對弈時,結(jié)合策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)的蒙特卡羅樹搜索在當(dāng)前局面下選擇最終的落子位置.AlphaGo成功地整合了上述算法, 并依托強大的硬件支持達到了頂尖棋手的水平。

來自網(wǎng)絡(luò)


在AlphaGo的基礎(chǔ)上, DeepMind進一步提出了AlphaGo Zero。AlphaGo Zero棋力提升的關(guān)鍵因素可以歸結(jié)為兩點, 一是使用基于殘差模塊構(gòu)成的深度神經(jīng)網(wǎng)絡(luò), 不需要人工制定特征, 通過原始棋盤信息便可提取相關(guān)表示特征; 二是使用新的神經(jīng)網(wǎng)絡(luò)構(gòu)造啟發(fā)式搜索函數(shù), 優(yōu)化蒙特卡羅樹搜索算法, 使用神經(jīng)網(wǎng)絡(luò)估值函數(shù)替換快速走子過程,使算法訓(xùn)練學(xué)習(xí)和執(zhí)行走子所需要的時間大幅減少。



AlphaGo Zero的成功證明了在沒有人類經(jīng)驗指導(dǎo)的前提下, 深度強化學(xué)習(xí)算法仍然能在圍棋領(lǐng)域出色地完成這項復(fù)雜任務(wù), 甚至比有人類經(jīng)驗知識指導(dǎo)時, 達到更高的水平. 在圍棋下法上, AlphaGo Zero比此前的版本創(chuàng)造出了更多前所未見的下棋方式, 為人類對圍棋領(lǐng)域的認知打開了新的篇章. 就某種程度而言, AlphaGo Zero展現(xiàn)了機器“機智過人”的一面. 從以下幾個方面對 AlphaGo 和 AlphaGo Zero進行比較.


1) 局部最優(yōu)與全局最優(yōu).

雖然AlphaGo和AlphaGo Zero都以深度學(xué)習(xí)作 為核心算法, 但是核心神經(jīng)網(wǎng)絡(luò)的初始化方式卻不 同. AlphaGo是基于人類專家棋譜使用監(jiān)督學(xué)習(xí)進 行訓(xùn)練, 雖然算法的收斂速度較快, 但易于陷入局 部最優(yōu). AlphaGo Zero則沒有使用先驗知識和專家 數(shù)據(jù), 避開了噪聲數(shù)據(jù)的影響, 直接基于強化學(xué)習(xí) 以逐步逼近至全局最優(yōu)解. 最終AlphaGo Zero的圍 棋水平要遠高于AlphaGo.

2) 大數(shù)據(jù)與深度學(xué)習(xí)的關(guān)系.

……

3) 強化學(xué)習(xí)算法的收斂性.

……

4) 算法的“加法”和“減法”.

……


三、深度強化學(xué)習(xí)應(yīng)用和展望

AlphaGo的出現(xiàn)使深度強化學(xué)習(xí)在游戲、機器人、自然語言處理、智能駕駛和智能醫(yī)療等諸多領(lǐng)域得到了更加廣泛的應(yīng)用推廣。相信AlphaGo Zero的成功會進一步促進以深度強化學(xué)習(xí)為基礎(chǔ)的其他人工智能領(lǐng)域的發(fā)展。


DeepMind又提出了同時適用于國際象棋和日本將棋的通用AI: Alpha Zero, 其使用5000塊I代TPU和64塊II代TPU完成自我對弈數(shù)據(jù)的產(chǎn)生和神經(jīng)網(wǎng)絡(luò)的訓(xùn)練, 用了不到2個小時就擊敗了日本將棋的最強程序Elmo, 用了4個小時打敗了國際象棋最強程序Stockfish, 僅用了8個小時就超過了AlphaGo Lee的對弈水平. 深度強化學(xué)習(xí)算法的貢獻不言而喻, 但不能忽視算法背后所需要的強大算力資源. 要想更快提升算法的訓(xùn)練效率, 不能一味依靠硬件資源的支撐, 更需要對數(shù)據(jù)的利用訓(xùn)練效率展開更加深入細致的研究, 才能更有效地推進實際應(yīng)用. 另, 深度強化學(xué)習(xí)的訓(xùn)練穩(wěn)定性提升的理論保證和算法探索,基于多智能體協(xié)作的深度強化學(xué)習(xí)算法等,都將成為未來的研究熱點.

來源:控制理論與應(yīng)用

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多