午夜视频在线网站,日韩视频精品在线,中文字幕精品一区二区三区在线,在线播放精品,1024你懂我懂的旧版人,欧美日韩一级黄色片,一区二区三区在线观看视频

分享

一文看懂什么是強(qiáng)化學(xué)習(xí)?(基本概念 應(yīng)用場(chǎng)景 主流算法 案例)

 東山威夷 2024-04-08 發(fā)布于廣西

導(dǎo)讀本文將深入探討強(qiáng)化學(xué)習(xí)的相關(guān)內(nèi)容。

主要內(nèi)容包括:

1. 強(qiáng)化學(xué)習(xí)算法

2. 強(qiáng)化學(xué)習(xí)經(jīng)典算法—DQN 算法

3. 強(qiáng)化學(xué)習(xí)推薦算法提升短視頻留存

4. 強(qiáng)化學(xué)習(xí)未來挑戰(zhàn)

分享嘉賓|蔡慶芃博士 快手高級(jí)算法專家

黃世宇博士 前第四范式強(qiáng)化學(xué)習(xí)科學(xué)家

編輯整理|王振甲

內(nèi)容校對(duì)|李瑤

出品社區(qū)|DataFun

01

強(qiáng)化學(xué)習(xí)算法

1. 強(qiáng)化學(xué)習(xí)的目標(biāo):通用人工智能

一文看懂什么是強(qiáng)化學(xué)習(xí)?(基本概念+應(yīng)用場(chǎng)景+主流算法+案例)

強(qiáng)化學(xué)習(xí)的目標(biāo)是打造通用人工智能。這意味著通過智能體與環(huán)境的持續(xù)交互,利用動(dòng)作、獎(jiǎng)勵(lì)和觀測(cè)結(jié)果來逐步更新和優(yōu)化智能體的訓(xùn)練過程。其核心思想是通過最大化環(huán)境獎(jiǎng)勵(lì)來實(shí)現(xiàn)通用人工智能的目標(biāo)。這一過程中,智能體不斷地從與環(huán)境的交互中學(xué)習(xí)并調(diào)整其行為策略,以期望達(dá)到更高的智能水平。

2. 基礎(chǔ)數(shù)學(xué)模型:馬爾可夫決策過程(MDP)

一文看懂什么是強(qiáng)化學(xué)習(xí)?(基本概念+應(yīng)用場(chǎng)景+主流算法+案例)

從數(shù)學(xué)角度看,強(qiáng)化學(xué)習(xí)被建模為一個(gè)馬爾可夫決策過程。在這個(gè)過程中,智能體(agent)與環(huán)境在每個(gè)步驟(step)進(jìn)行交互。智能體執(zhí)行一個(gè)動(dòng)作(action),環(huán)境則返回當(dāng)前的立即獎(jiǎng)勵(lì)(reward)和下一個(gè)狀態(tài)(state)。這個(gè)過程持續(xù)進(jìn)行,形成一個(gè)狀態(tài)-動(dòng)作-獎(jiǎng)勵(lì)的序列。

在強(qiáng)化學(xué)習(xí)中,狀態(tài)是狀態(tài)集合中的一個(gè)元素,動(dòng)作是動(dòng)作集合中的一個(gè)元素。狀態(tài)轉(zhuǎn)移假設(shè)符合馬爾可夫性,即下一個(gè)狀態(tài)的概率僅依賴于當(dāng)前狀態(tài)和當(dāng)前動(dòng)作。獎(jiǎng)勵(lì)則由當(dāng)前狀態(tài)、當(dāng)前動(dòng)作以及下一個(gè)狀態(tài)聯(lián)合決定。

此外,還有一個(gè)重要的概念是 γ 值,它用于平衡即時(shí)獎(jiǎng)勵(lì)與未來潛在獎(jiǎng)勵(lì)的重要性。通過調(diào)整 γ 值,可以控制智能體在決策時(shí)是更側(cè)重于即時(shí)獎(jiǎng)勵(lì)還是未來的長(zhǎng)期獎(jiǎng)勵(lì)。

這種建模方式使得強(qiáng)化學(xué)習(xí)能夠在不確定環(huán)境中通過試錯(cuò)學(xué)習(xí)最優(yōu)策略,逐步提升性能并逼近最優(yōu)解。

一文看懂什么是強(qiáng)化學(xué)習(xí)?(基本概念+應(yīng)用場(chǎng)景+主流算法+案例)

強(qiáng)化學(xué)習(xí)作為機(jī)器學(xué)習(xí)的一個(gè)子類,與監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)并列。監(jiān)督學(xué)習(xí)側(cè)重于分類或擬合回歸,而無監(jiān)督學(xué)習(xí)則處理無標(biāo)簽的樣本。強(qiáng)化學(xué)習(xí)獨(dú)具特色,既包含有監(jiān)督的部分,又著重于優(yōu)化長(zhǎng)期價(jià)值。其數(shù)據(jù)樣本的獲取遵循在線學(xué)習(xí)的范式,從而呈現(xiàn)出與眾不同的特點(diǎn)。強(qiáng)化學(xué)習(xí)領(lǐng)域與經(jīng)濟(jì)學(xué)、心理學(xué)、神經(jīng)科學(xué)等多個(gè)領(lǐng)域緊密相連,甚至在哲學(xué)層面上存在一定的交叉。此外,強(qiáng)化學(xué)習(xí)與控制論、獎(jiǎng)勵(lì)系統(tǒng)以及運(yùn)籌學(xué)等領(lǐng)域也存在一定的重疊。

一文看懂什么是強(qiáng)化學(xué)習(xí)?(基本概念+應(yīng)用場(chǎng)景+主流算法+案例)

強(qiáng)化算法的優(yōu)化目標(biāo)可以聚焦于長(zhǎng)期獎(jiǎng)勵(lì)或當(dāng)前步驟的獎(jiǎng)勵(lì),這涉及到馬爾可夫決策過程和多智能體問題。在處理賭博機(jī)問題時(shí),可以采用動(dòng)作-價(jià)值方法或基于梯度的賭博機(jī)方法。

馬爾可夫決策過程可以根據(jù)是否使用環(huán)境模型分為基于模型和無模型兩類?;谀P偷乃惴梢酝ㄟ^學(xué)習(xí)環(huán)境的認(rèn)知建模,利用狀態(tài)轉(zhuǎn)移函數(shù)和獎(jiǎng)勵(lì)函數(shù)來做出最優(yōu)決策,如使用 MuZero 和蒙特卡洛搜索等算法。無模型算法可以分為基于價(jià)值和基于策略兩類強(qiáng)化學(xué)習(xí)算法。基于價(jià)值的強(qiáng)化學(xué)習(xí)算法僅學(xué)習(xí)一個(gè)價(jià)值函數(shù),即估計(jì)當(dāng)前狀態(tài)下采取動(dòng)作后的 Q 值,代表性的算法有 DQN。DQN 進(jìn)一步演化出了 C51 等算法,適用于離散空間,并擴(kuò)展到連續(xù)空間的 DDPG 算法。DDPG 算法采用近似最大化,并衍生出了解決連續(xù)空間決策問題的 TD3、SAC 等算法。

在基于策略的強(qiáng)化學(xué)習(xí)算法中,可以分為無梯度和有梯度兩類。無梯度算法采用進(jìn)化策略等演化計(jì)算類似的算法。有梯度算法則包括 TRPO 算法、PPO 算法等,其中PPO 算法在 MOBA 游戲 AI 和大語言模型的 RLHF 訓(xùn)練中得到了廣泛應(yīng)用。

3. 強(qiáng)化學(xué)習(xí)的應(yīng)用

一文看懂什么是強(qiáng)化學(xué)習(xí)?(基本概念+應(yīng)用場(chǎng)景+主流算法+案例)

強(qiáng)化學(xué)習(xí)的線上應(yīng)用涵蓋了多個(gè)領(lǐng)域。在游戲 AI 方面,強(qiáng)化學(xué)習(xí)被廣泛應(yīng)用于圍棋和星際爭(zhēng)霸等游戲中。此外,在工藝控制、金融量化、機(jī)器人控制、運(yùn)籌優(yōu)化和交通燈調(diào)度等方面,強(qiáng)化學(xué)習(xí)也發(fā)揮著重要作用。同時(shí),強(qiáng)化學(xué)習(xí)還在大模型對(duì)齊等任務(wù)中展現(xiàn)出其獨(dú)特的價(jià)值。這些應(yīng)用展示了強(qiáng)化學(xué)習(xí)在解決實(shí)際問題中的廣泛適用性和重要性。

02

強(qiáng)化學(xué)習(xí)經(jīng)典算法—DQN 算法

在強(qiáng)化學(xué)習(xí)領(lǐng)域,DQN 算法是一種廣受歡迎的經(jīng)典方法,它基于價(jià)值函數(shù)進(jìn)行學(xué)習(xí)。

1. 強(qiáng)化學(xué)習(xí):基于樣本的 Q 值迭代

一文看懂什么是強(qiáng)化學(xué)習(xí)?(基本概念+應(yīng)用場(chǎng)景+主流算法+案例)

與 Q-learning 類似,DQN 致力于估計(jì)在給定狀態(tài)下執(zhí)行某個(gè)動(dòng)作的長(zhǎng)期回報(bào)。為實(shí)現(xiàn)這一目標(biāo),DQN 利用貝爾曼方程來構(gòu)建一個(gè)目標(biāo)值,該目標(biāo)值由當(dāng)前狀態(tài)的即時(shí)獎(jiǎng)勵(lì)和從下一個(gè)狀態(tài)到序列結(jié)束的最大可能價(jià)值組成。在此過程中,DQN 采用 max 算子來選擇下一個(gè)狀態(tài)中具有最大 Q 值的動(dòng)作。一旦確定了目標(biāo)值,DQN 會(huì)采用軟更新的方式來逐步調(diào)整其 Q 值估計(jì)。其中,學(xué)習(xí)率 α 扮演著至關(guān)重要的角色,它控制著更新的步長(zhǎng)。值得一提的是,DQN 算法在理論上具有一定的收斂性保證。具體來說,當(dāng)所有的狀態(tài)-動(dòng)作對(duì)都被無限次地訪問,并且學(xué)習(xí)率滿足一定條件時(shí),DQN 可以逐漸收斂到最優(yōu)的價(jià)值函數(shù)。

一文看懂什么是強(qiáng)化學(xué)習(xí)?(基本概念+應(yīng)用場(chǎng)景+主流算法+案例)

為了將評(píng)估方法擴(kuò)展到連續(xù)的狀態(tài)空間,需要結(jié)合深度神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)。具體而言,首先通過卷積神經(jīng)網(wǎng)絡(luò)對(duì)狀態(tài)進(jìn)行表征,隨后利用全連接層輸出每個(gè)動(dòng)作的信用值。最終,我們選擇具有最高置信度的動(dòng)作進(jìn)行執(zhí)行。這種方法使我們能夠在連續(xù)狀態(tài)空間中有效地進(jìn)行決策和評(píng)估。

2. Deep Q-Networks – 目標(biāo)網(wǎng)絡(luò)

一文看懂什么是強(qiáng)化學(xué)習(xí)?(基本概念+應(yīng)用場(chǎng)景+主流算法+案例)

盡管神經(jīng)網(wǎng)絡(luò)在函數(shù)近似方面表現(xiàn)出色,但其應(yīng)用仍存在一些問題。特別是,當(dāng)使用神經(jīng)網(wǎng)絡(luò)來表征動(dòng)作價(jià)值時(shí),隨著價(jià)值網(wǎng)絡(luò)參數(shù)的變化,模型預(yù)估的目標(biāo)值也會(huì)動(dòng)態(tài)地變化。這種現(xiàn)象構(gòu)成了一個(gè)“moving target”問題,增加了算法的復(fù)雜性。為了緩解這個(gè)問題,可以引入一個(gè) target network,這是一個(gè)獨(dú)立的、學(xué)習(xí)速度較慢的網(wǎng)絡(luò)。作為原始神經(jīng)網(wǎng)絡(luò)的慢拷貝,target network 的學(xué)習(xí)速度更慢,從而防止目標(biāo)變更過快。這種方法可以一定程度上提高算法的穩(wěn)定性。

03

強(qiáng)化學(xué)習(xí)推薦算法提升短視頻留存

在短視頻推薦系統(tǒng)中,強(qiáng)化學(xué)習(xí)的應(yīng)用顯得尤為重要。這是因?yàn)槎桃曨l推薦的核心目標(biāo)是提升用戶滿意度,而用戶滿意度的關(guān)鍵指標(biāo)則是留存率。

1. 短視頻推薦中的用戶留存

一文看懂什么是強(qiáng)化學(xué)習(xí)?(基本概念+應(yīng)用場(chǎng)景+主流算法+案例)

留存率直接反映了用戶對(duì)推薦內(nèi)容或平臺(tái)的體驗(yàn),因此,對(duì)于如抖音、快手等平臺(tái)來說,留存率成為了其核心的評(píng)估標(biāo)準(zhǔn)。留存率作為用戶與平臺(tái)多次交互的長(zhǎng)期反饋,體現(xiàn)了用戶每次打開 APP、觀看多個(gè)視頻后的行為決策。用戶可能會(huì)在一段時(shí)間后重新返回 APP,這種延遲反饋與圍棋比賽中的阿爾法 go 類似,需要在多步之后進(jìn)行評(píng)估。

傳統(tǒng)的推薦算法在處理這種延遲反饋時(shí)面臨挑戰(zhàn),因?yàn)樗鼈冸y以直接優(yōu)化長(zhǎng)期反饋。相比之下,強(qiáng)化學(xué)習(xí)作為一種能夠直接最大化長(zhǎng)期獎(jiǎng)勵(lì)的方法,非常適合解決這類問題。在此場(chǎng)景下,我們將問題建模為一個(gè)無窮序列的馬爾可夫決策過程,其中每次用戶打開 APP 都被視為一個(gè)新的開始。推薦系統(tǒng)在每個(gè)步驟中返回六個(gè)視頻作為動(dòng)作,用戶則給出即時(shí)反饋。經(jīng)過多次交互后,用戶可能離開 APP 并在下一個(gè)會(huì)話中重新打開,這構(gòu)成了會(huì)話之間的回訪時(shí)間間隔。

強(qiáng)化學(xué)習(xí)的目標(biāo)在于最小化多個(gè)會(huì)話間的累計(jì)回訪時(shí)間間隔,這在統(tǒng)計(jì)上等同于提高用戶對(duì)平臺(tái)的訪問量。值得注意的是,與之前強(qiáng)化學(xué)習(xí)在推薦系統(tǒng)中的應(yīng)用不同,此次方法首次針對(duì)回訪時(shí)間間隔進(jìn)行優(yōu)化,構(gòu)成了一個(gè)創(chuàng)新點(diǎn)。這種方法不僅有助于提升用戶滿意度和留存率,還為強(qiáng)化學(xué)習(xí)在推薦系統(tǒng)中的應(yīng)用開辟了新的思路。

2. 基于無限域請(qǐng)求的馬爾可夫決策過程

一文看懂什么是強(qiáng)化學(xué)習(xí)?(基本概念+應(yīng)用場(chǎng)景+主流算法+案例)

為了更細(xì)致地解決這一問題,我們對(duì)模型進(jìn)行了更深入地構(gòu)建。在我們的模型中,狀態(tài)涵蓋了用戶的屬性、歷史記錄以及候選視頻的特征。而動(dòng)作則指的是融合多個(gè)即時(shí)排序函數(shù)的過程,即生成一個(gè)排序打分的向量。值得注意的是,我們所處理的實(shí)際空間是一個(gè)連續(xù)空間,最終目標(biāo)是最小化多個(gè)會(huì)話之間的回訪時(shí)間間隔。通過這樣的建模和優(yōu)化,我們能夠更精確地理解用戶行為,并提供更符合其偏好的視頻推薦,從而提升用戶體驗(yàn)和滿意度。

3. 用戶留存算法的強(qiáng)化學(xué)習(xí)

一文看懂什么是強(qiáng)化學(xué)習(xí)?(基本概念+應(yīng)用場(chǎng)景+主流算法+案例)

接下來將深入探討這一方法的訓(xùn)練過程。我們所采用的是一個(gè) active critic 學(xué)習(xí)框架,其核心在于優(yōu)化回訪時(shí)間目標(biāo)及其與即時(shí)信號(hào) critic 值之和。在 critic 的學(xué)習(xí)過程中,例如對(duì)于留存率(retention)這一信號(hào),我們采用了一種基于 TD-learning 的方法,其機(jī)制類似于 TD3 方法。

然而,當(dāng)涉及到即時(shí)響應(yīng)時(shí),情況變得更為復(fù)雜。為了超越僅僅學(xué)習(xí)立即互動(dòng)、轉(zhuǎn)發(fā)時(shí)長(zhǎng)等信號(hào),我們引入了一個(gè) RND 網(wǎng)絡(luò)。這一網(wǎng)絡(luò)源自強(qiáng)化學(xué)習(xí)中的探索方法,用于計(jì)算每個(gè)樣本的探索價(jià)值,并將其作為內(nèi)在獎(jiǎng)勵(lì)來增強(qiáng)樣本。

在實(shí)際應(yīng)用中,行動(dòng)者(actor)會(huì)根據(jù)每個(gè)請(qǐng)求的輸入狀態(tài)輸出一個(gè) K 維的動(dòng)作向量。這一向量與監(jiān)督學(xué)習(xí)模型的打分進(jìn)行內(nèi)積運(yùn)算,最終得到一個(gè)排名分?jǐn)?shù)(ranking score)?;谶@一排名分?jǐn)?shù),我們會(huì)選出前 6 名的視頻呈現(xiàn)給用戶。

通過這一綜合方法,能夠更精準(zhǔn)地滿足用戶需求,提升用戶體驗(yàn),并在推薦系統(tǒng)中實(shí)現(xiàn)更高效和個(gè)性化的內(nèi)容推薦。

4. 離線和在線實(shí)驗(yàn)

一文看懂什么是強(qiáng)化學(xué)習(xí)?(基本概念+應(yīng)用場(chǎng)景+主流算法+案例)

我們對(duì)所提出的方法進(jìn)行了離線和在線的驗(yàn)證。在離線驗(yàn)證中,基于著名的短視頻推薦平臺(tái)快手的數(shù)據(jù),我們構(gòu)建了一個(gè)公開數(shù)據(jù)集和模擬器。通過對(duì)比黑盒優(yōu)化的CEM 方法和 TD3 方法,我們發(fā)現(xiàn)提出的 RLUR 方法在返回時(shí)間和用戶留存率上均表現(xiàn)出顯著的提升。此外,我們還進(jìn)行了在線驗(yàn)證,結(jié)果表明,相較于基線 CEM 方法,RLUR 方法顯著提高了 APP 的打卡頻次和用戶留存率,驗(yàn)證了其在實(shí)際推薦系統(tǒng)中的有效性。這些實(shí)驗(yàn)結(jié)果充分證明了 RLUR 方法在實(shí)際應(yīng)用中的潛力和價(jià)值。

04

強(qiáng)化學(xué)習(xí)未來挑戰(zhàn)

一文看懂什么是強(qiáng)化學(xué)習(xí)?(基本概念+應(yīng)用場(chǎng)景+主流算法+案例)

在探討強(qiáng)化學(xué)習(xí)方法的未來挑戰(zhàn)時(shí),我們需關(guān)注幾個(gè)核心問題。首先是樣本效率問題,強(qiáng)化學(xué)習(xí)模型相較于監(jiān)督學(xué)習(xí)模型,通常需要更大的樣本量和更長(zhǎng)的訓(xùn)練時(shí)間。為解決這一問題,可能需要研究并應(yīng)用更為高效的樣本利用算法。其次,面對(duì)稀疏獎(jiǎng)勵(lì)的問題,需要探索更為智能的探索策略來應(yīng)對(duì)。

此外,強(qiáng)化學(xué)習(xí)模型的泛化性能也是一個(gè)重要議題。可以借鑒多任務(wù)學(xué)習(xí)和終身學(xué)習(xí)的算法,嘗試提升模型在不同環(huán)境和任務(wù)間的適應(yīng)能力。同時(shí),多智能體環(huán)境下的合作問題以及非完全信息博弈中的多智能強(qiáng)化學(xué)習(xí)問題,也是未來研究的重要方向。

最后,我們還需要關(guān)注強(qiáng)化學(xué)習(xí)在實(shí)際應(yīng)用中的創(chuàng)新點(diǎn),以及在大模型中的高效實(shí)現(xiàn)。這些方向的研究將有助于推動(dòng)強(qiáng)化學(xué)習(xí)在實(shí)際問題中的廣泛應(yīng)用和性能提升。

以上就是本次分享的內(nèi)容,謝謝大家。

一文看懂什么是強(qiáng)化學(xué)習(xí)?(基本概念+應(yīng)用場(chǎng)景+主流算法+案例)

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多