連續(xù)空間強化學習研究.pdf_第1頁
已閱讀1頁,還剩137頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、作為一類求解序貫決策問題的重要方法,強化學習因其獨特的無教師自主學習機制而倍受關注。盡管強化學習近年來已取得了較大進展,但在求解具有連續(xù)狀態(tài)和動作空間的實際問題時仍面臨諸多挑戰(zhàn),例如易遭受維數(shù)災難和學習效率不高。為此,本文對連續(xù)空間強化學習展開研究,主要工作和創(chuàng)新概述如下:
  (1)針對現(xiàn)有線性局部逼近時域差分(Temporal Difference,TD)學習算法大多不能對連續(xù)狀態(tài)空間自適應表示和對連續(xù)動作策略精確求解兩大問題

2、,提出一種增量最近鄰TD學習框架,并就各關鍵部分給出多種定義方案。所提框架建立在相鄰狀態(tài)的值函數(shù)與策略通常具有較高的相似性這一規(guī)律之上,通過在線選取部分觀測狀態(tài)構建稀疏化詞典,并采用局部加權學習實現(xiàn)值函數(shù)和連續(xù)策略逼近,可同時用于離散和連續(xù)動作空間策略學習。理論分析與仿真實驗表明,該框架不僅具有簡單、高效、開放、易于理解等優(yōu)點,而且具有較為可靠的收斂保證。
  (2)針對現(xiàn)有基于核的最小二乘TD算法不能在線稀疏化且未考慮過擬合兩大

3、問題,提出三種基于核的在線稀疏化遞歸最小二乘TD(Recursive Least-Squares TD,RLSTD)算法,分別稱作OSKRLSTD-L2、OSKRLSTD-L1和OSMKRLSTD-L2算法。三種算法均使用了最優(yōu)化Bellman投影算子、在線稀疏化、正則化、RLS和滑動窗口技術,不但可以簡化推導、自動實現(xiàn)狀態(tài)空間表示、避免過擬合和減輕噪聲影響,而且可以減少計算開銷和存儲開銷。此外,在OSKRLSTD-L1算法中,還提出了

4、一種不動點子迭代和在線修剪子算法,較好地解決了L1正則化難以在線實現(xiàn)這一問題,有助于獲得更加稀疏的狀態(tài)空間表示;在OSMKRLSTD-L2算法中,首次引入了多核最小二乘技術,進一步提高了算法的逼近能力。
  (3)針對現(xiàn)有連續(xù)動作空間Actor-Critic(AC)算法收斂速度與收斂質(zhì)量不高這一問題,通過對傳統(tǒng)高斯策略的局限性進行分析,提出AC算法的低效主要源于傳統(tǒng)高斯策略缺乏貪婪性這一觀點。在此基礎上,提出一種面向一維連續(xù)動作空

5、間的對稱擾動采樣AC算法框架,每時間步通過對稱高斯擾動生成兩個備選動作與環(huán)境并行交互,然后基于二者的最大TD誤差貪婪選取行為動作并對值函數(shù)參數(shù)更新,再基于二者的常規(guī)或自然策略梯度平均值對策略參數(shù)更新。隨后,分析該框架的時間復雜度和空間復雜度,證明其集成的四種AC算法的收斂性,并仿真驗證各算法的有效性。鑒于該框架每時間步需要與環(huán)境交互兩次,為此接著提出一種∈-貪婪高斯策略和兩種與之相匹配的兼容AC算法框架。該策略首次將∈-greedy策略

6、和傳統(tǒng)高斯策略結合起來,對N維連續(xù)動作空間,每時間步首先采用對稱擾動生成2N個備選動作,然后采用∈-greedy策略基于優(yōu)勢函數(shù)選取行為動作。最后,從理論上和實驗上對所提策略和兼容框架進行了分析與驗證。
  (4)針對強化學習算法采用固定標量步長導致學習性能難以提高這一問題,從二階梯度下降法視角對RLSTD算法重新解讀,提出一種新的向量步長自適應算法,并將其應用到線性 TD(0)、Sarsa和 Q-learning算法之中。在所提

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論