Skinner操作條件反射模型與機(jī)器人仿生自主學(xué)習(xí)控制.pdf

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-10 格式：pdf 頁數(shù)：168 大小：7.27MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

Skinner操作條件反射模型與機(jī)器人仿生自主學(xué)習(xí)控制.pdf_第1頁

已閱讀1頁，還剩167頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、人或動(dòng)物的諸多技能或行為是在其神經(jīng)系統(tǒng)自學(xué)習(xí)和自組織的過程中漸進(jìn)地形成和發(fā)展起來的，理解和模擬人和動(dòng)物神經(jīng)系統(tǒng)內(nèi)在的學(xué)習(xí)和組織機(jī)制，并將這種機(jī)制賦予機(jī)器，是控制科學(xué)、人工智能和機(jī)器人學(xué)研究的重要課題。操作條件反射(Operant Conditioning)機(jī)制是人和動(dòng)物神經(jīng)系統(tǒng)內(nèi)在的重要學(xué)習(xí)機(jī)制，人和動(dòng)物的運(yùn)動(dòng)平衡控制技能是基于這種機(jī)制漸進(jìn)的形成、發(fā)展和完善的。
　　本文模擬人和動(dòng)物的操作條件反射機(jī)制，研究兩輪自平衡機(jī)器人自主

2、學(xué)習(xí)運(yùn)動(dòng)平衡控制技能的問題，取得了以下主要成果：
　　第一：Skinner操作條件反射自動(dòng)機(jī)的設(shè)計(jì)
　　本文在隨機(jī)概率自動(dòng)機(jī)的理論框架中，基于Skinner的操作條件反射理論，建立了一種操作條件反射模型，稱為Skinner操作條件反射自動(dòng)機(jī)(SkinnerOperant Conditioning Automaton， SOCA)。SOCA自動(dòng)機(jī)是一個(gè)七元組，包括：1)有限狀態(tài)集合；2）操作行為集合；3）映射集合-隨機(jī)

3、“條件-操作”映射集合；4）狀態(tài)轉(zhuǎn)移函數(shù)-意味著操作產(chǎn)生的后果；5）取向單元-定義取向性函數(shù)，規(guī)定SOCA自動(dòng)機(jī)的期望狀態(tài)；6）操作條件反射單元-利用取向單元提供的取向性信息，調(diào)節(jié)其學(xué)習(xí)機(jī)制，改變各操作行為的選取概率；7）操作行為熵-衡量SOCA自動(dòng)機(jī)的自組織程度。SOCA自動(dòng)機(jī)的主要特征在于模擬生物的操作條件反射機(jī)制，具有仿生的自組織功能，包括自學(xué)習(xí)和自適應(yīng)功能，可用于描述、模擬、設(shè)計(jì)各種自組織系統(tǒng)。論文對(duì)SOCA自動(dòng)機(jī)進(jìn)行了理論分析

4、，從理論上證明了SOCA自動(dòng)機(jī)的操作條件反射學(xué)習(xí)機(jī)制的收斂性，即：最優(yōu)操作出現(xiàn)的概率隨學(xué)習(xí)進(jìn)程趨于1，操作行為熵隨學(xué)習(xí)進(jìn)程收斂至極小。論文將SOCA自動(dòng)機(jī)應(yīng)用于兩輪機(jī)器人的運(yùn)動(dòng)平衡控制，SOCA自動(dòng)機(jī)的狀態(tài)集合用于描述機(jī)器人的傾角和傾角速度，操作行為集合用于描述施加到機(jī)器人左右輪電機(jī)上的控制信號(hào)。初始狀態(tài)下，機(jī)器人不具備運(yùn)動(dòng)平衡的能力，操作行為集合中各操作的選取概率是均等的，隨著學(xué)習(xí)的進(jìn)行，最優(yōu)操作的選取概率逐漸增大，操作行為熵逐漸減小

5、，大約進(jìn)行25輪訓(xùn)練后，最優(yōu)操作的選取概率漸趨于1，操作行為熵漸趨于極小，機(jī)器人的運(yùn)動(dòng)平衡能力逐漸增強(qiáng)。
　　第二：映射領(lǐng)域可自主收縮的SOCA自動(dòng)機(jī)
　　 SOCA自動(dòng)機(jī)存在發(fā)生小概率操作行為的現(xiàn)象，小概率操作行為的發(fā)生，會(huì)引發(fā)不良的操作后果。為了避免這一現(xiàn)象，本文設(shè)計(jì)了一種映射領(lǐng)域可在線自主收縮移動(dòng)的SOCA自動(dòng)機(jī)，映射領(lǐng)域指機(jī)器人各狀態(tài)映射的操作行為集合，其收縮是通過定義學(xué)習(xí)誤差的界限值和操作行為選取的概率閾值兩

6、個(gè)指標(biāo)來實(shí)現(xiàn)的。論文對(duì)映射領(lǐng)域可自主收縮的操作條件反射學(xué)習(xí)的收斂性進(jìn)行了分析，從理論上證明：最優(yōu)操作出現(xiàn)的概率隨映射領(lǐng)域的收縮趨于1，操作行為熵隨映射領(lǐng)域的收縮收斂至極小。論文將映射領(lǐng)域可自主收縮的SOCA自動(dòng)機(jī)應(yīng)用于兩輪機(jī)器人的運(yùn)動(dòng)平衡控制，初始映射領(lǐng)域是一個(gè)給定的含有多個(gè)操作行為的操作行為集合，隨著學(xué)習(xí)的進(jìn)行，不良操作出現(xiàn)的概率逐漸減小，概率值低于給定閾值的不良操作被剔除，大約進(jìn)行20輪訓(xùn)練后，映射領(lǐng)域收縮至含一個(gè)或幾個(gè)操作行為的集

7、合。映射領(lǐng)域的收縮性使SOCA自動(dòng)機(jī)可以在線地在最有意義的映射領(lǐng)域內(nèi)搜索學(xué)習(xí)，通過有效的動(dòng)態(tài)的消除無用的映射區(qū)域，提高了系統(tǒng)的學(xué)習(xí)速度和精度。
　　第三：模糊Skinner操作條件反射自動(dòng)機(jī)的設(shè)計(jì)
　　本文進(jìn)一步結(jié)合模糊集(Fuzzy Sets)理論，構(gòu)建了模糊Skinner操作條件反射自動(dòng)機(jī)(Fuzzy Skinner Operant Conditioning Automaton， FSOCA)。FSOCA自動(dòng)機(jī)的

8、主要特征在于，高斯函數(shù)對(duì)狀態(tài)的模糊化結(jié)果作為模糊狀態(tài)集合，模糊“條件-操作”規(guī)則代替隨機(jī)“條件-操作”映射，F(xiàn)SOCA自動(dòng)機(jī)可用于描述、模擬和設(shè)計(jì)各種模糊不確定系統(tǒng)的自組織行為。為了確保FSOCA自動(dòng)機(jī)的模糊映射規(guī)則數(shù)是最佳的，論文采用在線聚類的方法實(shí)現(xiàn)了對(duì)輸入狀態(tài)空間的劃分，利用映射規(guī)則的激發(fā)強(qiáng)度來決定是否需要產(chǎn)生一個(gè)新的映射規(guī)則。論文將FSOCA自動(dòng)機(jī)應(yīng)用于兩輪機(jī)器人的運(yùn)動(dòng)平衡控制，隨著學(xué)習(xí)的進(jìn)行，最優(yōu)模糊后件操作的選取概率逐漸增大

9、，模糊操作行為熵逐漸減小，模糊映射規(guī)則自動(dòng)增減，大約進(jìn)行17輪訓(xùn)練后，最優(yōu)模糊后件操作的選取概率漸趨于1，模糊操作行為熵漸趨于極小，映射規(guī)則數(shù)漸趨于最佳，機(jī)器人逐漸掌握運(yùn)動(dòng)平衡控制的技能。FSOCA自動(dòng)機(jī)不僅實(shí)現(xiàn)了平滑輸出，而且進(jìn)一步改善了學(xué)習(xí)模型的學(xué)習(xí)速度和精度。
　　第四：魯棒自主學(xué)習(xí)系統(tǒng)的設(shè)計(jì)
　　本文針對(duì)仿生自主學(xué)習(xí)模型的穩(wěn)定性和性能問題，在FSOCA自動(dòng)機(jī)的基礎(chǔ)上，設(shè)計(jì)了一個(gè)魯棒自主學(xué)習(xí)控制系統(tǒng)，主要包括模

10、糊基函數(shù)網(wǎng)絡(luò)(Fuzzy BaseFunction Network， FBFN)、增益控制單元和魯棒單元三部分。其中，F(xiàn)BFN網(wǎng)絡(luò)的功能與FSOCA自動(dòng)機(jī)一樣，主要執(zhí)行操作行為產(chǎn)生的功能，同時(shí)利用性能測量機(jī)制提供的誤差測量信號(hào)，產(chǎn)生取向值信息，以對(duì)操作行為產(chǎn)生網(wǎng)絡(luò)進(jìn)行調(diào)整；引入增益控制單元，是為了確保系統(tǒng)的穩(wěn)定性，同時(shí)可以對(duì)系統(tǒng)的性能進(jìn)行改善；魯棒單元主要用來消除FBFN網(wǎng)絡(luò)的學(xué)習(xí)誤差及外部干擾。論文對(duì)魯棒自主學(xué)習(xí)控制系統(tǒng)進(jìn)行了理論分析

11、，從理論上證明魯棒自主學(xué)習(xí)系統(tǒng)是漸近穩(wěn)定的；將其應(yīng)用于兩輪機(jī)器人的運(yùn)動(dòng)平衡控制，仿真結(jié)果表明，機(jī)器人在學(xué)習(xí)過程中避免了試錯(cuò)的學(xué)習(xí)過程，確保了系統(tǒng)的穩(wěn)定性和學(xué)習(xí)性能，并且在存在干擾時(shí)，仍能達(dá)到期望的控制目標(biāo)。
　　本文的研究工作得到了國家自然科學(xué)基金項(xiàng)目(60774077)、國家“863計(jì)劃”資助項(xiàng)目(2007AA04Z226)和北京市教委科研計(jì)劃和北京市自然科學(xué)基金重點(diǎn)項(xiàng)目(KZ200810005002)的支持。研究成果為機(jī)器

眾賞文庫> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

Skinner操作條件反射模型與機(jī)器人仿生自主學(xué)習(xí)控制.pdf

文檔簡介

溫馨提示

最新文檔

評(píng)論

Skinner操作條件反射模型與機(jī)器人仿生自主學(xué)習(xí)控制.pdf

文檔簡介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載