帶平均場(chǎng)的線性二次正倒向隨機(jī)對(duì)策問(wèn)題.pdf_第1頁(yè)
已閱讀1頁(yè),還剩158頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、在現(xiàn)存的文獻(xiàn)中,隨機(jī)動(dòng)態(tài)對(duì)策和合作問(wèn)題的研究可以追溯到20世紀(jì)六十年代(請(qǐng)參閱[1,2,3,4])。在最優(yōu)控制背景下弱互聯(lián)系統(tǒng)在[5]中進(jìn)行了研究,并且在兩人非合作非線性動(dòng)態(tài)對(duì)策設(shè)定下Nash均衡在[6]中進(jìn)行了分析。近年來(lái),受控的隨機(jī)大人口(也稱作多主體)系統(tǒng)由于其廣泛的出現(xiàn)在政治、經(jīng)濟(jì)、工程等領(lǐng)域而變得非常重要。后來(lái),這類(lèi)系統(tǒng)的動(dòng)態(tài)優(yōu)化或者控制吸引了研究群體一致的強(qiáng)烈的關(guān)注。受控的大人口系統(tǒng)最大的特點(diǎn)在于考慮可忽略主體的存在性,他們

2、單個(gè)來(lái)看是可以被忽略的,但是他們的集體行為將會(huì)給所有主體施加某種顯著的影響。這種特點(diǎn)能被個(gè)人動(dòng)態(tài)系統(tǒng)和(或)代價(jià)泛函中的整個(gè)人群的狀態(tài)均值所表示的弱耦合結(jié)構(gòu)表現(xiàn)出來(lái)。
  本論文主要專(zhuān)注于大人口系統(tǒng)在線性二次情形下的研究,其中狀態(tài)方程對(duì)狀態(tài)是線性的并帶有非齊次項(xiàng),代價(jià)泛函是二次的?;仡櫰饋?lái),線性系統(tǒng)和其相關(guān)的線性二次控制已經(jīng)有了廣泛的研究,這樣的控制問(wèn)題稱為線性二次最優(yōu)控制問(wèn)題。關(guān)于一些經(jīng)典的確定性線性二次問(wèn)題的結(jié)果,讀者可以參閱

3、[11]。由于線性二次非常好的結(jié)構(gòu),所以存在著豐富的線性二次描述的大人口問(wèn)題的相關(guān)文獻(xiàn)。大人口系統(tǒng)中的線性二次對(duì)策問(wèn)題和ε-Nash均衡性質(zhì)在[18]中有了研究和證明,其中每個(gè)主體的動(dòng)態(tài)系統(tǒng)是不一致的。在[19]中,作者求解Hamilton-Jacobi-Bellman和Kolmogorov-Fokker-Plank方程,并且發(fā)現(xiàn)了線性反饋形式顯式的Nash均衡點(diǎn)。[20]旨在研究一類(lèi)含有N個(gè)決策者的線性二次控制問(wèn)題,其中基本目標(biāo)是最小

4、化一個(gè)社會(huì)成本作為N個(gè)獨(dú)立的帶有平均場(chǎng)結(jié)構(gòu)的泛函之和。
  作為博弈論一個(gè)新的分支,平均場(chǎng)博弈起因子多個(gè)領(lǐng)域,例如,粒子物理學(xué)、經(jīng)濟(jì)學(xué)、生物學(xué)等。在粒子物理學(xué)的很多情形下,通過(guò)引入一個(gè)或多個(gè)“平均場(chǎng)”來(lái)充當(dāng)描繪粒子間相互作用的媒介,這樣構(gòu)建的逼近方式是非常優(yōu)越的。在這類(lèi)模型中,通過(guò)假設(shè)每個(gè)粒子都是無(wú)窮小的來(lái)描繪每個(gè)粒子對(duì)于構(gòu)建平均場(chǎng)的貢獻(xiàn)和平均場(chǎng)對(duì)于每個(gè)粒子的影響,也就是,通過(guò)令粒子的數(shù)目N→+∞,采用一類(lèi)極限過(guò)程。在博弈論中,站

5、在數(shù)學(xué)的立場(chǎng)上是涉及了當(dāng)N趨于無(wú)窮的時(shí)候,研究一大類(lèi)N人對(duì)策問(wèn)題。通常的,N人微分對(duì)策證明是不易處理的。幸運(yùn)的是,事情可以被簡(jiǎn)化,至少當(dāng)參與者數(shù)量增加,就參與者而言,這種對(duì)策問(wèn)題是對(duì)稱的。實(shí)際上,個(gè)人與個(gè)人之間的復(fù)雜策略將無(wú)法被參與者實(shí)施,因?yàn)楫?dāng)參與者人數(shù)增多的時(shí)候,每個(gè)人會(huì)漸漸的在別人的視野中消失。
  在過(guò)去數(shù)十年中,研究平均場(chǎng)博弈及其應(yīng)用的相關(guān)文獻(xiàn)越來(lái)越多。對(duì)此類(lèi)對(duì)策問(wèn)題,密切相關(guān)卻獨(dú)立發(fā)展的研究,請(qǐng)參閱[25,26,27]

6、?;谶@些結(jié)果,這條研究路線又吸引了很多注意。一些近期的文獻(xiàn)包括[28,29,30,31],其中涉及了很多平均場(chǎng)博弈論的研究。關(guān)于平均場(chǎng)博弈的一些介紹和例子由[28]給出。[29]主要給出了一類(lèi)帶平均場(chǎng)相互作用的隨機(jī)微分對(duì)策問(wèn)題的完整的概率分析。[30]主要討論和比較了兩類(lèi)當(dāng)參與者人數(shù)趨于無(wú)窮時(shí)隨機(jī)微分對(duì)策的近似方法。另外,[31]處理了一個(gè)銀行間的借入和借出模型,并分析了系統(tǒng)風(fēng)險(xiǎn)。
  平均場(chǎng)型控制近年來(lái)也有了廣泛的研究。[32

7、]得到了平均場(chǎng)倒向隨機(jī)微分方程以及相關(guān)的平均場(chǎng)隨機(jī)微分方程作為一個(gè)高維正倒向隨機(jī)微分方程系統(tǒng)的極限。后來(lái),在[33]中作者深入調(diào)查了帶有一般系數(shù)的此類(lèi)平均場(chǎng)倒向隨機(jī)微分方程并提出了相關(guān)的偏微分方程?;谶@些研究,[34]和[35]獨(dú)立的研究了平均場(chǎng)型最優(yōu)控制問(wèn)題,其中控制域是凸的,這也可被[36]中的結(jié)果所涵蓋。
  值得注意的是在上面提到的文獻(xiàn)中,所有的參與者之間相比是微不足道的,也就是說(shuō)他們不會(huì)以單個(gè)的方式影響整個(gè)群體。相對(duì)的

8、,他們將會(huì)以群體狀態(tài)平均值的統(tǒng)一模式施加影響。在此情形下,所有參與者可以視為同事。一個(gè)實(shí)際的例子是生產(chǎn)同類(lèi)產(chǎn)品的市場(chǎng)價(jià)格信息。每個(gè)公司產(chǎn)量如此之小使得單個(gè)公司的產(chǎn)量不能影響兄弟公司的行為。然而,所有公司的平均產(chǎn)量將會(huì)決定此產(chǎn)品的市場(chǎng)價(jià)格。所有的小公司都采取這個(gè)價(jià)格模式,所以他們進(jìn)一步的相互作用并且通過(guò)價(jià)格信息機(jī)制耦合在一起。上面的討論是基于假設(shè)所有的人平等的參與到市場(chǎng)價(jià)格信息中來(lái)。然而,在現(xiàn)實(shí)中我們知道參與者地位和角色的不同在現(xiàn)實(shí)狀況中

9、的詮釋有顯著不同。例如,小的單個(gè)個(gè)人的決策總是受某些“領(lǐng)導(dǎo)”群體或者“主導(dǎo)”機(jī)構(gòu)的影響。在我們的價(jià)格信息例子中,這樣的“領(lǐng)導(dǎo)”群體可以被理解為一些壟斷公司,他們有著相當(dāng)大的產(chǎn)量因此會(huì)對(duì)價(jià)格施加更多顯著的影響。至于那些“主導(dǎo)”機(jī)構(gòu),可以被視為當(dāng)?shù)卣?,因?yàn)樗漠a(chǎn)業(yè)政策將會(huì)很大程度的影響所有公司的生產(chǎn)行為。相反的,小的公司也會(huì)通過(guò)市場(chǎng)價(jià)格影響政府的決策。一個(gè)重要的影響當(dāng)?shù)卣疇顟B(tài)的因素—生產(chǎn)的稅收,將會(huì)依賴于形成的市場(chǎng)價(jià)格。
  上面

10、的討論暗示了所謂的主-從參與者模型。更確切的,讓我們通過(guò)下面的石油開(kāi)采例子指出來(lái)。在原油開(kāi)采過(guò)程中,單個(gè)石油開(kāi)采公司總是希望開(kāi)采更多的石油,從而獲得更多的利潤(rùn)。這此狀態(tài)下,他們的開(kāi)采計(jì)劃總是傾向于盡量少的考慮宏觀因素,比如石油資源有限、可能出現(xiàn)的環(huán)境代價(jià)和開(kāi)采過(guò)程中的長(zhǎng)期受益。另一方面,這些因素更多的是相關(guān)的監(jiān)督部門(mén)或當(dāng)?shù)卣紤]的。不像單個(gè)的石油公司,他們更關(guān)心行業(yè)的可持續(xù)發(fā)展和石油部門(mén)的綜合效益。因此,他們將作為主要參與者實(shí)施一些

11、宏觀調(diào)控政策。所有小公司(作為從屬參與者)當(dāng)制定生產(chǎn)計(jì)劃時(shí)應(yīng)該遵循這些政策。所以,所有的單個(gè)小生產(chǎn)公司組成了從屬參與者部分,并且依賴他們的集體行為(狀態(tài)平均值)來(lái)進(jìn)一步影響當(dāng)?shù)卣ㄖ饕獏⑴c者)。進(jìn)而主從大人口系統(tǒng)和相關(guān)的平均場(chǎng)對(duì)策被廣泛的研究?;仡欀暗墓ぷ?,[51]通過(guò)分析一個(gè)無(wú)窮集合,并且所有從屬參與者可分為K類(lèi)討論了主從參與者大人口系統(tǒng)問(wèn)題。后來(lái),[52]考慮了主從關(guān)系模型的線性二次問(wèn)題,這里直接把平均場(chǎng)項(xiàng)z作為一個(gè)隨機(jī)過(guò)程且系

12、數(shù)是隨機(jī)的。
  在大多數(shù)控制問(wèn)題中,我們都假設(shè)信息是可以被完全觀測(cè)到的。然后,在現(xiàn)實(shí)中卻未必總是合理的。由于參與者在社會(huì)中角色、地位、方法等的不同,所觀測(cè)的內(nèi)容也不盡相同。進(jìn)而由于有限的數(shù)據(jù),隱藏的過(guò)程或是噪聲觀測(cè)等,很多控制問(wèn)題更適合用部分信息框架來(lái)描述。部分信息下的隨機(jī)控制問(wèn)題在[55]中有了大量的回顧。也有其他的關(guān)于部分可觀測(cè)的隨機(jī)控制系統(tǒng)的文獻(xiàn),先前的工作請(qǐng)參閱[56,57,58,59,60,61,62,63],近期的工

13、作請(qǐng)看[64,65,66,67,68,69,70,71,72,73]。對(duì)于部分可觀測(cè)隨機(jī)微分對(duì)策,可參閱[74,75,76]和其中的文獻(xiàn)。值得注意的是,一類(lèi)帶噪聲觀測(cè)的線性二次平均場(chǎng)對(duì)策問(wèn)題也在[77]中進(jìn)行了研究,問(wèn)題定義在無(wú)窮時(shí)間區(qū)間,故而代數(shù)Riccati方程由此引入。另外,在[77]中,由于沒(méi)有公共噪聲,所以極限的狀態(tài)均值是確定性的函數(shù),這跟本論文中相關(guān)問(wèn)題的處理是不一樣的。
  非常重要的一點(diǎn)是在上述所有的大人口系統(tǒng)問(wèn)題

14、相關(guān)工作中,所有參與者的狀態(tài)都描述為初始條件給定的(正向)隨機(jī)微分方程。進(jìn)一步的,在此問(wèn)題中,參與者們的目標(biāo)是最小化他們的目標(biāo)泛函,當(dāng)然其中涉及了終端狀態(tài)。隨著倒向隨機(jī)微分方程廣泛的研究和應(yīng)用,我們很自然的考慮大人口問(wèn)題在此框架下的動(dòng)態(tài)優(yōu)化問(wèn)題。
  與以上正倒向隨機(jī)微分方程驅(qū)動(dòng)的對(duì)策問(wèn)題不同的是,一些受其他機(jī)制影響的隨機(jī)最優(yōu)控制問(wèn)題,也在實(shí)踐中有著非常廣泛的應(yīng)用,比如脈沖控制、時(shí)間延遲、體制切換系統(tǒng)等。而考察這樣最優(yōu)控制的隨機(jī)最

15、大值原理,在理論研究和實(shí)際應(yīng)用中有著極為重要的作用。最大值原理—最優(yōu)控制的必要條件,首先由Pontryagin等人的團(tuán)隊(duì)[107]在二十世紀(jì)五六十年代提出和研究的。Bismut[79]引入了線性倒向隨機(jī)微分方程作為伴隨方程,這在隨機(jī)控制理論的發(fā)展中起到了里程碑的作用。隨著Pardoux-Peng[80]非線性倒向隨機(jī)微分方程理論的建立,一般的隨機(jī)最大值原理由彭實(shí)戈教授在[108]中通過(guò)引入二階伴隨方程得到。隨后,彭教授[109]首先研究

16、了控制域?yàn)橥辜瘯r(shí)正倒向控制系統(tǒng)的隨機(jī)最大值原理。由于倒向隨機(jī)微分方程和正倒向隨機(jī)微分方程在數(shù)理金融、經(jīng)濟(jì)學(xué)等廣泛的應(yīng)用,我們很自然的考慮正倒向隨機(jī)微分方程的最優(yōu)控制問(wèn)題。在這方面,有豐富的結(jié)果可供查閱,比如[94,110,111,68,112]及其中的文獻(xiàn)。不久前,吳臻教授[106]建立了一般的正倒向隨機(jī)系統(tǒng)的最大值原理,其中控制域是非凸的,且擴(kuò)散項(xiàng)系數(shù)顯式的含有控制變量。這對(duì)一般的正倒向隨機(jī)系統(tǒng)最大值原理的發(fā)展做了極大的推動(dòng)。

17、  受以上研究的啟發(fā),論文主要考慮兩類(lèi)帶脈沖控制的正倒向隨機(jī)最優(yōu)控制問(wèn)題的最大值原理,一類(lèi)是帶脈沖的正倒向體制切換系統(tǒng),另一類(lèi)是帶脈沖的正倒向延遲系統(tǒng)。在第一類(lèi)中,系統(tǒng)由正倒向隨機(jī)微分方程驅(qū)動(dòng),且所有系數(shù)都含有馬爾科夫鏈。此情況相對(duì)于[123]和[103,119]顯得更為復(fù)雜。在第二類(lèi)中,系統(tǒng)由正倒向隨機(jī)微分延遲方程描述,控制變量包括正則控制和脈沖控制,且都有時(shí)間延遲。我們知道隨機(jī)微分方程和倒向隨機(jī)微分方程之間有很好的對(duì)偶關(guān)系。Peng

18、 and Yang[129]引入一類(lèi)新的倒向隨機(jī)微分方程稱為超前倒向隨機(jī)微分方程,且在隨機(jī)微分延遲方程和超前倒向隨機(jī)微分方程之間建立了對(duì)偶關(guān)系。利用超前倒向方程的理論和對(duì)偶方法,Chen and Wu[130]首先得到了狀態(tài)和控制都含延遲的控制系統(tǒng)最大值原理。后來(lái),Yu[131]研究了含脈沖控制的延遲控制系統(tǒng)最大值原理,其中動(dòng)態(tài)系統(tǒng)由隨機(jī)延遲系統(tǒng)驅(qū)動(dòng),且正則控制是凸的。更多的關(guān)于延遲系統(tǒng)的文獻(xiàn),請(qǐng)參閱[132,133,134]和其中的參

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論