第二章信息量和熵-西安電子科技大學(xué)個人主頁系統(tǒng)我的_第1頁
已閱讀1頁,還剩68頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第二章 信息量和熵,,信息量和熵,離散變量的非平均信息量 離散集的平均自信息量-熵 離散集的平均互信息量 信息不等式 凸函數(shù)和互信息的凸性 連續(xù)隨機(jī)變量的互信息和微分熵,2.1 離散變量的非平均信息量,,輸入,輸出空間定義,輸入空間X={xk,k=1,2,…,K},概率記為q(xk)輸出空間Y={yj,j=1,2,…,J},概率記為ω(yj)聯(lián)合空間XY={xkyj ;k=1,2,…,K;j=1,2,…,J}, 概率為p(

2、xkyj) p(xkyj)= p(xk|yj)ω(yj)= p(yj|xk)q(xk),非平均互信息量,例2.1.1,非平均互信息量,非平均互信息量,例2.1.2,非平均互信息量,非平均互信息量,定義2.1.1(非平均互信息量) 給定一個二維離散型隨機(jī)變量{(X, Y), (xk, yj), rkj, k=1~K; j=1~J}(因此就給定了兩個離散型隨機(jī)變量{X, xk, qk, k=1~K}和{Y, yj, wj, j=1~J

3、})。事件xk∈X與事件yj∈Y的互信息量定義為,非平均互信息量,其中底數(shù)a是大于1的常數(shù)。常用a=2或a=e,當(dāng)a=2時互信息量的單位為“比特”。幾點說明: (1)I(xk; yj)=loga(rkj/(qkwj))。因此有對稱性:I(xk; yj)=I(yj; xk)。(2)當(dāng)rkj=qkwj時I(xk; yj)=0。(當(dāng)兩個事件相互獨立時,互信息量為0)。(3)當(dāng)rkj>qkwj時I(xk; yj)>0,當(dāng)r

4、kj<qkwj時I(xk; yj)<0。(當(dāng)兩個事件正相關(guān)時,互信息量為正值,當(dāng)兩個事件負(fù)相關(guān)時,互信息量為負(fù)值)。,條件互信息和聯(lián)合事件互信息,三個事件集的條件互信息定義為可以推廣到任意有限多個空間情況,互信息的可加性,系統(tǒng),,,u1,u2,u3,互信息量特性:,對稱性可加性互信息量的值域: -infinite ~ +infinite, 即全體實數(shù),離散變量的非平均自信息量

5、,定義:給定集合{X, q(xk)},事件xk∈X的自信息量定義為:,非平均自信息的性質(zhì),非負(fù)性體現(xiàn)先驗不確定性大小,條件自信息和聯(lián)合自信息,自信息、條件自信息和互信息,2.2 離散集的平均自信息量-熵,,熵,集X中事件出現(xiàn)的平均不確定性,(平均自信息量——熵) 離散型隨機(jī)變量{X, xk, qk, k=1~K}的平均自信息量(又稱為熵)定義為如下的H(X),其中底數(shù)a是大于1的常數(shù)。,熵,注意:(1)事件xk的自信息量值為I(x

6、k)=loga(1/qk),因此H(X)是隨機(jī)變量X的各事件自信息量值的“數(shù)學(xué)期望”。(2)定義H(X)時,允許某個qk=0。(此時將qkloga(1/qk) 通盤考慮)此時補(bǔ)充定義qkloga(1/qk)=0。這個定義是合理的,因為,熵,例2.2.1 離散型隨機(jī)變量X有兩個事件x1和x2,P(X=x1)=p,P(X=x2)=1-p。則X的平均自信息量(熵)為H(X)=ploga(1/p)+(1-p)loga(1/(1-p))

7、 。觀察H(X)(它是p的函數(shù),圖2.2.1給出了函數(shù)圖象,該圖象具有某種對稱性),有當(dāng)p=0或p=1時,H(X)=0。(隨機(jī)變量X退化為常數(shù)時,熵為0)當(dāng)00。p越靠近1/2, H(X)越大。 (X是真正的隨機(jī)變量時,總有正的熵。隨機(jī)性越大,熵越大)當(dāng)p=1/2時,H(X)達(dá)到最大。(隨機(jī)變量X的隨機(jī)性最大時,熵最大。特別如果底數(shù)a=2,則H(X)=1比特),條件熵(定義2.2.2),XY獨立時有H(X|Y)=H(X),聯(lián)合熵

8、,熵的性質(zhì),對稱性非負(fù)性確定性擴(kuò)展性可加性極值性是H(P)上凸函數(shù),熵是概率矢量的函數(shù),P=(p1, p2, …, pk)可以看作是K維矢量,當(dāng) ,常稱作是概率矢量;故HK(P)=HK(p1, p2, …, pk)是概率矢量P的函數(shù),熵的性質(zhì)-對稱性,矢量的各分量p1,p2,…pk的次序任意改變時,熵值不變熵函數(shù)的值只與概率分布或?qū)?分割成的K個實數(shù)的取值有關(guān),而與這K個實數(shù)

9、和K個事件采取何種一一對應(yīng)方式無關(guān),熵的性質(zhì)-非負(fù)性,HK(P) = HK(p1, p2, …, pK) ≥0可由單個事件自信息量的非負(fù)性得到,熵的性質(zhì)-確定性,若事件集X中有一個事件為必然事件,其余事件為不可能事件,則此集合的熵值為0,熵的性質(zhì)-擴(kuò)展性,熵的性質(zhì)-可加性,H(p1q11,p1q12,…,p4q44)=H(p1…,p4)+p1H(q11,…,q14)+…+p4H(q41,…,q44),相對熵和條件相對熵,相對熵用于度

10、量兩個概率分布P(x)與Q(x)的距離兩個隨機(jī)變量集合的條件相對熵定義為相對熵和條件相對熵滿足可加性,熵的唯一性,熵函數(shù)的形式是唯一的對稱性擴(kuò)展性可加性極值性,2.3 離散集的平均互信息量,,平均互信息量,定義2.4.1(平均互信息量) 給定一個二維離散型隨機(jī)變量{(X, Y), (xk, yj), rkj, k=1~K; j=1~J}(因此就給定了兩個離散型隨機(jī)變量{X, xk, qk, k=1~K}和{Y, y

11、j, wj, j=1~J})。X與Y的平均互信息量定義為如下的I(X; Y):,平均互信息量,注意:事件對(xk, yj)的互信息量值為I(xk; yj)。此外,可以定義半平均互信息量I(xk; Y)和I(X; yj)。,平均互信息量的性質(zhì),對稱性 I(X;Y)=I(Y;X)平均互信息用熵與條件熵表示平均互信息與熵的關(guān)系: I(X;Y) ≤H(X) or H(Y)若X是Y的確定的函數(shù)X=g(Y),則I(X;Y)=H(X)

12、≤H(Y); 若Y是X的確定的函數(shù)Y=g(X),則I(X; Y)=H(Y)≤H(X)。,平均互信息量,一般印象(平均互信息量I(X; Y)的各種性質(zhì)與我們對“互信息量”這個名詞的直觀理解非常吻合)。一般情形:總有0≤I(X; Y)≤min{H(X), H(Y)}。一種極端情形:若X與Y相互獨立,則I(X; Y)=0。另一種極端情形:若X、Y中有一個完全是另一個的確定的函數(shù),則I(X; Y)=min{H(X), H(Y)}。,平均

13、互信息量,,平均條件互信息與聯(lián)合互信息,鏈?zhǔn)椒▌t,熵的鏈?zhǔn)椒▌t平均互信息量的鏈?zhǔn)椒▌t,信息不等式與信息處理定理,,凸函數(shù),凸集R:a,b屬于R,qa+(1-q)b也屬于R,其中0≤q≤1概率矢量:矢量a的所有分量非負(fù),且和為1概率矢量全體所構(gòu)成的區(qū)域R是凸的上凸函數(shù)下凸函數(shù),凸函數(shù)的性質(zhì),定理2.5.1:如果函數(shù)f(x)的二階導(dǎo)數(shù)是處處非負(fù),則f(x)是嚴(yán)格下凸的。f(a)是上凸的,-f(a)是下凸的f1(a),…

14、,fL(a)是R上的上凸函數(shù),c1,…,cL是正數(shù),c1f1(a)+…+cLfL(a)也是上凸函數(shù),K-T條件,f(a)是定義域R上的上凸函數(shù),a是概率矢量。偏導(dǎo)數(shù) 存在且連續(xù), f(a)在R上為極大的 充分必要條件 其中l(wèi)為一常數(shù)。,信息不等式,基礎(chǔ)不等式:對于任意的x>0, lnx≤x-1,等號成立當(dāng)且僅當(dāng)x=1Jensen不等式: f(a)是上凸函數(shù),E[f(

15、a)]≤f[E(a)],E為求數(shù)學(xué)期望信息散度不等式:D(p||q)≥0,等號成立當(dāng)且僅當(dāng)對所有的x,p(x)=q(x),信息不等式,互信息量不等式:I(X;Y)≥0證明:I(X;Y)=D(p(x,y)||p(x)p(y))≥0最大熵定理:H(X)≤log|X|,|X|是X中元素的數(shù)目,等號等概的時候成立。條件降低熵:H(X|Y) ≤H(X),X與Y獨立時等號成立,信息不等式,對數(shù)和不等式:a1,a2,…an和b1,b2,…

16、bn都非負(fù)Fano不等式可以弱化為:,信息處理定理,Z出現(xiàn)情況下,X和Y獨立,信息處理定理,熵的性質(zhì)-凸性,相對熵的凸性:D(p||q)是概率分布對(p,q)的下凸函數(shù):H(P)是P的上凸函數(shù),記離散型隨機(jī)變量X的事件為1,2,…,K。記X的概率分布為P(X=k)=qk,k=1~K。記離散型隨機(jī)變量Y的事件為1,2,…,J。記條件概率P(Y=j|X=k)=p(j|k)。則rkj=P((X, Y)=(k,j))

17、=qkp(j|k),(概率論中的乘法公式)wj=P(Y=j)=∑k qkp(j|k),(概率論中的全概率公式),互信息的凸性,互信息的凸性,p(y | x)給定,I(X; Y)是q(x)的上凸函數(shù)q(x)給定,I(X; Y)是p(y | x)的下凸函數(shù),互信息的凸性,設(shè)條件概率{p(j|k),k=1~K,j=1~J}被確定。此時I(X; Y)是概率向量q=(q1, q2, …, qK)的函數(shù)。我們希望找到這樣的概率向量,使得對應(yīng)的I

18、(X; Y)達(dá)到最大。這就是說,記我們希望找到這樣的K維概率向量a=(a1, a2, …, aK),使得,互信息的凸性,K維概率向量a=(a1, a2, …, aK)使得當(dāng)且僅當(dāng):以a為X的概率向量的時候,I(X=k; Y)對所有ak>0的k都取一個相同的值C; I(X=k; Y)對所有滿足ak=0的k都取值不超過上述的相同值C 。,互信息的凸性,I(X=k; Y)表示什么?表示事件X=k與隨機(jī)變量Y之間的“半平

19、均互信息量”。,互信息的凸性,例 設(shè)X的事件有0、1; Y的事件有0、1; 已知p(0|0)=1-u;p(1|0)=u;p(0|1)=u;p(1|1)=1-u。當(dāng)X服從等概分布(a0=P(X=0)=1/2;a1=P(X=1)=1/2)時,I(X;Y)達(dá)到最大。因為此時,互信息的凸性,2.4 連續(xù)隨機(jī)變量的互信息和微分熵,,連續(xù)隨機(jī)變量的互信息,定義2.5.1 給定二維連續(xù)型隨機(jī)變量{(X, Y), f(X,Y)(x, y)}(因

20、此就給定了兩個連續(xù)型隨機(jī)變量{X, fX(x)}和{Y, fY(y)})。事件x∈X與事件y∈Y的互信息量定義為,連續(xù)隨機(jī)變量的平均互信息,I(X; Y | Z)I(XY; Z),定義2.5.2 給定二維連續(xù)型隨機(jī)變量{(X, Y), f(X,Y)(x, y)}(因此就給定了兩個連續(xù)型隨機(jī)變量{X, fX(x)}和{Y, fY(y)})。 X與Y的平均互信息量定義為,性質(zhì),非負(fù)性對稱性數(shù)據(jù)處理定理關(guān)系,連續(xù)隨機(jī)變量的

21、微分熵,(連續(xù)型隨機(jī)變量為什么不能類似地定義平均自信息量——熵?這是因為,連續(xù)型隨機(jī)變量的事件有無窮多個,每個事件發(fā)生的概率無窮小。如果類似地定義熵,則熵是無窮大。因此只能定義所謂“微分熵”,而“微分熵”的直觀合理性大打折扣),微分熵的定義 給定連續(xù)型隨機(jī)變量{X, fX(x)}。 X的微分熵定義為,連續(xù)隨機(jī)變量的微分熵,HC(XY)HC(Y | X), HC(Y | X) ≤HC(Y)互信息與微分熵I(X ; Y)=HC(

22、X)-HC(X | Y)=HC(Y)-HC(Y | X) =HC(X)+HC(Y)-HC(X, Y)HC(X, Y)=HC(X)+HC(Y)-I(X ; Y),均勻隨機(jī)變量的微分熵,例2.7.2 設(shè)X~U(a, b),求X的微分熵(我們將發(fā)現(xiàn), X的微分熵未必非負(fù))。,正態(tài)隨機(jī)變量的微分熵,例2.7.3 設(shè)X~N(m, σ2),求X的微分熵(我們將發(fā)現(xiàn), X的微分熵未必非負(fù))。,正態(tài)隨機(jī)變量的微分熵,熵功率

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論