版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

相對(duì)熵

百度百科
原創(chuàng)
全球最大中文百科全書
收藏

理論

定義

設(shè) 是隨機(jī)變量 上的兩個(gè)概率分布,則在離散和連續(xù)隨機(jī)變量的情形下,相對(duì)熵的定義分別為2:

推導(dǎo)

在信息理論中,相對(duì)熵是用來度量使用基于 的編碼來編碼來自 的樣本平均所需的額外的比特個(gè)數(shù)。典型情況下, 表示數(shù)據(jù)的真實(shí)分布, 表示數(shù)據(jù)的理論分布,模型分布,或 的近似分布。給定一個(gè)字符集的概率分布,我們可以設(shè)計(jì)一種編碼,使得表示該字符集組成的字符串平均需要的比特?cái)?shù)最少。假設(shè)這個(gè)字符集是 ,對(duì) ,其出現(xiàn)概率為 ,那么其最優(yōu)編碼平均需要的比特?cái)?shù)等于這個(gè)字符集的熵:

在同樣的字符集上,假設(shè)存在另一個(gè)概率分布 ,如果用概率分布 的最優(yōu)編碼(即字符 的編碼長(zhǎng)度等于 ),來為符合分布 的字符編碼,那么表示這些字符就會(huì)比理想情況多用一些比特?cái)?shù)。相對(duì)熵就是用來衡量這種情況下平均每個(gè)字符多用的比特?cái)?shù),因此可以用來衡量?jī)蓚€(gè)分布的距離,即:

計(jì)算實(shí)例

這里給出一個(gè)對(duì)相對(duì)熵進(jìn)行計(jì)算的具體例子。假如一個(gè)字符發(fā)射器,隨機(jī)發(fā)出0和1兩種字符,真實(shí)發(fā)出概率分布為A,但實(shí)際不知道A的具體分布。通過觀察,得到概率分布B與C,各個(gè)分布的具體情況如下:

可以計(jì)算出得到如下:

由上式可知,按照概率分布進(jìn)行編碼,要比按照進(jìn)行編碼,平均每個(gè)符號(hào)增加的比特?cái)?shù)目少。從分布上也可以看出,實(shí)際上要比更接近實(shí)際分布(因?yàn)槠渑c分布的相對(duì)熵更?。?。

吉布斯不等式**(Gibbs inequality)**

由于是凸函數(shù)(convex function),所以根據(jù)相對(duì)熵的定義有: 由上式可知,相對(duì)熵是恒大于等于0的。當(dāng)且僅當(dāng)兩分布相同時(shí),相對(duì)熵等于0。

性質(zhì)

非負(fù)性:由吉布斯不等式可知,相對(duì)熵恒為非負(fù): ,且在 時(shí)取04。

不對(duì)稱性:相對(duì)熵是兩個(gè)概率分布的不對(duì)稱性度量,即 。在優(yōu)化問題中,若 表示隨機(jī)變量的真實(shí)分布, 表示理論或擬合分布,則 被稱為前向KL散度(forward KL divergence), 被稱為后項(xiàng)KL散度(backward KL divergence)。前向散度中擬合分布是KL散度公式的分母,因此若在隨機(jī)變量的某個(gè)取值范圍中,擬合分布的取值趨于0,則此時(shí)KL散度的取值趨于無窮。因此使用前向KL散度最小化擬合分布和真實(shí)分布的距離時(shí),擬合分布趨向于覆蓋理論分布的所有范圍。前向KL散度的上述性質(zhì)被稱為“0避免(zero avoiding)”。相反地,當(dāng)使用后向KL散度求解擬合分布時(shí),由于擬合分布是分子,其0值不影響KL散度的積分,反而是有利的,因此后項(xiàng)KL散度是“0趨近(zero forcing)”的。

與信息理論中其它概念的關(guān)系:對(duì)前向KL散度,其值等于真實(shí)分布與擬合分布的交叉熵與真實(shí)分布的信息熵之差:

應(yīng)用

相對(duì)熵可以衡量?jī)蓚€(gè)隨機(jī)分布之間的距離,當(dāng)兩個(gè)隨機(jī)分布相同時(shí),它們的相對(duì)熵為零,當(dāng)兩個(gè)隨機(jī)分布的差別增大時(shí),它們的相對(duì)熵也會(huì)增大。所以相對(duì)熵可以用于比較文本的相似度,先統(tǒng)計(jì)出詞的頻率,然后計(jì)算相對(duì)熵。另外,在多指標(biāo)系統(tǒng)評(píng)估中,指標(biāo)權(quán)重分配是一個(gè)重點(diǎn)和難點(diǎn),也通過相對(duì)熵可以處理5。

內(nèi)容資源由項(xiàng)目單位提供