版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

[科普中國]-香農(nóng)熵

科學(xué)百科
原創(chuàng)
科學(xué)百科為用戶提供權(quán)威科普內(nèi)容,打造知識科普陣地
收藏

1948 年,香農(nóng)提出了“信息熵”(shāng) 的概念,解決了對信息的量化度量問題。

一條信息的信息量大小和它的不確定性有直接的關(guān)系。比如說,我們要搞清楚一件非常非常不確定的事,或是我們一無所知的事情,就需要了解大量的信息。相反,如果我們對某件事已經(jīng)有了較多的了解,我們不需要太多的信息就能把它搞清楚。所以,從這個角度,我們可以認為,信息量的度量就等于不確定性的多少。

基本定義對于任意一個隨機變量 X,它的熵定義如下:

變量的不確定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。

實例我們?nèi)绾蝸砹炕攘啃畔⒘磕兀恳允澜绫悶槔?。大家都很關(guān)心誰會是冠軍。假如我錯過了看世界杯,賽后我問一個知道比賽結(jié)果的觀眾“哪支球隊是冠軍”? 他不愿意直接告訴我, 而要讓我猜,并且我每猜一次,他要收一元錢才肯告訴我是否猜對了,那么我需要付給他多少錢才能知道誰是冠軍呢? 我可以把球隊編上號,從 1 到 32, 然后提問: “冠軍的球隊在 1-16 號中嗎?” 假如他告訴我猜對了, 我會接著問: “冠軍在 1-8 號中嗎?” 假如他告訴我猜錯了, 我自然知道冠軍隊在 9-16 中。 這樣最多只需要五次, 我就能知道哪支球隊是冠軍。所以,誰是世界杯冠軍這條消息的信息量只值五塊錢。

此時可能會發(fā)現(xiàn)我們實際上可能不需要猜五次就能猜出誰是冠軍,因為象巴西、德國、意大利這樣的球隊得冠軍的可能性比日本、美國、韓國等隊大的多。因此,我們第一次猜測時不需要把 32 個球隊等分成兩個組,而可以把少數(shù)幾個最可能的球隊分成一組,把其它隊分成另一組。然后我們猜冠軍球隊是否在那幾只熱門隊中。我們重復(fù)這樣的過程,根據(jù)奪冠概率對剩下的候選球隊分組,直到找到冠軍隊。這樣,我們也許三次或四次就猜出結(jié)果。因此,當(dāng)每個球隊奪冠的可能性(概率)不等時,“誰世界杯冠軍”的信息量的信息量比五比特少。香農(nóng)指出,它的準(zhǔn)確信息量應(yīng)該是

其中,分別是這 32 個球隊奪冠的概率。香農(nóng)把它稱為“信息熵” (Entropy),一般用符號 H 表示,單位是比特??梢酝扑惝?dāng) 32 個球隊奪冠概率相同時,對應(yīng)的信息熵等于五比特。

香農(nóng)熵(Shannon entropy)在生物信息領(lǐng)域基因表達分析中也有廣泛的應(yīng)用,如一些或一個基因在不同組織材料中表達情況己知,但如何確定這些基因是組織特異性表達,還是廣泛表達的,那我們就來計算這些基因在N個樣本中的香農(nóng)熵,結(jié)果越趨近于log2(N),則表明它是一個越廣泛表達的基因,結(jié)果越趨近于0則表示它是一個特異表達的基因。1

數(shù)學(xué)分析當(dāng)然,香農(nóng)不是用錢,而是用 “比特”(bit)這個概念來度量信息量。 一個比特是一位二進制數(shù),計算機中的一個字節(jié)是八個比特。在上面的例子中,這條消息的信息量是五比特。(如果有朝一日有六十四個隊進入決賽階段的比賽,那么“誰世界杯冠軍”的信息量就是六比特,因為我們要多猜一次。) 讀者可能已經(jīng)發(fā)現(xiàn), 信息量的比特數(shù)和所有可能情況的對數(shù)函數(shù) log 有關(guān)。 ( , 。)

計算以計算一本五十萬字的中文書平均有多少信息量為例。常用的漢字(一級二級國標(biāo))大約有 7000 字。假如每個字等概率,那么大約需要 13 個比特(即 13 位二進制數(shù))表示一個漢字。但漢字的使用是不平衡的。實際上,前 10% 的漢字占文本的 95% 以上。因此,即使不考慮上下文的相關(guān)性,而只考慮每個漢字的獨立的概率,那么,每個漢字的信息熵大約也只有 8-9 個比特。如果再考慮上下文相關(guān)性,每個漢字的信息熵只有5比特左右。所以,一本五十萬字的中文書,信息量大約是 250 萬比特。如果用一個好的算法壓縮一下,整本書可以存成一個 320KB 的文件。如果我們直接用兩字節(jié)的國標(biāo)編碼存儲這本書,大約需要 1MB 大小,是壓縮文件的三倍。這兩個數(shù)量的差距,在信息論中稱作“冗余度”(redundancy)。 需要指出的是我們這里講的 250 萬比特是個平均數(shù),同樣長度的書,所含的信息量可以差很多。如果一本書重復(fù)的內(nèi)容很多,它的信息量就小,冗余度就大。

不同語言的冗余度差別很大,而漢語在所有語言中冗余度是相對小的。這和人們普遍的認識“漢語是最簡潔的語言”是一致的。1

與熱熵的關(guān)系熵這一名稱并不是香農(nóng)首先提出的。最先提出熵這一名稱的是物理學(xué)家,他提出的熵現(xiàn)在稱其為熱熵,它是熱力學(xué)系統(tǒng)的一個狀態(tài)函數(shù),熱熵是物理系統(tǒng)無序性的量度,熱熵越大,表明物理系統(tǒng)可能的微觀狀態(tài)數(shù)也就越多,從微觀上看,系統(tǒng)就越變化多端,越?jīng)]有秩序。

香農(nóng)在研究隨機變量不確定性量度時所得的式在數(shù)學(xué)模型層次上與熱熵完全相同,所以香農(nóng)也把它稱作熵,現(xiàn)在一般稱其為信息熵或香農(nóng)熵。

若把系統(tǒng)分子的相空間作為系統(tǒng)宏觀狀態(tài)的狀態(tài)空間,則按分子在相空間中的分布而求得的香農(nóng)熵H與其熱熵S有如下的關(guān)系: 因此,可以認為熱熵是香農(nóng)熵的一個特例,它僅僅是分子在相空間所處位置的不確定性的量度。

然而,熱熵是有量綱的,而香農(nóng)熵是無量綱的,這是兩者的重大差別。2

意義對于隨機變量而言,其取值是不確定的。在做隨機試驗之前,我們只了解各取值的概率分布,而做完隨機試驗后,我們就確切地知道了取值,不確定性完全消失。這樣,通過隨機試驗我們獲得了信息,且該信息的數(shù)量恰好等于隨機變量的熵。在這個意義上,我們可以把熵作為信息的量度。2

本詞條內(nèi)容貢獻者為:

鄢志丹 - 副教授 - 中國石油大學(xué)(華東)