久久国产乱子伦免费精,最近中文字幕完整版2019

1948 年，香農(nóng)提出了“信息熵”(shāng) 的概念，解決了對信息的量化度量問題。

一條信息的信息量大小和它的不確定性有直接的關(guān)系。比如說，我們要搞清楚一件非常非常不確定的事，或是我們一無所知的事情，就需要了解大量的信息。相反，如果我們對某件事已經(jīng)有了較多的了解，我們不需要太多的信息就能把它搞清楚。所以，從這個角度，我們可以認為，信息量的度量就等于不確定性的多少。

基本定義對于任意一個隨機變量 X，它的熵定義如下：

變量的不確定性越大，熵也就越大，把它搞清楚所需要的信息量也就越大。

實例我們?nèi)绾蝸砹炕攘啃畔⒘磕兀恳允澜绫悶槔?。大家都很關(guān)心誰會是冠軍。假如我錯過了看世界杯，賽后我問一個知道比賽結(jié)果的觀眾“哪支球隊是冠軍”？他不愿意直接告訴我，而要讓我猜，并且我每猜一次，他要收一元錢才肯告訴我是否猜對了，那么我需要付給他多少錢才能知道誰是冠軍呢? 我可以把球隊編上號，從 1 到 32，然后提問： “冠軍的球隊在 1-16 號中嗎?” 假如他告訴我猜對了，我會接著問： “冠軍在 1-8 號中嗎?” 假如他告訴我猜錯了，我自然知道冠軍隊在 9-16 中。這樣最多只需要五次，我就能知道哪支球隊是冠軍。所以，誰是世界杯冠軍這條消息的信息量只值五塊錢。

此時可能會發(fā)現(xiàn)我們實際上可能不需要猜五次就能猜出誰是冠軍，因為象巴西、德國、意大利這樣的球隊得冠軍的可能性比日本、美國、韓國等隊大的多。因此，我們第一次猜測時不需要把 32 個球隊等分成兩個組，而可以把少數(shù)幾個最可能的球隊分成一組，把其它隊分成另一組。然后我們猜冠軍球隊是否在那幾只熱門隊中。我們重復(fù)這樣的過程，根據(jù)奪冠概率對剩下的候選球隊分組，直到找到冠軍隊。這樣，我們也許三次或四次就猜出結(jié)果。因此，當(dāng)每個球隊奪冠的可能性（概率）不等時，“誰世界杯冠軍”的信息量的信息量比五比特少。香農(nóng)指出，它的準(zhǔn)確信息量應(yīng)該是

其中，分別是這 32 個球隊奪冠的概率。香農(nóng)把它稱為“信息熵” (Entropy)，一般用符號 H 表示，單位是比特?？梢酝扑惝?dāng) 32 個球隊奪冠概率相同時，對應(yīng)的信息熵等于五比特。

香農(nóng)熵(Shannon entropy)在生物信息領(lǐng)域基因表達分析中也有廣泛的應(yīng)用，如一些或一個基因在不同組織材料中表達情況己知，但如何確定這些基因是組織特異性表達，還是廣泛表達的，那我們就來計算這些基因在N個樣本中的香農(nóng)熵，結(jié)果越趨近于log2(N)，則表明它是一個越廣泛表達的基因，結(jié)果越趨近于0則表示它是一個特異表達的基因。1

數(shù)學(xué)分析當(dāng)然，香農(nóng)不是用錢，而是用 “比特”（bit）這個概念來度量信息量。一個比特是一位二進制數(shù)，計算機中的一個字節(jié)是八個比特。在上面的例子中，這條消息的信息量是五比特。（如果有朝一日有六十四個隊進入決賽階段的比賽，那么“誰世界杯冠軍”的信息量就是六比特，因為我們要多猜一次。）讀者可能已經(jīng)發(fā)現(xiàn), 信息量的比特數(shù)和所有可能情況的對數(shù)函數(shù) log 有關(guān)。 ( , 。）

計算以計算一本五十萬字的中文書平均有多少信息量為例。常用的漢字（一級二級國標(biāo)）大約有 7000 字。假如每個字等概率，那么大約需要 13 個比特（即 13 位二進制數(shù)）表示一個漢字。但漢字的使用是不平衡的。實際上，前 10% 的漢字占文本的 95% 以上。因此，即使不考慮上下文的相關(guān)性，而只考慮每個漢字的獨立的概率，那么，每個漢字的信息熵大約也只有 8-9 個比特。如果再考慮上下文相關(guān)性，每個漢字的信息熵只有5比特左右。所以，一本五十萬字的中文書，信息量大約是 250 萬比特。如果用一個好的算法壓縮一下，整本書可以存成一個 320KB 的文件。如果我們直接用兩字節(jié)的國標(biāo)編碼存儲這本書，大約需要 1MB 大小，是壓縮文件的三倍。這兩個數(shù)量的差距，在信息論中稱作“冗余度”（redundancy)。需要指出的是我們這里講的 250 萬比特是個平均數(shù)，同樣長度的書，所含的信息量可以差很多。如果一本書重復(fù)的內(nèi)容很多，它的信息量就小，冗余度就大。

不同語言的冗余度差別很大，而漢語在所有語言中冗余度是相對小的。這和人們普遍的認識“漢語是最簡潔的語言”是一致的。1

與熱熵的關(guān)系熵這一名稱并不是香農(nóng)首先提出的。最先提出熵這一名稱的是物理學(xué)家，他提出的熵現(xiàn)在稱其為熱熵，它是熱力學(xué)系統(tǒng)的一個狀態(tài)函數(shù)，熱熵是物理系統(tǒng)無序性的量度，熱熵越大，表明物理系統(tǒng)可能的微觀狀態(tài)數(shù)也就越多，從微觀上看，系統(tǒng)就越變化多端，越?jīng)]有秩序。

香農(nóng)在研究隨機變量不確定性量度時所得的式在數(shù)學(xué)模型層次上與熱熵完全相同，所以香農(nóng)也把它稱作熵，現(xiàn)在一般稱其為信息熵或香農(nóng)熵。

若把系統(tǒng)分子的相空間作為系統(tǒng)宏觀狀態(tài)的狀態(tài)空間，則按分子在相空間中的分布而求得的香農(nóng)熵H與其熱熵S有如下的關(guān)系：因此，可以認為熱熵是香農(nóng)熵的一個特例，它僅僅是分子在相空間所處位置的不確定性的量度。

然而，熱熵是有量綱的，而香農(nóng)熵是無量綱的，這是兩者的重大差別。2

意義對于隨機變量而言，其取值是不確定的。在做隨機試驗之前，我們只了解各取值的概率分布，而做完隨機試驗后，我們就確切地知道了取值，不確定性完全消失。這樣，通過隨機試驗我們獲得了信息，且該信息的數(shù)量恰好等于隨機變量的熵。在這個意義上，我們可以把熵作為信息的量度。2

本詞條內(nèi)容貢獻者為:

鄢志丹 - 副教授 - 中國石油大學(xué)（華東）

[科普中國]-香農(nóng)熵