在信息論中,信息冗余是傳輸消息所用數(shù)據(jù)位的數(shù)目與消息中所包含的實(shí)際信息的數(shù)據(jù)位的數(shù)目的差值。數(shù)據(jù)壓縮是一種用來(lái)消除不需要的冗余的方法,校驗(yàn)和是在經(jīng)過(guò)有限信道容量的噪聲信道中通信,為了進(jìn)行錯(cuò)誤校正而增加冗余的方法。
定量定義在描述原始數(shù)據(jù)的冗余時(shí),信源信息率為平均每個(gè)符號(hào)的熵。對(duì)于無(wú)記憶信源,這僅是每個(gè)符號(hào)的熵;而對(duì)于一個(gè)隨機(jī)過(guò)程的最普遍形式為前n個(gè)符號(hào)的聯(lián)合熵除以n之后,隨著n趨于無(wú)窮時(shí)的極限
在信息論中經(jīng)常提及一種語(yǔ)言的“熵率”或者“信息熵”。當(dāng)信源是英文散文時(shí)這是正確的。由于無(wú)記憶信源的消息之間沒(méi)有相互依賴(lài)性,所以無(wú)記憶信源的信息率為 。
信源的絕對(duì)信息率為
即是消息空間基數(shù)的對(duì)數(shù)值。這個(gè)公式也稱(chēng)作Hartley函數(shù)。這是傳送用這個(gè)字母表表示的信息的最大信息率。其中對(duì)數(shù)要根據(jù)所用的測(cè)量單位選擇合適的底數(shù)。當(dāng)且僅當(dāng)信源是無(wú)記憶的且均勻分布的時(shí)候,絕對(duì)信息率等于信息率。
絕對(duì)信息冗余定義為
即信息率與絕對(duì)信息率之間的差。
稱(chēng)為相對(duì)信息冗余,它表示了最大的數(shù)據(jù)壓縮率,這個(gè)壓縮率用文件大小減小比例所表示。當(dāng)用原始文件與壓縮后的文件表示的時(shí)候, 表示能夠得到的最大壓縮率。與相對(duì)信息冗余互補(bǔ)的是效率 ,于是 。均勻分布的無(wú)記憶信源的冗余為0,效率為100%,因此無(wú)法壓縮。1
其它的冗余概念兩個(gè)變量之間冗余的度量是互信息或者正規(guī)化變量。多個(gè)變量之間冗余的度量是全相關(guān)(total correlation)。
壓縮數(shù)據(jù)的冗余是指 n}個(gè)消息的期望壓縮數(shù)據(jù)長(zhǎng)度為(或期望數(shù)據(jù)熵率 )與熵值 (或熵率)的差。(這里我們假設(shè)數(shù)據(jù)是遍歷的也是平穩(wěn)的,例如無(wú)記憶信源。)雖然熵率之差 會(huì)隨著 增加而任意小,實(shí)際的差 已不能(盡管理論上可以)在有限熵的無(wú)記憶信源情況下上界為 1。2
本詞條內(nèi)容貢獻(xiàn)者為:
吳晨濤 - 副研究員 - 上海交通大學(xué)