版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

[科普中國]-齊夫定律

科學(xué)百科
原創(chuàng)
科學(xué)百科為用戶提供權(quán)威科普內(nèi)容,打造知識科普陣地
收藏

齊夫定律(英語:Zipf's law,IPA/?z?f/)是由哈佛大學(xué)的語言學(xué)家喬治·金斯利·齊夫(George Kingsley Zipf)于1949年發(fā)表的實驗定律。

簡介齊夫定律(英語:Zipf's law,IPA/?z?f/)是由哈佛大學(xué)的語言學(xué)家喬治·金斯利·齊夫(George Kingsley Zipf)于1949年發(fā)表的實驗定律。它可以表述為:在自然語言的語料庫里,一個單詞出現(xiàn)的頻率與它在頻率表里的排名成反比。所以,頻率最高的單詞出現(xiàn)的頻率大約是出現(xiàn)頻率第二位的單詞的2倍,而出現(xiàn)頻率第二位的單詞則是出現(xiàn)頻率第四位的單詞的2倍。這個定律被作為任何與冪定律概率分布有關(guān)的事物的參考。1

理論這個“定律”是哈佛大學(xué)的語言學(xué)家GeorgeKingsley Zipf1949年發(fā)表的。比如,在 Brown 語料庫中,“the”是最常見的單詞,它在這個語料庫中出現(xiàn)了大約7%(100萬單詞中出現(xiàn)69971次)。正如齊夫定律中所描述的一樣,出現(xiàn)次數(shù)為第二位的單詞“of”占了整個語料庫中的3.5%(36411次),之后的是“and”(28852次)。僅僅135個字匯就占了Brown語料庫的一半。齊夫定律是一個實驗定律,而非理論定律。齊夫分布可以在很多現(xiàn)象中被觀察到。齊夫分布的在現(xiàn)實中的起因是一個爭論的焦點。齊夫定律很容易用點陣圖觀察,坐標(biāo)為log(排名)和log(頻率)。比如,“the”用上述表述可以描述為x = log(1), y = log(69971)的點。如果所有的點接近一條直線,那么它就遵循齊夫定律。最簡單的齊夫定律的例子是“1/f function”。給出一組齊夫分布的頻率,按照從最常見到非常見排列,第二常見的頻率是最常見頻率的出現(xiàn)次數(shù)的?,第三常見的頻率是最常見的頻率的1/3,第n常見的頻率是最常見頻率出現(xiàn)次數(shù)的1/n。然而,這并不精確,因為所有的項必須出現(xiàn)一個整數(shù)次數(shù),一個單詞不可能出現(xiàn)2.5次。然而,在一個廣域范圍內(nèi)并且做出適當(dāng)?shù)慕?,許多自然現(xiàn)象都符合齊夫定律。

應(yīng)用巴塞羅那自治大學(xué)數(shù)學(xué)研究中心的研究者最近使用數(shù)學(xué)和統(tǒng)計學(xué)的專業(yè)知識,對齊夫定律(Zipf's law)進行了嚴(yán)格的研究。他們使用了古登堡計劃(the Project Gutenberg)的數(shù)據(jù)庫——古登堡計劃是一項將版權(quán)過期的英語書籍電子化的互聯(lián)網(wǎng)計劃,包含3萬多篇英語文本,可以免費獲取。這么大規(guī)模的研究在該領(lǐng)域前所未有,此前的研究大多只采用幾十篇文本的數(shù)據(jù)集。分析結(jié)果表明,如果除去少數(shù)只出現(xiàn)了一兩次的詞語,有55%的文本完全地符合齊夫定律,而如果考慮所有的詞語,仍然有40%的文本完全符合齊夫定律。該研究的負(fù)責(zé)人科拉爾(á.Corral)稱,如果進一步忽略只出現(xiàn)3至5次的詞語,符合齊夫定律的文本數(shù)還會更多。

前不久,江南大學(xué)的研究者以諾貝爾文學(xué)獎得主莫言的《紅高粱》《蛙》和《透明的紅蘿卜》為主要研究對象,采用字頻統(tǒng)計軟件和漢語詞頻統(tǒng)計軟件,統(tǒng)計莫言作品中字頻、詞頻,發(fā)現(xiàn)都能滿足齊夫定律。所得結(jié)果與包括英語、西班牙語、法語等在內(nèi)的多種語言研究結(jié)果一致。這項研究從統(tǒng)計學(xué)角度提供了莫言可以成為中國大陸首位諾貝爾文學(xué)獎得主的可能原因之一。

齊夫定律已經(jīng)在語言學(xué)、情報學(xué)、地理學(xué)、經(jīng)濟學(xué)、信息科學(xué)等領(lǐng)域有了廣泛的應(yīng)用,而且取得了不少可喜成果。中國數(shù)學(xué)家和語言學(xué)家周海中曾經(jīng)指出:齊夫定律是描述詞頻分布規(guī)律的強大數(shù)學(xué)工具;作為經(jīng)驗定律,它仍有不足之處,有待進一步完善。

例子最簡單的齊夫定律的例子是“1/ffunction”。給出一組齊夫分布的頻率,按照從最常見到非常見排列,第二常見的頻率是最常見頻率的出現(xiàn)次數(shù)的?,第三常見的頻率是最常見的頻率的1/3,第n常見的頻率是最常見頻率出現(xiàn)次數(shù)的1/n。然而,這并不精確,因為所有的項必須出現(xiàn)一個整數(shù)次數(shù),一個單詞不可能出現(xiàn)2.5次。

在Brown語料庫中,“the”、“of”、“and”是出現(xiàn)頻率最前的三個單詞,其出現(xiàn)的頻數(shù)分別為69971次、36411次、28852次,大約占整個語料庫100萬個單詞中的7%、3.6%、2.9%,其比例約為6:3:2。大約占整個語料庫的7%(100萬單詞中出現(xiàn)69971次)。滿足齊夫定律中的描述。僅僅前135個字匯就占了Brown語料庫的一半。

齊夫定律是一個實驗定律,而非理論定律,可以在很多非語言學(xué)排名中被觀察到,例如不同國家中城市的數(shù)量、公司的規(guī)模、收入排名等。但它的起因是一個爭論的焦點。齊夫定律很容易用點陣圖觀察,坐標(biāo)分別為排名和頻率的自然對數(shù)(log)。比如,“the”用上述表述可以描述為x = log(1), y = log(69971)的點。如果所有的點接近一條直線,那么它就遵循齊夫定律。

遵循該定律的現(xiàn)象單詞的出現(xiàn)頻率:不僅適用于語料全體,也適用于單獨的一篇文章

網(wǎng)頁訪問頻率

城市人口

收入前3%的人的收入

地震震級

固體破碎時的碎片大小

參見經(jīng)驗公式

詞頻效應(yīng)

本詞條內(nèi)容貢獻者為:

黃倫先 - 副教授 - 西南大學(xué)