版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

[科普中國]-邦弗朗尼原理

科學百科
原創(chuàng)
科學百科為用戶提供權(quán)威科普內(nèi)容,打造知識科普陣地
收藏

**邦弗朗尼原理:**假定人們有一定量的數(shù)據(jù)并期望從該數(shù)據(jù)中找到某個特定類型的事件,即使數(shù)據(jù)完全隨機,也可以期望該類型事件會發(fā)生。邦弗朗尼校正定理給出一個統(tǒng)計學上可行的方法來避免在搜索數(shù)據(jù)時出現(xiàn)的大部分“臆造”的正響應。例如:如果考察的時間和范圍過廣,會很容易發(fā)現(xiàn)一些人同住一家酒店,而兩者沒有什么關(guān)系。

簡介在考察數(shù)據(jù)時,如果將某些對象視為數(shù)據(jù)的有趣特征,而這些對象中的許多都可能會在隨機數(shù)據(jù)中出現(xiàn),那么這些顯著的特征就不可依賴。對于那些實際中并不充分罕見的特征來說,上述觀察結(jié)果限制了從這些數(shù)據(jù)特征中進行挖掘的能力。1

解釋假定人們有一定量的數(shù)據(jù)并期望從該數(shù)據(jù)中找到某個特定類型的事件。即使數(shù)據(jù)完全隨機,也可以期望該類型事件會發(fā)生。隨著數(shù)據(jù)規(guī)模的增長,這類事件出現(xiàn)的數(shù)目也隨之上升。任何隨機數(shù)據(jù)往往都會有一些不同尋常的特征,這些特征看上去雖然很重要,但是實際上并不重要,除此之外,別無他由,從這個意義上說,這些事件的出現(xiàn)純屬"臆造"。統(tǒng)計學上有一個稱為邦弗朗尼校正(Bonferronicorrection)的定理,該定理給出一個在統(tǒng)計上可行的方法來避免在搜索數(shù)據(jù)時出現(xiàn)的大部分"臆造"正響應。這里并不打算介紹定理的統(tǒng)計細節(jié),只給出一個非正式的稱為邦弗朗尼原理的版本,該原理可以幫助我們避免將隨機出現(xiàn)看成真正出現(xiàn)。在數(shù)據(jù)隨機性假設的基礎(chǔ)上,可以計算所尋找事件出現(xiàn)次數(shù)的期望值。如果該結(jié)果顯著高于你所希望找到的真正實例的數(shù)目,那么可以預期,尋找到的幾乎任何事物都是臆造的,也就是說,它們是在統(tǒng)計上出現(xiàn)的假象,而不是你所尋找事件的憑證。上述觀察現(xiàn)象是邦弗朗尼原理的非正式闡述。

簡單的說,你假設:特定事件的發(fā)生預示著特定內(nèi)容。如果特定事件(例如:在酒店中聚會)發(fā)生的概率乘以樣本空間得到的數(shù)目遠遠大與你期望的特定內(nèi)容(例如:歹徒)的數(shù)目,那么你的假設是錯的。

在大規(guī)模數(shù)據(jù)挖掘與分布式處理中的應用數(shù)據(jù)挖掘是數(shù)據(jù)“模型”的發(fā)現(xiàn)過程統(tǒng)計學家認為數(shù)據(jù)挖掘就是統(tǒng)計模型的構(gòu)建過程,而這個統(tǒng)計模型指的就是可見數(shù)據(jù)所遵從的總體分布。

模型建模方法可以描述為下列兩種做法之一:

(1)對數(shù)據(jù)進行簡潔的近似匯總描述;——數(shù)據(jù)匯總

(2)從數(shù)據(jù)中抽取出最突出的特征來代替數(shù)據(jù)并將剩余內(nèi)容忽略?!卣魈崛?/p>

數(shù)據(jù)匯總(1)PageRank:一種Web結(jié)構(gòu)上的隨機游走者在任意給定時刻處于該頁的概率。PageRank的一個非常好的特性就是它能夠很好地反映網(wǎng)頁的重要性,即典型用戶在搜索時期望返回某個頁面的程度。

(2)聚類:數(shù)據(jù)被看成是多維空間下的點,空間中相互臨近的點將被賦予相同的類別。

特征提取基于特征的模型會從數(shù)據(jù)中尋找某個現(xiàn)象的最極端樣例,并使用這些樣例來表示數(shù)據(jù)。

(1)頻繁項集:該模型適用于多個小規(guī)模項集組成的數(shù)據(jù)。如某些物品會被顧客同時購買,例如漢堡和番茄醬,這些物品就組成了所謂的項集。(購物籃問題)

(2)相似項:很多時候,數(shù)據(jù)往往看上去相當于一些列集合,我們的目標是尋找那些共同元素比較高的集合對。例如,將在線商店的顧客看成是其已購買的商品的集合。尋找相似的顧客群,并把他們當中大部分人購買過的商品也推薦給他。該過程稱為協(xié)同過濾?!?/p>

避免將隨機出現(xiàn)看成真正出現(xiàn)根據(jù)邦弗朗尼原理,在數(shù)據(jù)隨機性假設的基礎(chǔ)上,可以計算所尋找時間出現(xiàn)次數(shù)的期望值。如果該結(jié)果顯著高于你所希望找到的真正實例的數(shù)目,那么可以預期,尋找到的幾乎任何事物都是臆造的,也就是說,它們是在統(tǒng)計上出現(xiàn)的假象,而不是你所尋找事件的憑證。

例如,只需要尋找那些幾乎不可能出現(xiàn)在隨機數(shù)據(jù)中的罕見事件來發(fā)現(xiàn)恐怖分子即可。

本詞條內(nèi)容貢獻者為:

王慧維 - 副研究員 - 西南大學