簡(jiǎn)介
典型相關(guān)分析最早哈羅德·霍特林首次引入。他所提出的方法于 1936 年在《生物統(tǒng)計(jì)》期刊上發(fā)表的一篇論文《兩組變式之間的關(guān)系》經(jīng)過多年的應(yīng)用及發(fā)展,逐漸達(dá)到完善,在 70 年代臻于成熟。
由于典型相關(guān)分析涉及較大量的矩陣計(jì)算, 其方法的應(yīng)用在早期曾受到相當(dāng)?shù)南拗?。但隨著當(dāng)代計(jì)算機(jī)技術(shù)及其軟件的迅速發(fā)展,彌補(bǔ)了應(yīng)用典型相關(guān)分析中的困難,因此它的應(yīng)用開始走向普及化。 典型相關(guān)分析是研究?jī)山M變量之間相關(guān)關(guān)系的一種統(tǒng)計(jì)分析方法1。
為了研究?jī)山M變量量X= (X1, ...,Xn) 和Y= (Y1, ...,Ym) 之間的相關(guān)關(guān)系,采用類似于主成分分析的方法,在兩組變量中,分別選取若干有代表性的變量組成有代表性的綜合指標(biāo),通過研究這兩組綜合指標(biāo)之間的相關(guān)關(guān)系,來代替這兩組變量間的相關(guān)關(guān)系,這些綜合指標(biāo)稱為典型變量。
定義給定兩個(gè)帶有限矩的隨機(jī)變量的列向量 和 ,我們可以定義互協(xié)方差矩陣 為 的矩陣,其中 是協(xié)方差 。實(shí)際上,我們可以基于 和 的采樣數(shù)據(jù)來估計(jì)協(xié)方差矩陣。(如從一對(duì)數(shù)據(jù)矩陣)。
典型相關(guān)分析求出向量 和 使得隨機(jī)變量 和 的相關(guān)性 最大。隨機(jī)變量 和 是第一對(duì)典型變量。然后尋求一個(gè)依然最大化相關(guān)但與第一對(duì)典型變量不相關(guān)的向量;這樣就得到了第二對(duì)典型變量。 這個(gè)步驟會(huì)進(jìn)行 次。
計(jì)算1.求導(dǎo)設(shè) 和 。需要最大化的參數(shù)為
第一步是定義一個(gè)基變更以及
因此有
根據(jù)柯西-施瓦茨不等式,我們有
如果向量 和 共線,那么上式相等。此外,如果 是矩陣 最大特征值對(duì)應(yīng)的特征向量,那么就可以得到相關(guān)的最大值。隨后的典型變量對(duì)可以通過減少特征值的量級(jí)來得到。正交性保證了相關(guān)矩陣的對(duì)稱性。
2.解法因此解法是:
1) 是 的一個(gè)特征向量;
2) 是 的比例項(xiàng)。
相反地,也有:
1) 是 的一個(gè)特征向量;
2) 是 的比項(xiàng)。
把坐標(biāo)反過來,我們有
1) 是 的一個(gè)特征向量;
2) 是 的一個(gè)特征向量;
3) 是的比例項(xiàng);
4) 是 的比例項(xiàng)。
那么相關(guān)變量定義為2:
相關(guān)應(yīng)用典型相關(guān)分析的用途很廣。在實(shí)際分析問題中,當(dāng)面臨兩組多變量數(shù)據(jù),并希望研究?jī)山M變量之間的關(guān)系時(shí),就要用到典型相關(guān)分析。 例如,為了研究擴(kuò)張性財(cái)政政策實(shí)施以后對(duì)宏觀經(jīng)濟(jì)發(fā)展的影響,就需要考察有關(guān)財(cái)政政策的一系列指標(biāo)如財(cái)政支出總額的增長(zhǎng)率、財(cái)政赤字增長(zhǎng)率、國債發(fā)行額的增長(zhǎng)率、稅率降低率等與經(jīng)濟(jì)發(fā)展的一系列指標(biāo)如國內(nèi)生產(chǎn)總值增長(zhǎng)率、就業(yè)增長(zhǎng)率、物價(jià)上漲率等兩組變量之間的相關(guān)程度。
又如,為了研究宏觀經(jīng)濟(jì)走勢(shì)與股票市場(chǎng)走勢(shì)之間的關(guān)系,就需要考察各種宏觀經(jīng)濟(jì)指標(biāo)如經(jīng)濟(jì)增長(zhǎng)率、失業(yè)率、物價(jià)指數(shù)、進(jìn)出口增長(zhǎng)率等與各種反映股票市場(chǎng)狀況的指標(biāo)如股票價(jià)格指數(shù)、股票市場(chǎng)融資金額等兩組變量之間的相關(guān)關(guān)系。再如,工廠要考察所使用的原料的質(zhì)量對(duì)所生產(chǎn)的產(chǎn)品的質(zhì)量的影響,就需要對(duì)所生產(chǎn)產(chǎn)品的各種質(zhì)量指標(biāo)與所使用的原料的各種質(zhì)量指標(biāo)之間的相關(guān)關(guān)系進(jìn)行測(cè)度。
又如,在分析評(píng)估某種經(jīng)濟(jì)投入與產(chǎn)出系統(tǒng)時(shí),研究投入和產(chǎn)出情況之間的聯(lián)系時(shí),投入情況面可以從人力、物力等多個(gè)方面反映,產(chǎn)出情況也可以從產(chǎn)值、利稅等方面反映3。
再如在分析影響居民消費(fèi)因素時(shí),我們可以將勞動(dòng)者報(bào)酬、家庭經(jīng)營收入、轉(zhuǎn)移性收入等變量構(gòu)成反映居民收入的變量組,而將食品支出、醫(yī)療保健支出、交通和通訊支出等變量構(gòu)成反映居民支出情況的變量組,然后通過研究?jī)勺兞拷M之間關(guān)系來分析影響居民消費(fèi)因素情況。
典型相關(guān)分析有助于綜合地描述兩組變量之間的典型的相關(guān)關(guān)系。其條件是,兩組變量都是連續(xù)變量,其資料都必須服從多元正態(tài)分布。