無信息變量消除法研究背景
化學(xué)計(jì)量學(xué)的多元校正方法中,偏最小二乘法(partial least squares,PLS)是目前使用得最多的方法,它很容易用于處理數(shù)據(jù)量很大的光譜數(shù)據(jù),提取相關(guān)的信息,建立一個(gè)可靠的模型,不過這個(gè)模型很復(fù)雜。傳統(tǒng)觀點(diǎn)認(rèn)為PLS具有較強(qiáng)的抗干擾能力,對(duì)噪聲不敏感,因此在PLS建模前不需要對(duì)光譜數(shù)據(jù)進(jìn)行特征提取。隨著對(duì)PLS的深入研究和應(yīng)用,最近人們已經(jīng)認(rèn)識(shí)到有效的特征提取能夠很大程度提高模型的預(yù)測(cè)能力和簡化模型。
目前,波長變量篩選的方法主要有相關(guān)系數(shù)法,逐步回歸法,無信息變量消除法(UVE),遺傳算法(genetic algorithm,GA)等,其中無信息變量消除法的研究和應(yīng)用在國內(nèi)的報(bào)道較少。無信息變量消除算法是新的變量篩選方法,該算法最初由Centner等人提出來,并用于NIR光譜數(shù)據(jù),其目的是為了減少最終PLS模型中包含的變量數(shù),降低模型的復(fù)雜性,改善PLS模型,還與其它相關(guān)方法進(jìn)行了比較,UVE方法得到的結(jié)果的SEP最小1。
無信息變量消除法原理無信息變量消除法是基于分析PLS回歸系數(shù)b的算法,用于消除那些不提供信息的變量。在近紅外光譜法的PLS回歸模型中,光譜矩陣X和濃度矩陣Y存在如下的關(guān)系:
Y=Xb+e
其中b是回歸系數(shù)向量,e是誤差向量。無信息變量消除法就是把相同于自變量矩陣的變量數(shù)目的隨機(jī)變量矩陣(這里等同于噪音)加入光譜矩陣中,然后通過交叉驗(yàn)證的逐一剔除法建立PLS模型,得到回歸系數(shù)矩陣B,分析回歸系數(shù)矩陣中回歸系數(shù)向量b的平均值和標(biāo)準(zhǔn)偏差(用)的商C的穩(wěn)定性(或可靠性),即有如下表達(dá)式:
Ci=mean(bi)/S(bi)
其中mean(bi)表示回歸系數(shù)向量b的平均值,S(bi)表示回歸系數(shù)向量b的標(biāo)準(zhǔn)偏差,i表示光譜矩陣中第i列向量。根據(jù)Ci的絕對(duì)值大小確定是否把第i列變量用于最后PLS回歸模型中。具體的算法如下:
(1)將校正集光譜矩陣X(n×m)和濃度矩陣Y(n×1)進(jìn)行PLS回歸,并選取最佳主因子數(shù)f,矩陣中的n表示樣品的數(shù)目,m表示波長變量的數(shù)目,下面的也一樣;
(2)人為產(chǎn)生一隨機(jī)噪聲矩陣R(n×m),將X與R組合形成矩陣XR(n×2m),該矩陣前m列為X,后m列為R;
(3)對(duì)矩陣XR和Y進(jìn)行PLS回歸,每次剔除一個(gè)樣品的交互驗(yàn)證,每次得一個(gè)回歸系數(shù)向量b,共得到n個(gè)PLS回歸系數(shù)組成矩陣B(n×2m);
(4)按列計(jì)算矩陣B(n×2m)的標(biāo)準(zhǔn)偏差S(b)和平均值mean(b),然后計(jì)算Ci=mean(bi)/S(bi)
,i=1,2...,2m;
(5)在[m+1,2m]區(qū)間取C的最大絕對(duì)值Cmax=max(abs(C));
(6)在[[1,m]區(qū)間去除矩陣X對(duì)應(yīng)Ci