123,123,123

一种改进的基于PCA的数据预处理方法

日期： 2020-01-20

作者：陈燕1，陈亚林2，郑军1

來源：2020年电子技术应用第1期

關(guān)鍵詞： PCA 数据预处理数据规约

0 引言

大數(shù)據(jù)處理項(xiàng)目中，資源消耗最為突出的是數(shù)據(jù)的收集和預(yù)處理，大約占項(xiàng)目資源支出的80%，其中數(shù)據(jù)預(yù)處理工作量就要占60%左右^[1]。究其原因，是因?yàn)閷?shí)際應(yīng)用系統(tǒng)收集數(shù)據(jù)時(shí)，由于數(shù)據(jù)源的區(qū)別、考慮因素不同及數(shù)據(jù)收集工具和數(shù)據(jù)傳輸問題等造成收集到的數(shù)據(jù)存在數(shù)據(jù)不完整、重要屬性缺失、有噪聲和數(shù)據(jù)不一致等問題。要得到高質(zhì)量的決策，必然要求高質(zhì)量的數(shù)據(jù)，所以數(shù)據(jù)預(yù)處理在數(shù)據(jù)分析工作量中占比最大，目的是給數(shù)據(jù)挖掘提供準(zhǔn)確、一致、及時(shí)、權(quán)威的數(shù)據(jù)集。數(shù)據(jù)預(yù)處理工作包括缺失值（空值）處理、異常值處理、數(shù)據(jù)集成和數(shù)據(jù)規(guī)約，其中數(shù)據(jù)規(guī)約是影響大型數(shù)據(jù)集預(yù)處理效果的主要瓶頸。文獻(xiàn)[2]中提出基于聚類方法實(shí)現(xiàn)數(shù)據(jù)分層；文獻(xiàn)[3]-[4]中提出離群值檢測(cè)進(jìn)行異常值處理，進(jìn)而數(shù)量規(guī)約；文獻(xiàn)[5]-[6]中提出基于相似連接實(shí)現(xiàn)數(shù)據(jù)并行處理；文獻(xiàn)[7]-[9]提出了選用二維離散小波進(jìn)行維度規(guī)約的數(shù)據(jù)預(yù)處理；文獻(xiàn)[10]-[11]提出了針對(duì)稀疏數(shù)據(jù)進(jìn)行數(shù)量規(guī)約的方法。而針對(duì)存在相關(guān)性的多個(gè)變量，目前廣泛使用主成分分析(Principal Component Analysis，PCA)方法進(jìn)行降維，從而使用較少的綜合指標(biāo)來代表原變量中的各類信息，降低數(shù)據(jù)分析的復(fù)雜性。

1 主成分分析PCA

PCA的思想是將n維特征映射到k維(k<n)全新的正交特征(即主成分)上^[12]。其算法描述為：

(1)輸入：n維特征數(shù)據(jù)集；

(2)計(jì)算樣本均值：

(3)計(jì)算樣本方差S²：

(7)得到降序排列的前k個(gè)λ_i對(duì)應(yīng)的特征向量z_i組成的矩陣；

(8)輸出：轉(zhuǎn)換到k個(gè)特征向量構(gòu)建的新空間數(shù)據(jù)集。

由算法描述可知，PCA方法即通過基變換實(shí)現(xiàn)降維。為了保證最優(yōu)變換，PCA采用最大方差來確?；Ａ粜畔⒘康淖畲蠡?。

使用PCA方法進(jìn)行數(shù)據(jù)維規(guī)約時(shí)，計(jì)算易于實(shí)現(xiàn)，只需要考慮原數(shù)據(jù)集的協(xié)方差矩陣大小，且k個(gè)主成分各自獨(dú)立^[13]。但PCA方法降維后，主成分的各個(gè)特征解釋性有所降低，而且未被選擇的非主成分也可能含有對(duì)樣本差異的重要信息，從而造成新的數(shù)據(jù)不完整。

2 改進(jìn)的PCA數(shù)據(jù)預(yù)處理方法

使用PCA方法進(jìn)行維規(guī)約時(shí)，首先需要對(duì)原數(shù)據(jù)集中的數(shù)據(jù)中心化，其后也沒有人為設(shè)定參數(shù)或參照經(jīng)驗(yàn)?zāi)Ｐ瓦M(jìn)行計(jì)算，從而保證結(jié)果和數(shù)據(jù)相關(guān)，且獨(dú)立于用戶^[14]。由于均值易受極端值影，簡(jiǎn)單地使用與均值相減實(shí)現(xiàn)數(shù)據(jù)中心化是造成映射所得主成分的特征解釋性降低的原因之一。為了解決這一問題，在對(duì)數(shù)據(jù)中心化時(shí)，用加權(quán)規(guī)范化均值來代替均值實(shí)現(xiàn)數(shù)據(jù)中心化。加權(quán)規(guī)范化均值計(jì)算公式為：

其中，I_d為數(shù)據(jù)集中的元素，d為元素與均值差，w_d為每個(gè)元素對(duì)應(yīng)d所分配的權(quán)值，滿足∑w_d＝1。

改進(jìn)后的PCA算法描述為：

(1)輸入：n維數(shù)據(jù)集X={x₁，x₂，…，x_n}；

(5)計(jì)算目標(biāo)函數(shù)，其中v為單位向量：

(6)得到max(f(v))的必要條件為Cv=λv，則v為協(xié)方差矩陣的特征向量，其保存的信息量為特征值λ；

(7)將協(xié)方差矩陣C對(duì)角化，得到n個(gè)不同的特征值λ_i，降序排列；

(8)while(k<=n){

(9)輸出：映射到新基集的數(shù)據(jù)集。

3 算法驗(yàn)證實(shí)驗(yàn)

3.1 原始數(shù)據(jù)集概況

實(shí)驗(yàn)采用的數(shù)據(jù)集為長(zhǎng)江流域夾江揚(yáng)州三江營(yíng)點(diǎn)位南水北調(diào)東線取水口斷面2018年52期水質(zhì)自動(dòng)監(jiān)測(cè)數(shù)據(jù)共364條，水質(zhì)監(jiān)測(cè)指標(biāo)包括PH值、溶解氧DO、高錳酸鉀指數(shù)CODMn、氨氮 NH3-N、總磷TP、總氮TN和總有機(jī)碳TOC共7個(gè)變量，數(shù)據(jù)集片段如圖1所示。

3.2 數(shù)據(jù)中心化處理

PCA方法對(duì)每個(gè)特征變量求均值，即計(jì)算 jsj2-3.2-x1.gif =xi- jsj2-3.2-x2.gif ，得到中心化后的數(shù)據(jù)集片段如圖2所示。

jsj2-3.3-s1.gif

3.3 基于協(xié)方差矩陣的特征值確定主成分?jǐn)?shù)量

根據(jù)計(jì)算Rayleigh商和Cattell碎石檢驗(yàn)原則，使用改進(jìn)PCA方法前后，基于特征值對(duì)應(yīng)的主成分選擇如圖4所示。

由圖4(a)可知，根據(jù)特征值對(duì)應(yīng)選擇第1、2、3和7個(gè)特征變量即可以表示數(shù)據(jù)集，數(shù)據(jù)集由346×7降為346×4，且變量TOC和CODMn、TN和NH3-N相關(guān)性較強(qiáng)，但注意到變量TP沒有被解釋。

由圖4(b)可知，根據(jù)特征值對(duì)應(yīng)選擇第1、2、3、4和7個(gè)特征變量即可以表示數(shù)據(jù)集，數(shù)據(jù)集由346×7降為346×5，且變量TOC和CODMn、TN和NH3-N相關(guān)性較強(qiáng)，可以進(jìn)行合并，并且沒有丟失變量TP的特征數(shù)據(jù)。

3.4 根據(jù)特征向量矩陣生成新數(shù)據(jù)集

將特征值對(duì)應(yīng)的特征向量構(gòu)造矩陣，得到數(shù)據(jù)降維轉(zhuǎn)換基，轉(zhuǎn)換前后數(shù)據(jù)集特征值示意圖如圖5所示。

由圖5可知，使用PCA方法進(jìn)行降維處理后，仍然可以保留原始數(shù)據(jù)集的大部分變量特征值，但實(shí)驗(yàn)證明改進(jìn)后的PCA方法尋找主成分更為謹(jǐn)慎，對(duì)特征特征值描述更加清晰。

4 結(jié)論

主成分分析(PCA)是通過正交變換將n個(gè)可能相關(guān)的變量轉(zhuǎn)換為k個(gè)（k<n）不相關(guān)的變量，從而尋找到代表原數(shù)據(jù)集的主成分變量的一種統(tǒng)計(jì)方法，是目前使用最廣泛的數(shù)據(jù)維規(guī)約算法。理想的PCA方法使用要求最大方差和最少非主成分?jǐn)?shù)據(jù)丟失，故使用PCA方法時(shí)要關(guān)注生成的協(xié)方差矩陣質(zhì)量和特征值的選取數(shù)量。中心化數(shù)據(jù)時(shí)將均值計(jì)算轉(zhuǎn)變?yōu)榧訖?quán)規(guī)范平均值的計(jì)算，可以充分考慮各變量特征值的統(tǒng)計(jì)性能，保證生成的協(xié)方差矩陣質(zhì)量。通過Rayleigh商和Cattell碎石檢驗(yàn)原則可以選擇更合理的特征值數(shù)目，盡可能避免出現(xiàn)非主成分含有對(duì)樣本差異的重要信息丟失。實(shí)驗(yàn)結(jié)果表明，改進(jìn)后的PCA算法更能保證數(shù)據(jù)完整性，雖然可能會(huì)降低維規(guī)約的效率，但數(shù)據(jù)完整是高質(zhì)量的數(shù)據(jù)源首先應(yīng)該考慮的。

參考文獻(xiàn)

[1] 曾祥坤，張俊輝，石拓，等.基于主題提取模型的交通違法行為文本數(shù)據(jù)的挖掘[J].電子技術(shù)應(yīng)用，2019，45(6)：41-45.

[2] 文若晴，馬昂，潘曉.基于密度聚類的簽到軌跡大數(shù)據(jù)分層預(yù)處理研究[J].計(jì)算機(jī)應(yīng)用與軟件，2019，36(3)：20-28.

[3] ZHANG Y，MERATNIA N，HAVINGA P.Outlier detection tech-niques for wireless sensor networks：a survey[J].IEEE Com-munications Surveys ＆ Tutorials，2010，12(2)：159-170.

[4] LEI P R.A framework for anomaly detection in maritime traj-ectory behavior[J].Knowledge and Information Systems，2016，47(1)：189-214.

[5] 郭方方，潮洛蒙，朱建文.基于相似連接的多源數(shù)據(jù)并行預(yù)處理方法[J].計(jì)算機(jī)應(yīng)用，2019，39(1)：57-60.

[6] CHEN Y F，ZHAO X，HE P J，et al.BMGSJoin：a MapReduce based graph similarity join algorithm[J].Pattern Recognition & Artificial Intelligence，2015，28(5)：472-480.

[7] 張璽君，袁占亭，張紅，等.交通軌跡大數(shù)據(jù)預(yù)處理方法研究[J].計(jì)算機(jī)工程，2019，45(6)：26-31.

[8] 崔光照，曹祥，張華.基于小波變換的基因表達(dá)數(shù)據(jù)去噪聚類分析[J].信號(hào)處理，2005，21(s1)：463-466.

[9] SU H，ZHENG K，WANG H，et al.Calibrating trajectory data for similarity-based analysis[C].ACM SIGMOD International Conference on Management of Data.ACM，2013：833-844.

[10] 李志平，付冬梅，穆志純.基于稀疏數(shù)據(jù)規(guī)約的CMAC大氣腐蝕數(shù)據(jù)補(bǔ)償方法[J].計(jì)算機(jī)應(yīng)用研究，2016，33(9)：2645-2647.

[11] TAGHAVIPOUR A，F(xiàn)OUMANI M S，BOROUSHAKI M.Implementation of an optimal control strategy for a hydraulic hybrid vehicle using CMAC and RBF networks[J].Scientia Iranica，2012，19(2):327-334.

[12] 范葉平，李玉，楊德勝，等.基于深度集成學(xué)習(xí)的人臉智能反饋認(rèn)知方法[J].電子技術(shù)應(yīng)用，2019，45(5)：5-8，13.

[13] 謝霖銓，徐浩，陳希邦，等.基于PCA的決策樹優(yōu)化算法[J].軟件導(dǎo)刊，2019，18(9)：69-71，76.

[14] 張?jiān)讫?基于PCA的高維流式數(shù)據(jù)聚類算法[J].電子技術(shù)與軟件工程，2019(8)：175-176.

作者信息:

陳燕1，陳亞林2，鄭軍1

(1.貴陽(yáng)學(xué)院數(shù)學(xué)與信息科學(xué)學(xué)院，貴州貴陽(yáng)550002；2.南京財(cái)經(jīng)大學(xué) 管理科學(xué)與工程學(xué)院，江蘇南京210046)

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請(qǐng)及時(shí)通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

一种改进的基于PCA的数据预处理方法

日期： 2020-01-20

作者：陈 燕1，陈亚林2，郑 军1

來源：2020年电子技术应用第1期

相關(guān)內(nèi)容

作者：陈燕1，陈亚林2，郑军1