《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 嵌入式技術(shù) > 業(yè)界動(dòng)態(tài) > 利用數(shù)據(jù)倉(cāng)庫(kù)技術(shù)開(kāi)發(fā)文化稽查統(tǒng)計(jì)分析系統(tǒng)

利用數(shù)據(jù)倉(cāng)庫(kù)技術(shù)開(kāi)發(fā)文化稽查統(tǒng)計(jì)分析系統(tǒng)

2009-06-03
作者:李 山

??? 摘 要:提出統(tǒng)計(jì)分析系統(tǒng)不應(yīng)該歸入普通管理信息系統(tǒng),而應(yīng)該根據(jù)用戶(hù)具體需求,充分分析其本質(zhì),利用數(shù)據(jù)倉(cāng)庫(kù)技術(shù)進(jìn)行開(kāi)發(fā)和實(shí)現(xiàn),并闡述了如何利用數(shù)據(jù)倉(cāng)庫(kù)技術(shù)從需求分析到最終表現(xiàn)的開(kāi)發(fā)全過(guò)程。
??? 關(guān)鍵詞:數(shù)據(jù)倉(cāng)庫(kù);統(tǒng)計(jì)分析;需求分析;工作流

?

??? 統(tǒng)計(jì)分析系統(tǒng)(Statistic Analysis System)不是歸入到普通管理信息系統(tǒng)MIS中的模塊或插件,而是建立在MIS基礎(chǔ)之上,具有一定輔助決策能力的獨(dú)立系統(tǒng)。往往在傳統(tǒng)MIS中嵌入統(tǒng)計(jì)分析系統(tǒng),會(huì)造成MIS運(yùn)行的數(shù)據(jù)吞吐瓶頸,給客戶(hù)帶來(lái)MIS運(yùn)行緩慢的錯(cuò)覺(jué)。尤其是當(dāng)業(yè)務(wù)數(shù)據(jù)量很大的時(shí)候,這種情況會(huì)突顯出來(lái)。為此,使用有效的技術(shù)手段構(gòu)造獨(dú)立的統(tǒng)計(jì)分析系統(tǒng)是很有必要的。在開(kāi)發(fā)“文化稽查統(tǒng)計(jì)分析系統(tǒng)”項(xiàng)目的時(shí)候,采用了數(shù)據(jù)倉(cāng)庫(kù)技術(shù),構(gòu)建起運(yùn)行在“文化稽查管理信息系統(tǒng)”之上的統(tǒng)計(jì)分析系統(tǒng)。本文介紹了相關(guān)的構(gòu)建過(guò)程和關(guān)鍵技術(shù)的實(shí)施。
1 需求分析
1.1 需求特點(diǎn)

??? 建立統(tǒng)計(jì)分析系統(tǒng)依然要經(jīng)過(guò)嚴(yán)格的需求分析階段,只有在明確的需求指導(dǎo)下,才能開(kāi)發(fā)出滿(mǎn)足客戶(hù)真正需要的系統(tǒng)。MIS系統(tǒng)是建立在非信息化的原始手工平臺(tái)上的全新系統(tǒng),而該系統(tǒng)則是在原有的MIS系統(tǒng)開(kāi)放平臺(tái)上構(gòu)造上層系統(tǒng),因此具兩大特點(diǎn):(1)業(yè)務(wù)過(guò)程信息化。在需求分析階段不需要重新分析整個(gè)業(yè)務(wù)過(guò)程,因?yàn)檫@些復(fù)雜的業(yè)務(wù)流程已經(jīng)整理并實(shí)現(xiàn)在良構(gòu)的MIS中,需關(guān)注的應(yīng)該是對(duì)于領(lǐng)導(dǎo)決策層關(guān)心的業(yè)務(wù)數(shù)據(jù)及其表現(xiàn)形式上。(2)無(wú)需采集數(shù)據(jù)。由于數(shù)據(jù)的采集過(guò)程已經(jīng)由MIS完成,因此,只需要去分析現(xiàn)有的數(shù)據(jù)集即可。
1.2 關(guān)鍵業(yè)務(wù)需求
??? 正因?yàn)樯鲜鲂枨筇攸c(diǎn),可以將工作重心從整理業(yè)務(wù)流程上轉(zhuǎn)移到數(shù)據(jù)分析上。通過(guò)與客戶(hù)的交流,建立起共性需求。對(duì)于任何統(tǒng)計(jì)分析系統(tǒng),都有對(duì)數(shù)據(jù)進(jìn)行歸并和分類(lèi)的過(guò)程,并且提供給決策層的數(shù)據(jù)往往是在某個(gè)層面上的匯總結(jié)果。因此,將“文化稽查統(tǒng)計(jì)分析系統(tǒng)”的需求歸納成:(1)建立分項(xiàng)統(tǒng)計(jì)功能。即對(duì)決策層面臨的“舉報(bào)”、“稽查”、“立案”、“處罰”等業(yè)務(wù)主題建立各自獨(dú)立的統(tǒng)計(jì)模塊。(2)確立統(tǒng)計(jì)方式為:匯總與分類(lèi),同時(shí)要多維度表現(xiàn)。即可以在任何統(tǒng)計(jì)分項(xiàng)上,考核各統(tǒng)計(jì)指標(biāo),建立起按照時(shí)間、地點(diǎn)、任務(wù)劃分的統(tǒng)計(jì)過(guò)程。(3)同時(shí)要采用靈活的表現(xiàn)方式。即可以以表格和圖形的方式展現(xiàn)給最終用戶(hù)。
??? 對(duì)整個(gè)統(tǒng)計(jì)過(guò)程簡(jiǎn)單建模如圖1所示。這在需求上就確立了該系統(tǒng)的特點(diǎn)符合構(gòu)造數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn),即面向主題,用于決策支持,與時(shí)間刻度相關(guān)的系統(tǒng)。

?

?

2 數(shù)據(jù)預(yù)處理
??? 采用基于工作流(Workflow)方式的數(shù)據(jù)預(yù)處理過(guò)程。在原有的MIS系統(tǒng)上很容易總結(jié)工作流。例如在該系統(tǒng)中,從原有的MIS中截獲的基本過(guò)程是:舉報(bào)、稽查、立案和處罰,但是這些只是基本工作過(guò)程,在它們之間還有一定的關(guān)聯(lián)關(guān)系,這就要通過(guò)對(duì)業(yè)務(wù)過(guò)程進(jìn)行分析( Business Process Analysis),以便更好地建立數(shù)據(jù)集。
2.1 工作流分析
??? 對(duì)于整個(gè)文化稽查業(yè)務(wù)基本上劃分出上述的5個(gè)過(guò)程(Process),在各過(guò)程之間是判斷與選擇的關(guān)聯(lián)關(guān)系?;竟ぷ髁鞒堂枋鋈鐖D2所示。

?

?

??? 對(duì)于一般的系統(tǒng),可以從定義過(guò)程開(kāi)始進(jìn)行分析。
??? 定義 1:
???
??? P是定義在業(yè)務(wù)過(guò)程上的集合;R是定義在P上的關(guān)系對(duì)與條件判斷C的有序?qū)?。通過(guò)給定這樣兩組集合,可以在確立主題統(tǒng)計(jì)指標(biāo)之間關(guān)系的時(shí)候進(jìn)行直接關(guān)聯(lián)。
??? 這樣上述過(guò)程可以更加精確的描述:
??? P={p1: 舉報(bào), p2: 稽查, p3: 立案, p4: 處罰, p5: 終結(jié) }
??? R={ (1, p2>, c1), (2, p3>, c2), (2, p4>, c3), (2, p5>, c4), (3, p4>, c5), (4, p5>, c6) }
??? C = {c1: 接受, c2: 待處理, c3: 現(xiàn)場(chǎng)裁決, c4: 正常, c5: 裁決, c6: 結(jié)案}
2.2 數(shù)據(jù)準(zhǔn)備
??? 基于上述定義的工作流過(guò)程,可以確定需要數(shù)據(jù)的范疇,并且建立指標(biāo)集。在數(shù)據(jù)預(yù)處理階段,將原有業(yè)務(wù)數(shù)據(jù)庫(kù)中的數(shù)據(jù)按照上述過(guò)程進(jìn)行了劃分,確立了分別反映前4個(gè)過(guò)程的4個(gè)關(guān)鍵數(shù)據(jù)表,并且在它們之間建立了以集合C為條件的關(guān)聯(lián)關(guān)系。
??? JuBao(ID#, …)
??? JiCha(ID#, JuBaoID, LiAnID…)
??? ChuFa(ID#, JiChaID, …)
??? JieAn(ID#, ChuFaID, JiChaID)
??? 按照這4個(gè)表中的主外鍵確立過(guò)程關(guān)系,同時(shí)根據(jù)具體情況去除一些異常數(shù)據(jù),如圖3所示。

?

?

3 數(shù)據(jù)倉(cāng)庫(kù)建模
3.1 確立主題

??? 依照工作流總結(jié)的4個(gè)基本過(guò)程,可以定義出4個(gè)主題,如圖4所示,按照它們?cè)谛枨箅A段確定的內(nèi)容,劃分?jǐn)?shù)據(jù)間的粒度大小。

?

?

??? 在粒度劃分上要遵循客戶(hù)實(shí)用性原則,即依照客戶(hù)需求將各維度(Dimension)劃分成不同的類(lèi)別,以便于用戶(hù)識(shí)別。例如:時(shí)間維度,可以劃分成按年、季度、月份、周和日期的不同粒度。地區(qū)維度,可以劃分為市、區(qū)(縣)、街道等。
3.2 建立信息包
??? 確立主題之后,在主題的作用域內(nèi)確立維度、事實(shí)(Facts),并建立起信息包(Information Package)。
??? 例如:對(duì)于“稽查”主題,在用戶(hù)看來(lái)需要了解的信息包括,稽查單位數(shù)、處罰數(shù)量、代立案數(shù)量等一些業(yè)務(wù)指標(biāo),而這些正好構(gòu)成了我們要求解的事實(shí)。同時(shí)關(guān)心在不同時(shí)間片斷,不同地區(qū),以及考量各業(yè)務(wù)部門(mén)之間的這些指標(biāo)的變化情況,這樣就構(gòu)成了統(tǒng)計(jì)時(shí)需要的維度。依次,建立如圖5所示的信息包。

?

?

3.3 建立星型模型
??? 信息包的確立是建立數(shù)據(jù)集合的基礎(chǔ),但是需要將這種二維表現(xiàn)模型轉(zhuǎn)換成具有多維度表現(xiàn)的星型模型,如圖6所示。

?

?

4 實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)并開(kāi)發(fā)系統(tǒng)
4.1 基本過(guò)程

??? 星型模型指導(dǎo)我們?nèi)グl(fā)現(xiàn)和抽取維度信息、事實(shí)數(shù)據(jù),最終建立數(shù)據(jù)倉(cāng)庫(kù),為統(tǒng)計(jì)分析系統(tǒng)的開(kāi)發(fā)奠定基礎(chǔ)。由模型到物理實(shí)現(xiàn)需要經(jīng)歷如圖7所示的基本過(guò)程。

?

?

??? 建立數(shù)據(jù)倉(cāng)庫(kù)前期需要對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行凈化,消除異常數(shù)據(jù),提煉符合要求的基礎(chǔ)數(shù)據(jù)集,并在此之上依照星型模型構(gòu)建各個(gè)主題的數(shù)據(jù)立方(Data Cube),最后將數(shù)據(jù)立方登臺(tái)到物理數(shù)據(jù)庫(kù)中,實(shí)現(xiàn)統(tǒng)計(jì)分析的進(jìn)一步處理。
??? 例如對(duì)于“稽查”主題,我們首先尋找和構(gòu)建維度表。 一般地,可以將維度表描述為:D = {di | i ∈N∧di ∈ R}。同時(shí)發(fā)現(xiàn)事實(shí)數(shù)據(jù)提取的業(yè)務(wù)表。在這里的事實(shí)業(yè)務(wù)表為上述4個(gè)基本表中的JiCha。在清理完上述事實(shí)表和構(gòu)建好維度表之后,需要利用這些表格建立數(shù)據(jù)立方,計(jì)算出各項(xiàng)指標(biāo)值。
??? 續(xù)上過(guò)程,一般在構(gòu)建數(shù)據(jù)立方過(guò)程,可以采用標(biāo)準(zhǔn)SQL完成。一般可以描述為:
??? di×dj(0< i,j ≤ Count(維度表) ∧i≠j) 即各維度的笛卡爾積。或:
??? SELECT COUNT(*), Date, District, …
??? FROM JICHA
??? GROUP BY Date, District, …
??? 最后將此結(jié)果集記錄在專(zhuān)門(mén)用于統(tǒng)計(jì)分析使用的物理數(shù)據(jù)庫(kù)中。
4.2 構(gòu)建前端統(tǒng)計(jì)分析系統(tǒng)
??? 在完成數(shù)據(jù)倉(cāng)庫(kù)的物理實(shí)現(xiàn)后,可以在此基礎(chǔ)上開(kāi)發(fā)相應(yīng)的統(tǒng)計(jì)分析系統(tǒng),并且需要利用到很多表現(xiàn)豐富的前端處理技術(shù)。在此系統(tǒng)中,基本采用以下過(guò)程來(lái)建造這個(gè)前端,如圖8所示。

?

?

??? 在對(duì)統(tǒng)計(jì)結(jié)果進(jìn)行展現(xiàn)的時(shí)候往往需要滿(mǎn)足客戶(hù)適時(shí)調(diào)整展現(xiàn)結(jié)果的需要,這就需要采用數(shù)據(jù)鉆?。―ata Drill)技術(shù),而這個(gè)技術(shù)在很多商業(yè)化的開(kāi)發(fā)工具中都作為包的形勢(shì)提供給開(kāi)發(fā)人員,因此,開(kāi)發(fā)過(guò)程會(huì)相對(duì)方便和快捷。
??? 數(shù)據(jù)倉(cāng)庫(kù)技術(shù)自提出到現(xiàn)在,具體在工程界的應(yīng)用并不是十分到位,其中一個(gè)重要的原因在于客戶(hù)與開(kāi)發(fā)組織在實(shí)現(xiàn)與之相關(guān)的項(xiàng)目時(shí),往往不區(qū)分傳統(tǒng)業(yè)務(wù)系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),這樣就會(huì)在概念和技術(shù)實(shí)現(xiàn)上受到阻礙,從而不能滿(mǎn)足最終用戶(hù)的需要。本文從建立統(tǒng)計(jì)分析系統(tǒng)在需求上的本質(zhì)特征,提出兩者分離并形成層次關(guān)系,利用數(shù)據(jù)倉(cāng)庫(kù)技術(shù),從而很好地解決了上述不足。但是在實(shí)現(xiàn)過(guò)程中發(fā)現(xiàn),對(duì)于實(shí)現(xiàn)這種統(tǒng)計(jì)分析系統(tǒng),并非只限于采用數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的直接結(jié)果,項(xiàng)目的實(shí)施還要受到開(kāi)發(fā)成本、用戶(hù)概念接受程度、現(xiàn)有MIS的完備程度等諸多因素影響,因此在實(shí)際開(kāi)發(fā)過(guò)程中要權(quán)衡考慮。
參考文獻(xiàn)
[1]? KANTARDZI M. Data mining Concepts, Model, Methods and Algorithms[M]. Tsinghua University Publisher, 2003.
[2]? HAMMERGREN T. Data Warehouse Technology[M].Ventana Communications Group, Inc., 1997.

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)及時(shí)通過(guò)電子郵件或電話(huà)通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話(huà):010-82306118;郵箱:aet@chinaaet.com。