摘 要: 給出了數據倉庫的概念和特征。結合大型超市的實際情況,描述了數據倉庫的構建過程及需要注意的問題。
關鍵詞: 數據倉庫 決策支持 數據挖掘 超級市場
現代社會的發(fā)展在某種意義上取決于信息的獲取與處理技術。信息的價值在于用戶通過使用這些信息從中得到收益。信息工作者所面對的問題不是簡單地處理數據,而是如何使用數據,即從數據中挖掘出有用的信息。就超市而言,各種商品的銷售情況實際上蘊藏著某種規(guī)律性。如果能夠把它挖掘出來,無疑對今后的工作有很大的幫助。
1 數據倉庫的概念和特征
數據倉庫指的是在關系數據庫中存儲數據和處理數據,并且使得數據更加有力地支持決策分析。其目標是通過收集、過濾和存儲數據,尋找數據的趨勢,幫助企業(yè)制定有關經營方面的決策。
這里給數據倉庫一個比較完整的定義:數據倉庫是面向主題的、一致的、不同時間的、穩(wěn)定的數據集合,用于支持經營管理中的決策支持過程。也就是說,數據倉庫是一個處理過程,該過程從歷史的角度組織和存儲數據,并能集成地進行數據分析。數據倉庫有以下四個特征。
(1)數據倉庫是面向主題的。傳統(tǒng)的數據倉庫是面向應用設計的,而主題是在一個較高層次將數據歸類的標準。例如,在一個大型超市里,如果只記錄原始的銷售數據,則使用原始的數據庫技術即可。但是如果希望對這些數據加以分析,找出哪些年齡段的人喜歡某類產品,什么時間段某類產品銷量最好以及產品與銷量的關系,則需要借助于數據倉庫技術。
(2)數據倉庫是一致的數據的集合。應用程序常常以不同的格式使用類似的數據。例如:超級市場可能表示為“超市”、“超級市場”、“supper market”等。這些數據的值必須統(tǒng)一才能更好地使用。
(3)存儲在OLTP系統(tǒng)中的數據可以正確地表示任何時間的任何值。它一般表示過了一段比較長的時間的數據,通常是5~10年。這些數據一般是不改變的。而數據庫通常只把有用的數據保存30~90天。
(4)數據倉庫是比較穩(wěn)定的。當數據移動到數據倉庫后,就不再改變,除非存儲的數據不正確。一般情況下,在數據倉庫中發(fā)生的操作是建立數據倉庫時的加載數據和查詢數據。
2 建立數據倉庫的過程
建立數據倉庫的過程實際上是從傳統(tǒng)的以數據庫為中心的操作型系統(tǒng)結構轉移到以數據倉庫為中心的體系結構的過程。具體實現過程如下。
(1)建立企業(yè)模型,并且選取主題。企業(yè)模型是從企業(yè)用戶的角度對企業(yè)所需數據的內容以及數據間關系的抽象。企業(yè)模型對大型企業(yè)是有重要意義的。有了企業(yè)模型,可以比較完整地了解企業(yè)中各方面、各階層人員對數據的需要程度。這對建立數據倉庫有很好的指導作用。圖1為大型超市企業(yè)模型。

企業(yè)模型建立后,可以根據企業(yè)模型和用戶需求確定系統(tǒng)中存在的主題。大型數據倉庫涉及的系統(tǒng)眾多、功能復雜,因此往往采取螺旋式的開發(fā)方式。將龐大的目標劃分成若干個實施階段,實際上是將一個復雜、困難的問題轉化為多個比較簡單明確的小問題,然后分而治之。主題選取的原則包括:優(yōu)先實施企業(yè)管理者最關心的問題,優(yōu)先選擇在短時間內能見效的決策,優(yōu)先實施投資風險低的決策。例如,管理者關心的是某一時期的銷售額、利潤額、市場份額等。
(2)選擇數據顆粒度。對于不同的數據量,將選擇不同的數據顆粒度策略。小數據量可以采用單一的數據粒度,即直接存儲細節(jié)數據并定期在細節(jié)數據基礎上進行數據綜合。而大數據量需要采用雙重粒度,數據倉庫只保留在細節(jié)數據保留周期之內的數據,對于該周期之后的信息只保留其綜合信息。就超市而言,可以保存最近一個月中每天的營業(yè)額數據。對于更早時間段內的營業(yè)額數據,可以只保存周營業(yè)額之和,或者月營業(yè)額之和。典型的粒度定義包括:顧客的購物券上掃描設備一次拾取的分列項內容,倉庫中每種產品庫存水平的日快照,每個銀行帳號的月快照。
(3)表的分割與劃分。通常按照時間進行分割。細節(jié)數據時間短,而綜合數據的時間稍長。分割表之后要為各個表增加合適的時間字段,同時去掉分析過程中不會用到的字段。在實際應用中,字段被訪問的頻率有差別。將所有的字段放在一起會影響訪問的效率。所以有必要對表中的內容進行合理的劃分。通常按照數據穩(wěn)定性進行劃分,這樣就避免了整張表的記錄數迅速增長的現象,節(jié)約了存儲空間。
(4)數據抽取和數據加載。將數據資源從外部抽取到數據倉庫中,在此過程中應該依據元數據中定義的標準數據格式處理數據。在數據被抽取后,對準備進行加載的數據進行清理,然后就可以把它們加載到數據倉庫中。
(5)OLAP模型設計。OLAP是針對某個特定的主題進行的聯機數據訪問、處理和分析,通過直觀的方式從多個維度、多種數據綜合程度將系統(tǒng)的運營情況展現給使用者。OLAP模型設計包括維表設計和事實表設計。維表通過記錄因素的屬性描述事件中包含的諸多因素,例如,員工維表中通過員工標識號、姓名、電話、年齡、地址等信息用來刻畫員工的屬性。維表屬性有星型模型和雪花型模型二種類型。通常,星型模型用來處理一對一和一對多關系,雪花型模型用來處理多對多關系。雪花型模型用中間表連接事實表和維表,使事實表不至于迅速膨脹。在設計事實表時要著重考慮數據的粒度。如果決策者不斷向下觀察細節(jié)數據,則事實表會記錄很多的細節(jié),其長度會增大。反之其長度會減小。圖2為銷售主題的星型模型和雪花模型。

(6)數據挖掘模型設計。在進行數據挖掘的時候,將數據寬表劃分成訓練集合和驗證集合。在沒有挖掘模型時可以使用訓練集合對數據進行訓練,逐漸確定模型中的參數。在模型建立后,利用驗證集合對模型進行評價。
在模型確定后,需要將進行預測的數據輸入挖掘引擎,挖掘引擎將利用模型得到預測結果。數據挖掘的部分預測結果輸入到OLAP子系統(tǒng)中,另一些結果輸入界面子系統(tǒng),以便將數據挖掘的結果呈現給最終用戶。
(7)同客戶交流。以上工作完成以后,需要同用戶進行深入的交流,使用戶對以上系統(tǒng)有更加深入的認識,獲取用戶的想法,以便于下一步工作的開展。
(8)重新開始循環(huán)。重新進入以上循環(huán),直到取得滿意的結果。
3 結束語
大型超市每天都要進行成千上萬筆交易。對這些交易進行分析,找出它們之間的關聯關系,有利于超市管理層進行正確決策,及時調整經營策略,更好地適應市場的挑戰(zhàn)。
參考文獻
1 Agosta L著,瀟湘工作室譯.數據倉庫技術指南.北京:人民 郵電出版社,2000
2 謝榕.基于數據倉庫的決策支持系統(tǒng)框架.系統(tǒng)工程理論與實踐,2000;(4)
3 高洪深.決策支持系統(tǒng)(DSS).北京:清華大學出版社,2000
4 林宇.數據倉庫原理與實踐.北京:人民郵電出版社,2003
5 Han J,Kamber M著,范明,孟小峰譯.數據挖掘:概念與技術.北京:機械工業(yè)出版社,2001
