123,123,123

数据仓库在大型超市中的应用

吕维先陈红艺帅　赟

中国地质大学（武汉）信息工程学院(430074)

摘要： 给出了数据仓库的概念和特征。结合大型超市的实际情况，描述了数据仓库的构建过程及需要注意的问题。

關鍵詞： 数据仓库决策支持系统数据挖掘超级市场

Abstract：

Key words :

摘要： 給出了數據倉庫的概念和特征。結合大型超市的實際情況，描述了數據倉庫的構建過程及需要注意的問題。
關鍵詞： 數據倉庫決策支持數據挖掘超級市場

　　現代社會的發(fā)展在某種意義上取決于信息的獲取與處理技術。信息的價值在于用戶通過使用這些信息從中得到收益。信息工作者所面對的問題不是簡單地處理數據，而是如何使用數據，即從數據中挖掘出有用的信息。就超市而言，各種商品的銷售情況實際上蘊藏著某種規(guī)律性。如果能夠把它挖掘出來，無疑對今后的工作有很大的幫助。
1 數據倉庫的概念和特征
　　數據倉庫指的是在關系數據庫中存儲數據和處理數據，并且使得數據更加有力地支持決策分析。其目標是通過收集、過濾和存儲數據，尋找數據的趨勢，幫助企業(yè)制定有關經營方面的決策。
　　這里給數據倉庫一個比較完整的定義：數據倉庫是面向主題的、一致的、不同時間的、穩(wěn)定的數據集合，用于支持經營管理中的決策支持過程。也就是說，數據倉庫是一個處理過程，該過程從歷史的角度組織和存儲數據，并能集成地進行數據分析。數據倉庫有以下四個特征。
　　(1)數據倉庫是面向主題的。傳統(tǒng)的數據倉庫是面向應用設計的，而主題是在一個較高層次將數據歸類的標準。例如，在一個大型超市里，如果只記錄原始的銷售數據，則使用原始的數據庫技術即可。但是如果希望對這些數據加以分析，找出哪些年齡段的人喜歡某類產品，什么時間段某類產品銷量最好以及產品與銷量的關系，則需要借助于數據倉庫技術。
　　(2)數據倉庫是一致的數據的集合。應用程序常常以不同的格式使用類似的數據。例如：超級市場可能表示為“超市”、“超級市場”、“supper market”等。這些數據的值必須統(tǒng)一才能更好地使用。
　　(3)存儲在OLTP系統(tǒng)中的數據可以正確地表示任何時間的任何值。它一般表示過了一段比較長的時間的數據，通常是5～10年。這些數據一般是不改變的。而數據庫通常只把有用的數據保存30～90天。
　　(4)數據倉庫是比較穩(wěn)定的。當數據移動到數據倉庫后，就不再改變，除非存儲的數據不正確。一般情況下，在數據倉庫中發(fā)生的操作是建立數據倉庫時的加載數據和查詢數據。
2 建立數據倉庫的過程
　　建立數據倉庫的過程實際上是從傳統(tǒng)的以數據庫為中心的操作型系統(tǒng)結構轉移到以數據倉庫為中心的體系結構的過程。具體實現過程如下。
　　(1)建立企業(yè)模型，并且選取主題。企業(yè)模型是從企業(yè)用戶的角度對企業(yè)所需數據的內容以及數據間關系的抽象。企業(yè)模型對大型企業(yè)是有重要意義的。有了企業(yè)模型，可以比較完整地了解企業(yè)中各方面、各階層人員對數據的需要程度。這對建立數據倉庫有很好的指導作用。圖1為大型超市企業(yè)模型。

　　企業(yè)模型建立后，可以根據企業(yè)模型和用戶需求確定系統(tǒng)中存在的主題。大型數據倉庫涉及的系統(tǒng)眾多、功能復雜，因此往往采取螺旋式的開發(fā)方式。將龐大的目標劃分成若干個實施階段，實際上是將一個復雜、困難的問題轉化為多個比較簡單明確的小問題，然后分而治之。主題選取的原則包括：優(yōu)先實施企業(yè)管理者最關心的問題，優(yōu)先選擇在短時間內能見效的決策，優(yōu)先實施投資風險低的決策。例如，管理者關心的是某一時期的銷售額、利潤額、市場份額等。
　　(2)選擇數據顆粒度。對于不同的數據量，將選擇不同的數據顆粒度策略。小數據量可以采用單一的數據粒度，即直接存儲細節(jié)數據并定期在細節(jié)數據基礎上進行數據綜合。而大數據量需要采用雙重粒度，數據倉庫只保留在細節(jié)數據保留周期之內的數據，對于該周期之后的信息只保留其綜合信息。就超市而言，可以保存最近一個月中每天的營業(yè)額數據。對于更早時間段內的營業(yè)額數據，可以只保存周營業(yè)額之和，或者月營業(yè)額之和。典型的粒度定義包括：顧客的購物券上掃描設備一次拾取的分列項內容，倉庫中每種產品庫存水平的日快照，每個銀行帳號的月快照。
　　(3)表的分割與劃分。通常按照時間進行分割。細節(jié)數據時間短，而綜合數據的時間稍長。分割表之后要為各個表增加合適的時間字段，同時去掉分析過程中不會用到的字段。在實際應用中，字段被訪問的頻率有差別。將所有的字段放在一起會影響訪問的效率。所以有必要對表中的內容進行合理的劃分。通常按照數據穩(wěn)定性進行劃分，這樣就避免了整張表的記錄數迅速增長的現象，節(jié)約了存儲空間。
　　(4)數據抽取和數據加載。將數據資源從外部抽取到數據倉庫中，在此過程中應該依據元數據中定義的標準數據格式處理數據。在數據被抽取后，對準備進行加載的數據進行清理，然后就可以把它們加載到數據倉庫中。
　　(5)OLAP模型設計。OLAP是針對某個特定的主題進行的聯機數據訪問、處理和分析，通過直觀的方式從多個維度、多種數據綜合程度將系統(tǒng)的運營情況展現給使用者。OLAP模型設計包括維表設計和事實表設計。維表通過記錄因素的屬性描述事件中包含的諸多因素，例如，員工維表中通過員工標識號、姓名、電話、年齡、地址等信息用來刻畫員工的屬性。維表屬性有星型模型和雪花型模型二種類型。通常，星型模型用來處理一對一和一對多關系，雪花型模型用來處理多對多關系。雪花型模型用中間表連接事實表和維表，使事實表不至于迅速膨脹。在設計事實表時要著重考慮數據的粒度。如果決策者不斷向下觀察細節(jié)數據，則事實表會記錄很多的細節(jié)，其長度會增大。反之其長度會減小。圖2為銷售主題的星型模型和雪花模型。

　　(6)數據挖掘模型設計。在進行數據挖掘的時候，將數據寬表劃分成訓練集合和驗證集合。在沒有挖掘模型時可以使用訓練集合對數據進行訓練，逐漸確定模型中的參數。在模型建立后，利用驗證集合對模型進行評價。
　　在模型確定后，需要將進行預測的數據輸入挖掘引擎，挖掘引擎將利用模型得到預測結果。數據挖掘的部分預測結果輸入到OLAP子系統(tǒng)中，另一些結果輸入界面子系統(tǒng)，以便將數據挖掘的結果呈現給最終用戶。
　　(7)同客戶交流。以上工作完成以后，需要同用戶進行深入的交流，使用戶對以上系統(tǒng)有更加深入的認識，獲取用戶的想法，以便于下一步工作的開展。
　　(8)重新開始循環(huán)。重新進入以上循環(huán)，直到取得滿意的結果。
3 結束語
　　大型超市每天都要進行成千上萬筆交易。對這些交易進行分析，找出它們之間的關聯關系，有利于超市管理層進行正確決策，及時調整經營策略，更好地適應市場的挑戰(zhàn)。
參考文獻
1   Agosta L著，瀟湘工作室譯.數據倉庫技術指南.北京：人民郵電出版社，2000
2   謝榕.基于數據倉庫的決策支持系統(tǒng)框架.系統(tǒng)工程理論與實踐，2000；（4）
3   高洪深.決策支持系統(tǒng)（DSS）.北京：清華大學出版社，2000
4   林宇.數據倉庫原理與實踐.北京：人民郵電出版社，2003
5   Han J，Kamber M著，范明，孟小峰譯.數據挖掘：概念與技術.北京：機械工業(yè)出版社，2001

原創(chuàng)聲明：此內容為AET網站原創(chuàng)，未經授權禁止轉載。

相關內容