摘 要: 污染源在線監(jiān)測數(shù)據(jù)分析系統(tǒng)基于污染源管理綜合系統(tǒng)數(shù)據(jù)庫提供的數(shù)據(jù)源,經(jīng)過數(shù)據(jù)清洗、轉(zhuǎn)換,加載到數(shù)據(jù)倉庫中,進(jìn)行主題設(shè)計(jì)與多維建模,采用OLAP技術(shù)實(shí)現(xiàn)海量數(shù)據(jù)展示、分析統(tǒng)計(jì),同時(shí)提供功能強(qiáng)大的共享查詢、多維分析和污染源企業(yè)排口監(jiān)測因子預(yù)警、事件自動提醒及各類數(shù)據(jù)報(bào)表統(tǒng)計(jì)等,提高了減排工作信息化的水平和工作效率。
關(guān)鍵詞: 聯(lián)機(jī)分析處理; 數(shù)據(jù)倉庫; 多維分析
根據(jù)國家環(huán)??偩帧蛾P(guān)于制定主要污染物總量減排年度計(jì)劃的通知》(環(huán)辦[2007]33號)要求,及廣東省人民政府《關(guān)于加強(qiáng)我省主要污染物總量控制工作的實(shí)施意見》(粵府辦[2007]118號),對已建成在線監(jiān)控設(shè)備的企業(yè)提出了考核要求。為加強(qiáng)減排工作信息化,提高工作效率,強(qiáng)化數(shù)據(jù)處理能力,完善在線監(jiān)測數(shù)據(jù)庫,同時(shí)結(jié)合“減排”工作的需要,需建立在線監(jiān)控?cái)?shù)據(jù)上報(bào)及聯(lián)機(jī)數(shù)據(jù)分析系統(tǒng)。
1 聯(lián)機(jī)分析系統(tǒng)研究
聯(lián)機(jī)分析處理OLAP(On Line Analytical Processing)的概念最早是由關(guān)系數(shù)據(jù)庫之父CODD E F于1993年提出的。當(dāng)時(shí),CODD認(rèn)為聯(lián)機(jī)事務(wù)處理OLTP(On Line Transactioinal Processing)已不能滿足終端用戶對數(shù)據(jù)庫查詢分析的需要,用戶的決策分析需要對關(guān)系數(shù)據(jù)庫進(jìn)行大量計(jì)算才能得到結(jié)果,因此提出了多維數(shù)據(jù)庫和多維分析的概念,即OLAP[1-3]。OLAP是數(shù)據(jù)倉庫系統(tǒng)的主要應(yīng)用,支持復(fù)雜的分析操作,為人們提供直觀易懂的查詢結(jié)果[1]。
OLAP服務(wù)器一般作為數(shù)據(jù)倉庫系統(tǒng)的中間層和用戶預(yù)定義的多維數(shù)據(jù)視圖,對數(shù)據(jù)倉庫的信息進(jìn)行統(tǒng)計(jì)分析處理,為具有明確分析范圍和分析要求的用戶提供高性能的決策支持[2]。OLAP技術(shù)通過基本多維分析操作為用戶提供一幅幅直觀的視圖。常用的多維分析操作有鉆取、切片、切塊和旋轉(zhuǎn)等。
2 系統(tǒng)需求及功能概述
污染源在線監(jiān)測數(shù)據(jù)分析系統(tǒng)基于污染源管理綜合系統(tǒng)數(shù)據(jù)庫提供的數(shù)據(jù),要求將系統(tǒng)監(jiān)控?cái)?shù)據(jù)收集到分析數(shù)據(jù)庫中,實(shí)時(shí)分析監(jiān)測數(shù)據(jù),即時(shí)發(fā)現(xiàn)數(shù)據(jù)異動發(fā)出報(bào)警,實(shí)現(xiàn)數(shù)據(jù)分析、發(fā)布上報(bào)和報(bào)警,同時(shí)提供功能強(qiáng)大的即席查詢和統(tǒng)計(jì)分析能力,提高工作效率。
系統(tǒng)主要功能模塊劃分為:實(shí)時(shí)監(jiān)測和異常報(bào)警、事件提醒及待辦處理、數(shù)據(jù)分析、設(shè)備維護(hù)、數(shù)據(jù)同步和系統(tǒng)管理。
實(shí)時(shí)監(jiān)測和異常報(bào)警功能模塊包括對數(shù)百家重點(diǎn)企業(yè)進(jìn)行實(shí)時(shí)排污監(jiān)控,主要是排水和排氣。每家排污企業(yè)根據(jù)其行業(yè)類別、生產(chǎn)工藝等不同設(shè)立了不同監(jiān)測因子和排放范圍,當(dāng)企業(yè)的排放超出了設(shè)定的排放標(biāo)準(zhǔn)或產(chǎn)生其他異動狀況,系統(tǒng)及時(shí)發(fā)出警報(bào),并向值班人員發(fā)送短信提醒;發(fā)現(xiàn)設(shè)備運(yùn)行異常時(shí)通知運(yùn)營單位進(jìn)行檢修,填寫設(shè)備異常報(bào)告等。
事件提醒及待辦處理功能模塊包括:當(dāng)系統(tǒng)偵測發(fā)生異常和設(shè)備維護(hù)等事件時(shí),系統(tǒng)自動提醒用戶;由用戶輸入相應(yīng)事件處理的日程安排。
數(shù)據(jù)統(tǒng)計(jì)分析功能包括對污染源企業(yè)、監(jiān)測因子排放、現(xiàn)場巡視、企業(yè)生產(chǎn)異常事件、污染源排放、超標(biāo)排放、掉電情況、超標(biāo)率等統(tǒng)計(jì)分析等。
數(shù)據(jù)同步功能分為業(yè)務(wù)數(shù)據(jù)更新后同步和數(shù)據(jù)補(bǔ)登后數(shù)據(jù)同步。
系統(tǒng)管理功能模塊包括用戶管理、角色管理、權(quán)限分配和系統(tǒng)參數(shù)設(shè)置等功能。只能由系統(tǒng)管理員操作使用。
3 在線監(jiān)測與分析系統(tǒng)數(shù)據(jù)倉庫設(shè)計(jì)
3.1數(shù)據(jù)倉庫設(shè)計(jì)框架
數(shù)據(jù)倉庫的設(shè)計(jì)為決策、分析及高效管理提供保障和服務(wù),是系統(tǒng)在線監(jiān)測與分析的基礎(chǔ)與核心。
本系統(tǒng)的數(shù)據(jù)倉庫設(shè)計(jì)總體框架如圖1所示,按照數(shù)據(jù)獲取層、數(shù)據(jù)存儲層、數(shù)據(jù)展現(xiàn)層模式建設(shè)。其好處是層次分明,層次之間松耦合,保證整個(gè)系統(tǒng)的穩(wěn)定運(yùn)行,并方便維護(hù)和功能的擴(kuò)展工作。
數(shù)據(jù)獲取層 從污染源管理綜合數(shù)據(jù)庫中獲取的數(shù)據(jù)作為數(shù)據(jù)源,經(jīng)過必要的抽取、清洗、轉(zhuǎn)換等處理后加載到數(shù)據(jù)倉庫系統(tǒng)中,即ETL(Extraction Transformation Loading)過程。本系統(tǒng)關(guān)于數(shù)據(jù)抽取和轉(zhuǎn)換使用基于商業(yè)智能的開源工具Kettle ETL對多種不同數(shù)據(jù)源、不同格式的數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換、加載等繁雜工作。
數(shù)據(jù)存儲層 包括數(shù)據(jù)倉庫和從屬的數(shù)據(jù)集市。數(shù)據(jù)倉庫是信息的邏輯和物理的存儲。在數(shù)據(jù)倉庫實(shí)施過程中,對于某些主題業(yè)務(wù)的分析問題,按照主題采用數(shù)據(jù)集市的方式對數(shù)據(jù)進(jìn)行進(jìn)一步的組織。在中央數(shù)據(jù)倉庫的基礎(chǔ)上根據(jù)分析需求創(chuàng)建相應(yīng)的從屬數(shù)據(jù)集市。
數(shù)據(jù)展現(xiàn)層 通過對數(shù)據(jù)存儲層的數(shù)據(jù)進(jìn)行各種加工整理,將獲得的數(shù)據(jù)以文字、報(bào)表、曲線和各種圖形的方式,簡便、快捷地展現(xiàn)出來。主要包括即席查詢、聯(lián)機(jī)分析處理、報(bào)表輸出和信息結(jié)果發(fā)布等功能。
3.2主題分析設(shè)計(jì)與多維建模
數(shù)據(jù)倉庫中的數(shù)據(jù)都圍繞相關(guān)主題組織,面向主題是在線監(jiān)測與分析系統(tǒng)數(shù)據(jù)倉庫區(qū)別于污染源管理綜合數(shù)據(jù)庫系統(tǒng)的主要特征。經(jīng)過需求分析和與用戶反復(fù)探討最終確定了在線數(shù)據(jù)分析系統(tǒng)數(shù)據(jù)倉庫的幾個(gè)基本主題:污染源類型主題、異常事件類型主題、監(jiān)控設(shè)備類型主題,并確定其公用類主題。如污染源類型主題包括所屬行業(yè)、監(jiān)測站類別、工藝流程、監(jiān)測因子、企業(yè)規(guī)模、注冊類型、管理級別、排放去向、污染物處置方法等信息。異常事件類型主題包括異常類型、監(jiān)控類型、超標(biāo)因子等信息。監(jiān)控設(shè)備類包括設(shè)備類型、調(diào)試目的等信息。
公用類主題類型包括的維度有日期、時(shí)間和地區(qū)。如圖2所示。
確定主題后,可以用多維模型進(jìn)行描述。多維建模方式表現(xiàn)了屬性間更為豐富的關(guān)系和靈活性。多維建模易于使用者進(jìn)行多維分析[5-6]。在多維分析模型建設(shè)中主要存在兩種模型:星型模型(Star Schema)和雪花模型(Snowflake Schema)。以污染源排污監(jiān)控分析主題關(guān)系邏輯雪花型多維模型如圖3所示。
此模型對應(yīng)的系統(tǒng)分析目標(biāo)和功能為:從時(shí)間段、污染類型、企業(yè)規(guī)模、行政區(qū)域等角度對排放因子進(jìn)行分析,掌握各類排放因子的排放平均值、最大值、最小值和累計(jì)排放值,并可進(jìn)行不同時(shí)間段內(nèi)趨勢和比較分析,了解排放值的變化趨勢。
4 在線監(jiān)測數(shù)據(jù)分析
4.1 污染源排放統(tǒng)計(jì)分析
采用企業(yè)級商務(wù)智能分析處理模塊,引入主流的ROLAP(關(guān)系型聯(lián)機(jī)分析處理系統(tǒng))技術(shù),通過Mondrian多維分析工具,實(shí)現(xiàn)海量數(shù)據(jù)展示、分析統(tǒng)計(jì),同時(shí)提供功能強(qiáng)大的共享查詢和多維分析功能[7]??梢远嘁暯嵌嗑S度觀察監(jiān)測數(shù)據(jù),對數(shù)據(jù)進(jìn)行上鉆、下鉆、切片、切塊等操作[8]。污染源排放數(shù)值多維統(tǒng)計(jì)分析如圖4所示。
4.2污染源企業(yè)排口監(jiān)測因子預(yù)警及閥值設(shè)置
考慮到排污、流量等情況的多變性,采取實(shí)時(shí)在線學(xué)習(xí)訓(xùn)練及仿真、預(yù)測,即采用近期的實(shí)測資料(依據(jù)連續(xù)幾個(gè)時(shí)間周期取值的變化做實(shí)驗(yàn)),建立預(yù)測模型,通過實(shí)際數(shù)據(jù)比較,得到與實(shí)際結(jié)果相近的預(yù)測率。實(shí)測結(jié)果示例如圖5所示。
企業(yè)據(jù)此填報(bào)污染源排放煙氣連續(xù)監(jiān)測系統(tǒng)審核評分表,如圖6所示。
對于不同行業(yè)的閥值有不同,通常依據(jù)連續(xù)幾個(gè)時(shí)間周期取值的變化來做監(jiān)測,智能分析超標(biāo)率,默認(rèn)時(shí)間周期內(nèi)(h或者min)80%時(shí)間超標(biāo)提醒,例如排水的工廠,以6 h為周期,連續(xù)5 h,或者有85%的離散數(shù)據(jù)接近閥值,則系統(tǒng)產(chǎn)生預(yù)警,如果發(fā)現(xiàn)企業(yè)有違反環(huán)保規(guī)定的行為,可以下達(dá)限期整改通知書,責(zé)令企業(yè)在特定的期限內(nèi)完成整改。
本系統(tǒng)采用基于數(shù)據(jù)倉庫和智能分析技術(shù)實(shí)現(xiàn)海量數(shù)據(jù)查詢及分析、污染源企業(yè)排口監(jiān)測因子預(yù)警、事件自動提醒、各類數(shù)據(jù)報(bào)表統(tǒng)計(jì)、任意格式數(shù)據(jù)報(bào)表導(dǎo)出,自動填寫電子化報(bào)告等功能,基本達(dá)到低碳、環(huán)保的無紙辦公。實(shí)現(xiàn)了環(huán)境監(jiān)察業(yè)務(wù)的流程化、標(biāo)準(zhǔn)化和規(guī)范化,為數(shù)字環(huán)保和智慧城市提供基礎(chǔ)信息方案。系統(tǒng)正式投入運(yùn)行近一年,得到了使用單位的一致好評。
參考文獻(xiàn)
[1] BAEZA-YATES R, HURTADO C, MENDOZA M. Query recommendation using query logs in search engines [C]. Proc of EDBT Workshops,2004:588-596.
[2] 陳啟買,賀超波,劉海.基于OLAP的高校教學(xué)協(xié)同決策[J]. 計(jì)算機(jī)應(yīng)用,2009,29(1):304-305,333.
[3] KOUTRIKA G,IKEDA R,BERCOVITZ B,et al. Flexible recommendations over rich data[C]. Proc of ACM Conference on Recommender Systems,2008:203-210.
[4] 李婧. 商務(wù)智能與數(shù)據(jù)倉庫在保險(xiǎn)業(yè)的應(yīng)用研究[D].西安:西安電子科技大學(xué),2007.
[5] 黃曉穎,李亞芬,王普. 基于數(shù)據(jù)倉庫的學(xué)科建設(shè)決策支持系統(tǒng)的設(shè)計(jì)[J] .計(jì)算機(jī)工程與設(shè)計(jì), 2010,31(23):4995-4998.
[6] 秦永平,王麗萍,孫慶.基于數(shù)據(jù)倉庫的突發(fā)公共衛(wèi)生事件預(yù)警預(yù)報(bào)系統(tǒng)[J].計(jì)算機(jī)工程與設(shè)計(jì), 2010,31(23):3119-3122.
[7] 王亞妮,李茜. 基于OLAP 技術(shù)的社區(qū)衛(wèi)生服務(wù)體系信息管理平臺的設(shè)計(jì)與實(shí)現(xiàn)[C]. 2010 3rd International Conference on Power Electronics and Intelligent Transportation System,2010.
[8] 陳元中. 基于聚類的OLAP多維分析查詢推薦方法研究[J].計(jì)算機(jī)工程與設(shè)計(jì), 2010,31(15): 3503-3505.