摘 要: 時間序列數(shù)據(jù)可視化綜合了時間序列數(shù)據(jù)挖掘、數(shù)據(jù)可視化、計算機(jī)圖形學(xué)、計算機(jī)交互技術(shù)等學(xué)科的理論和方法。從時間和數(shù)據(jù)兩個角度分析了時間序列數(shù)據(jù)的特征;從用戶的角度探討了時間序列數(shù)據(jù)可視化的主要任務(wù);綜述了時間序列數(shù)據(jù)可視化從以人為中心到以計算機(jī)為中心,再到人機(jī)交互方式的發(fā)展歷程;詳細(xì)介紹了時間序列數(shù)據(jù)可視化的5類圖表和5類表達(dá)方式。最后,對時間序列數(shù)據(jù)可視化研究進(jìn)行總結(jié)和展望。
關(guān)鍵詞: 時間序列;可視化;交互
0 引言
時間序列數(shù)據(jù)是按時間順序排列的一系列觀測值。與一般的定量數(shù)據(jù)不同,時間序列數(shù)據(jù)包含時間屬性,不僅要表達(dá)數(shù)據(jù)隨時間變化的規(guī)律,還需表達(dá)數(shù)據(jù)分布的時間規(guī)律。早期,人們將時間序列數(shù)據(jù)繪制在圖紙上,以圖形可視化的方法來發(fā)現(xiàn)時間序列數(shù)據(jù)的規(guī)律。計算機(jī)技術(shù)發(fā)展以來,涌現(xiàn)出許多基于時間序列數(shù)據(jù)的研究[1],例如相似序列搜索、降維、聚類、分類、模式分析、預(yù)測等,但主要是基于計算機(jī)進(jìn)行數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí),對于人機(jī)交互可視化的研究較少。人的眼睛具有很強(qiáng)的模式識別能力,是輔助模式搜索、模式匹配、模式發(fā)現(xiàn)等數(shù)據(jù)挖掘任務(wù)的有力工具。如何將海量的時間序列中隱含的知識規(guī)律,以人們易于理解的方式進(jìn)行交互可視化,是非常值得研究的問題。目前,數(shù)據(jù)可視化技術(shù)已被廣泛地應(yīng)用于呈現(xiàn)、探索和分析時間序列數(shù)據(jù),并出現(xiàn)了一些可視化工具,如Treemaps[2]、ThemeRiver[3]、Spirals[4-7]等。時間序列數(shù)據(jù)可視化已成為數(shù)據(jù)挖掘的前沿研究領(lǐng)域,因為它將機(jī)器智能與人腦智能更加緊密地結(jié)合,讓傳統(tǒng)的“黑箱”挖掘過程變得清晰可見,讓用戶更好地參與到整個數(shù)據(jù)挖掘過程之中,因此具有廣闊的應(yīng)用前景。
1 時間序列數(shù)據(jù)的特征
時間序列數(shù)據(jù)的定義包含兩個方面,一是數(shù)據(jù)與時間密切相關(guān),并隨時間變化;二是數(shù)據(jù)按時間的先后順序排列。因而,時間序列數(shù)據(jù)的特征包含以下兩個方面:
?。?)時間屬性[8]
時間具有特殊的語義結(jié)構(gòu),經(jīng)過人為抽象劃分為不同層次的時間尺度,例如分、時、天、周、月等。各層次間的包含關(guān)系有的是規(guī)則的(例如60分鐘為一小時,7天為一周等),有的是不規(guī)則的(例如一個月可以是30天或31天)。時間隱含內(nèi)在的周期性特征,例如季節(jié)的更迭。時間還具有確定性和不確定性的特征,例如列車經(jīng)過站點的時間有一定的規(guī)律,但也可因特殊情況晚點,導(dǎo)致時間不確定。
(2)數(shù)據(jù)屬性[8]
按統(tǒng)計尺度分為定性和定量特征;按參照標(biāo)準(zhǔn)可分為非空間和空間特征;按變量個數(shù)分為單變量和多變量特征。
2 時間序列數(shù)據(jù)可視化的主要任務(wù)
從用戶任務(wù)的角度,時間序列數(shù)據(jù)可視化有以下幾個基本目的:分類、聚類、查詢、模式發(fā)現(xiàn)和預(yù)測;從用戶分析進(jìn)程的角度,概括起來有以下三個基本目的:探究分析、驗證分析、分析結(jié)果表達(dá)。
?。?)探究分析
探究分析的目的是洞悉數(shù)據(jù),從時間序列數(shù)據(jù)中提取相關(guān)信息,并提出假設(shè)。即從問題出發(fā),先分析數(shù)據(jù),從數(shù)據(jù)中發(fā)現(xiàn)模式規(guī)律、異常值、離群值等,再從數(shù)據(jù)導(dǎo)出模型。
探究分析包含兩個方面的任務(wù):發(fā)現(xiàn)數(shù)值的規(guī)律和發(fā)現(xiàn)時間的規(guī)律。具體任務(wù)如表1所示。
?。?)驗證分析
驗證分析的目的是證明或推倒假設(shè)(假設(shè)源于數(shù)據(jù)的探究過程或數(shù)據(jù)相關(guān)的模型)。
?。?)分析結(jié)果表達(dá)
分析結(jié)果表達(dá)的目的是傳遞和分享數(shù)據(jù)分析結(jié)果。
3 時間序列數(shù)據(jù)可視化的研究進(jìn)展
計算機(jī)未出現(xiàn)以前,時間序列數(shù)據(jù)的可視化主要以手繪為主,例如AIGNER W[8]是現(xiàn)代統(tǒng)計圖形的創(chuàng)建人,他用餅圖、輪廓圖、條形圖、折線圖等描述經(jīng)濟(jì)時間序列數(shù)據(jù)。JOSEPH繪制的人物傳記圖,用時間軸描述著名歷史人物的壽命[8]。隨著計算機(jī)技術(shù)和可視化技術(shù)的發(fā)展,時間序列數(shù)據(jù)的可視化在圖表可視化方法、表達(dá)方式、交互方式等方面不斷豐富與發(fā)展。
3.1 時間序列數(shù)據(jù)的可視化圖表
歸納起來,時間序列數(shù)據(jù)可視化圖表主要有以下幾類:
?。?)傳統(tǒng)統(tǒng)計圖表
傳統(tǒng)的統(tǒng)計圖表是最簡單而常見的時間序列數(shù)據(jù)的表示方法,例如折線圖、條形圖、金字塔圖、雷達(dá)圖[9]、星狀圖等。
?。?)樹圖
樹圖[10]是一種層次數(shù)據(jù)的可視化方法。GOUTHAMI C[2]綜合樹圖提供全局概貌和坐標(biāo)軸統(tǒng)計圖提供趨勢特征的優(yōu)勢,設(shè)計了一種表示時間序列數(shù)據(jù)的樹圖可視化交互系統(tǒng),并以微博數(shù)據(jù)、石油日產(chǎn)量數(shù)據(jù)等為例介紹樹圖表現(xiàn)時間序列數(shù)據(jù)的方法。
?。?)熱力圖
熱力圖(heatmap)是時間序列數(shù)據(jù)進(jìn)行聚類分析的有效方法,它采用顏色編碼系統(tǒng)對數(shù)據(jù)進(jìn)行可視化。主要有兩類,一類為顏色矩陣圖,用顏色值對二維陣列中的數(shù)值編碼,如參考文獻(xiàn)[11]用heatmap表示“9·11恐怖襲擊事件”之后4個監(jiān)測站點的9種多環(huán)芳烴濃度值的變化規(guī)律。另一類以地圖為背景,疊加顯示與地理位置相關(guān)的熱點,生成熱點圖,像百度熱力圖。
(4)日歷圖
參考文獻(xiàn)[4]提出基于聚類和日歷圖的可視化方法,可表現(xiàn)和識別多時間尺度(天、周、月)的單變量時間序列數(shù)據(jù)的模式和趨勢。日歷圖可按日歷的形式展示時間序列數(shù)據(jù)的全局特征,對于單變量的、特定的、已知時間尺度的時間序列數(shù)據(jù)表現(xiàn)效果較好,而對多變量、模式未知、無先驗知識的時間序列數(shù)據(jù)的表現(xiàn)具有一定局限性。
?。?)螺旋圖
螺旋圖有利于分析時間序列數(shù)據(jù)的周期特征。CARLIS J V等人[5]首次提出螺旋圖的原型,用點、條形圖的大小表示數(shù)值。之后,螺旋圖在維度[6]、螺線形狀模型[7]、交互[12]等方面的表達(dá)不斷改進(jìn)與發(fā)展。如參考文獻(xiàn)[12]從視覺表達(dá)和交互兩方面對傳統(tǒng)的螺旋圖進(jìn)行改進(jìn),用雙色著色編碼方法和概括+細(xì)節(jié)的交互方式表現(xiàn)溫度序列數(shù)據(jù)。
3.2 時間序列數(shù)據(jù)可視化的表達(dá)方式
(1)隱喻表達(dá)法
隱喻表達(dá)法基于用戶熟知的認(rèn)知背景建立易于理解和使用的可視化環(huán)境。例如,ThemeRiver[3]用河流隱喻為時間,河流自左向右流動表示時間前進(jìn)方向,河流的寬度、顏色等可視變量表示不同的主題對象和屬性值。參考文獻(xiàn)[13]用樹的年輪隱喻為時間,圓心表示時間的起點,沿半徑向外發(fā)散的射線表示其他屬性。
(2)三維表達(dá)法
與二維表達(dá)相比,三維表達(dá)可能會遮擋或隱藏部分信息,沒有二維表達(dá)直觀,但可表現(xiàn)高維的時間序列數(shù)據(jù)。例如參考文獻(xiàn)[14]提出時間隧道,將兩種及以上不同的可視化視圖疊加顯示來分析數(shù)據(jù)的異同;參考文獻(xiàn)[15]設(shè)計了一種基于網(wǎng)絡(luò)圖的三維交互可視化環(huán)境,以時間切片的方式對時間序列數(shù)據(jù)進(jìn)行三維可視化。
?。?)地圖結(jié)合表達(dá)法
地圖與其他可視化方式相結(jié)合可較好地呈現(xiàn)與空間位置相關(guān)的時間序列數(shù)據(jù)。時間序列與空間位置的關(guān)系包含兩個方面,(1)位置作為時間序列的外部屬性,單條序列的位置穩(wěn)定,例如參考文獻(xiàn)[16]將3D鉛筆圖標(biāo)和3D螺旋圖標(biāo)配置到地圖上,分別表達(dá)月度醫(yī)療時空序列在時間上的線性變化和周期變化特征以及空間上的分布特征。參考文獻(xiàn)[17]基于GIS設(shè)計了圓環(huán)地圖來表達(dá)25個郵政編碼標(biāo)識區(qū)域24周內(nèi)的疾病時間序列數(shù)據(jù)。(2)位置是時間序列的內(nèi)部屬性,記錄事件隨時間的位置變化,如參考文獻(xiàn)[18]將地圖和折線圖相結(jié)合建立時空立方體,表現(xiàn)實時運動對象的移動軌跡。
?。?)郵票表達(dá)法
郵票表達(dá)法指基于某種可視化方法將時間序列數(shù)據(jù)按時間點生成一系列圖表,并在一個視圖空間內(nèi)有序地平鋪展示。該方法既可表示時間序列的全局概貌,又能以縮略圖的形式呈現(xiàn)每個圖表的細(xì)節(jié),但在時間上缺乏連續(xù)性,對時間多維、高密度的時序數(shù)據(jù)及屏幕大小有一定的局限性。郭殿升等人[19]提出VIS-Stamp系統(tǒng),按時間點平鋪展現(xiàn)地圖的縮略圖,以對犯罪時空序列數(shù)據(jù)進(jìn)行可視分析。
(5)動畫表達(dá)法
動畫表達(dá)法指在一個視圖空間內(nèi)逐幀地播放時序數(shù)據(jù)可視圖表,動態(tài)、連續(xù)地展現(xiàn)時序數(shù)據(jù)的變化趨勢。HANS R[20]提出Trendalyzer,基于交互的動態(tài)氣泡圖表現(xiàn)經(jīng)濟(jì)、社會等統(tǒng)計數(shù)據(jù)的變化趨勢。ROBERTSON G[20]將Trendalyzer與兩種靜態(tài)表達(dá)法在趨勢分析的效力方面進(jìn)行對比,其結(jié)果表明,Trendalyzer雖然在表達(dá)上快速、生動,但在準(zhǔn)確性和分析效果方面略遜一籌。
3.3 時間序列數(shù)據(jù)的交互可視化
時間序列數(shù)據(jù)的交互可視化旨在將“黑箱”分析過程透明化,為用戶提供可視、可控的分析環(huán)境?;镜目梢暬换ゲ僮鞣椒ㄖ饕衃8]:選擇、平移、縮放、查詢、布局、編碼、抽象/具體、過濾、畫筆鏈接等。
常見的交互可視化模型有3種[8,21]:概括+細(xì)節(jié)模型、聚焦+上下文模型、對偶界面模型。概括+細(xì)節(jié)模型旨在解決用戶在同一時間只能關(guān)注有限數(shù)據(jù)的問題,該模型首先提供數(shù)據(jù)的全局視圖,通過放大、過濾等交互操作獲得關(guān)注數(shù)據(jù)的細(xì)節(jié)圖。聚焦+上下文模型可解決一個視圖中無法顯示所有數(shù)據(jù)的問題,該模型為用戶呈現(xiàn)關(guān)注數(shù)據(jù)的細(xì)節(jié)并適度地展示上下文信息。對偶界面模型指對應(yīng)于相同數(shù)據(jù)的不同視圖之間相互關(guān)聯(lián),對其中任意一個視圖的內(nèi)容進(jìn)行操作,其余視圖的內(nèi)容都隨之變化,可充分利用多個視圖協(xié)同呈現(xiàn)數(shù)據(jù)的不同特征。
4 結(jié)論
本文主要從3個方面對時間序列數(shù)據(jù)可視化的研究進(jìn)行歸納總結(jié):(1)可視化呈現(xiàn)什么數(shù)據(jù),需考慮時間屬性和數(shù)據(jù)屬性兩方面的特征;(2)可視化完成什么任務(wù),即用戶需解決什么問題;(3)基于給定的數(shù)據(jù)和任務(wù)如何選擇合適的圖表、表達(dá)方式可視化及交互設(shè)計,以期為時間序列數(shù)據(jù)分析提供新的思路。
目前,時間序列數(shù)據(jù)的可視化面臨多方面的挑戰(zhàn)。隨著計算機(jī)技術(shù)的發(fā)展,時間序列的數(shù)據(jù)量更為龐大,數(shù)據(jù)的周期模式更為隱秘,傳統(tǒng)的時間序列數(shù)據(jù)可視化方法遇到許多瓶頸,亟需改進(jìn)傳統(tǒng)的時間序列數(shù)據(jù)可視化的表達(dá)方式;或結(jié)合多個視圖建立交互式的分析系統(tǒng),而如何實現(xiàn)多視圖的交互操作是當(dāng)前研究的重點和難點。將可視化技術(shù)、交互技術(shù)與時間序列數(shù)據(jù)分析方法更緊密地結(jié)合起來而不是獨立地研究是探索和分析時間序列數(shù)據(jù)的趨勢。
參考文獻(xiàn)
[1] FU T C. A review on time series data mining[J]. Engineering Applications of Artificial Intelligence,2011,24(1):164-181.
[2] GOUTHAMI C. Temporal treemaps for visualizing time series data[D]. University of Maryland, 2004.
[3] 張龍飛,姚中華,宋漢辰,等.基于Themeriver的可視化技術(shù)發(fā)展綜述[J].系統(tǒng)仿真學(xué)報,2013,25(9):2091-2096.
[4] VAN W, VAN S. Cluster and calendar based visualization of time series data[C]. IEEE Symposium on Information Visualization, San Francisco, 1999:24-29.
[5] CARLIS J V, KONSTAN J A. Interactive visualization of serial periodic data[C]. 11th Anual Symposium on User Interface Software and Technology, 1998:29-38.
[6] SIRIPATANA A, JAROENSUTASINEE K, PRUEKSAAROOM S, et al. The development of interactive 3D spring visualization for periodic multidimensional direction time-series data sets[C]. 9th International Conference on Electrical Engineering, 2012:1-4.
[7] CHENG S H, JIANG Z F, QI Q, et al. The polar parallel coordinates method for time-series data visualization[C]. 2012 International Conference on Systems and Informatics, 2012:11-14,161.
[8] AIGNER W, MIKSCH S, SCHUMANN H, et al. Visualization of time-oriented data[M]. London:Human-Computer Interaction Series, 2011.
[9] 楊婷,吳升.案事件時空聯(lián)機(jī)分析處理與可視化[J].微型機(jī)與應(yīng)用,2014,33(11):85-87.
[10] 張昕,袁曉如.樹圖可視化[J].計算機(jī)輔助設(shè)計與圖形學(xué)學(xué)報,2012,24(9):1113-1124.
[11] PLEIL J D, STIEGEL M A, MADDEN M C, et al. Heat map visualization of complex environmental and biomarker measurements[J]. Chemosphere, 2011, 84:716-723.
[12] TOMINSKI C,SCHUMANN H. Enhanced interactive spiral display[C]. Proceedings of the Annual SIGRAD Conference, 2008:53-56.
[13] ESPER J. Influence of wood harvest on tree-ring time-series of picea abies[J]. Forest Ecology and Management, 2012,284:86-92.
[14] AKAISHI M,OKADA Y. Time-tunnel: visual analysis tool for time-series numerical data and its extension toward parallel coordinates[C]. IEEE 8th International Conference on Information Visualization, 2004:456-461.
[15] ITOH M, TOYODA M, KITSUREGAWA M. An interactive visualization framework for time-series of Web graphs in a 3D environment [C]. 14th International Conference on Information Visualization, 2010:26-29.
[16] TOMINSKI C, SCHULZE-WOLLGAST P, SCHUMANN H. 3D information visualization for time dependent data on maps[C]. Proceedings of International Conference on Information Visualization, 2005.
[17] HUANG G, GOVONI S, CHOI J. Geovisualizing data with ring maps[J]. ArcUser, 2008, 10(2):54-55.
[18] VINH P T, THI H N. Visualization cube for tracking moving object time-oriented[C]. 2011 International Conference on Information and Electronics Engineering, 2011(6):258-262.
[19] Guo Dianheng, Chen Jin, MACEACHREN A M, et al. A visualization system for space-time and multivariate patterns(VIS-STAMP)[J]. IEEE Transactions on Visualization and Computer Graphics, 2006,12(6):1461-1474.
[20] ROBERTSON G, FERNANDEZ R, FISHER D, et al. Effectiveness of animation in trend visualization[J]. IEEE Transactions on Visualization and Computer Graphics, 2008,14(16):1325-1332.
[21] 陳為,張嵩,魯愛東.?dāng)?shù)據(jù)可視化的基本原理與方法[M].北京:科學(xué)出版社,2013.