《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 嵌入式技術(shù) > 設(shè)計(jì)應(yīng)用 > 基于Web的海洋敘詞表的管理與可視化
基于Web的海洋敘詞表的管理與可視化
2015年微型機(jī)與應(yīng)用第14期
候成飛,徐建良
(中國(guó)海洋大學(xué) 信息科學(xué)與工程學(xué)院,山東 青島 266100)
摘要: 海洋領(lǐng)域中許多有價(jià)值的數(shù)據(jù)被不同的術(shù)語(yǔ)所描述,這些術(shù)語(yǔ)出現(xiàn)命名不規(guī)范、格式不統(tǒng)一、同義詞和一詞多義等問(wèn)題,給術(shù)語(yǔ)的管理、使用與查詢帶來(lái)困難。對(duì)已創(chuàng)建的基于維基百科分類體系構(gòu)建的海洋敘詞表進(jìn)行相應(yīng)的管理與可視化研究工作,利用HTML5.0、JavaScript、C#為開(kāi)發(fā)語(yǔ)言,對(duì)海洋敘詞表進(jìn)行系統(tǒng)開(kāi)發(fā)管理,并實(shí)現(xiàn)術(shù)語(yǔ)詞間關(guān)系的可視化。
關(guān)鍵詞: 海洋敘詞表 HTML5.0 JavaScript 管理 C
Abstract:
Key words :

  摘  要: 海洋領(lǐng)域中許多有價(jià)值的數(shù)據(jù)被不同的術(shù)語(yǔ)所描述,這些術(shù)語(yǔ)出現(xiàn)命名不規(guī)范、格式不統(tǒng)一、同義詞和一詞多義等問(wèn)題,給術(shù)語(yǔ)的管理、使用與查詢帶來(lái)困難。對(duì)已創(chuàng)建的基于維基百科分類體系構(gòu)建的海洋敘詞表進(jìn)行相應(yīng)的管理與可視化研究工作,利用HTML5.0、JavaScript、C#為開(kāi)發(fā)語(yǔ)言,對(duì)海洋敘詞表進(jìn)行系統(tǒng)開(kāi)發(fā)管理,并實(shí)現(xiàn)術(shù)語(yǔ)詞間關(guān)系的可視化。

  關(guān)鍵詞: 海洋敘詞表;HTML5.0;JavaScript;C#;管理;可視化

0 引言

  敘詞表是以受控的、動(dòng)態(tài)的、規(guī)范化的敘詞為基本成分的詞典,主要用來(lái)標(biāo)引、存儲(chǔ)和檢索文獻(xiàn),并以參照系統(tǒng)來(lái)顯示詞間關(guān)系。

  術(shù)語(yǔ)管理[1]是為了某個(gè)特定目的而對(duì)術(shù)語(yǔ)資源進(jìn)行管理的活動(dòng)。2001年,維基百科[2]的出現(xiàn)給數(shù)據(jù)管理工作帶來(lái)了福音,到2013年維基百科已經(jīng)有2 500多萬(wàn)詞條內(nèi)容,包含了大多數(shù)用戶可以用到的術(shù)語(yǔ)信息。

  紙質(zhì)版的敘詞表語(yǔ)義關(guān)系顯示和術(shù)語(yǔ)標(biāo)注不能夠很好地幫助用戶理解與查詢。電子版的敘詞表雖然比紙質(zhì)版查詢更加方便,但是電子版敘詞表的線性排列方式使術(shù)語(yǔ)的相關(guān)信息因按字序排列而分散在敘詞表中,給用戶使用帶來(lái)困難。

  概念圖(Concept Map)[3]是一種用節(jié)點(diǎn)代表概念,連線代表概念之間關(guān)系的圖示法。它的設(shè)計(jì)思想是先呈現(xiàn)出一幅由最籠統(tǒng)概念組成的圖畫,然后對(duì)這些籠統(tǒng)的概念進(jìn)行擴(kuò)展,逐漸展現(xiàn)其細(xì)節(jié)和具體的方面,最后呈現(xiàn)出一幅詳細(xì)的概念網(wǎng)絡(luò)圖。

  本文主要是對(duì)基于維基百科分類體系構(gòu)建的海洋敘詞表進(jìn)行管理與可視化的研究工作,規(guī)范術(shù)語(yǔ)名稱,統(tǒng)一術(shù)語(yǔ)使用,去除同義詞和一詞多義,進(jìn)行相關(guān)的維護(hù)工作等,并借鑒概念圖的設(shè)計(jì)思想和樹(shù)形結(jié)構(gòu)的特點(diǎn),以圖形化的方式分別展現(xiàn)海洋敘詞表中術(shù)語(yǔ)的3種詞間關(guān)系。

1 研究現(xiàn)狀

  1985年美國(guó)普林斯頓大學(xué)認(rèn)知科學(xué)實(shí)驗(yàn)室建立的WordNet(詞匯網(wǎng)絡(luò))提供了用戶對(duì)英語(yǔ)術(shù)語(yǔ)的查詢與篩選窗口。世界貿(mào)易組織的WTOTERM、微軟的語(yǔ)言門戶等構(gòu)建了大型術(shù)語(yǔ)庫(kù),為相關(guān)的研究和語(yǔ)言服務(wù)等工作提供了資源。

  國(guó)外已經(jīng)開(kāi)發(fā)出了一些可視化工具。例如:為了用于本體的可視化,Protégé提供了TGVizTab插件[4];為了以圖形方式來(lái)顯示大腦信息(思維導(dǎo)圖),TheBrain公司開(kāi)發(fā)了PersonalBrain[5]工具;還有挪威Ontopia軟件公司開(kāi)發(fā)的面相主題圖的套裝軟件OKS Samplers[6]等。

  在國(guó)內(nèi),從1986年起,中國(guó)農(nóng)科院科技文獻(xiàn)信息中心和中國(guó)人民大學(xué)信息中心開(kāi)始著手利用微機(jī)輔助來(lái)進(jìn)行編表工作,并建立了敘詞庫(kù)管理系統(tǒng),取得了初步的成果[7]。另外,中國(guó)物理學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)詞表管理系統(tǒng)的創(chuàng)建與維護(hù)[8]也為術(shù)語(yǔ)管理工作提供了借鑒窗口。

  敘詞表可視化方面的研究還比較少,基本上都是使用國(guó)外開(kāi)發(fā)的可視化工具進(jìn)行研究工作。例如,通過(guò)PersonalBrai工具,王子熙、馬蕾等人對(duì)《漢語(yǔ)主題詞表》中的部分詞進(jìn)行了可視化研究工作[9];通過(guò)Ontopia系列軟件,朱良兵、紀(jì)希禹等人對(duì)《管理科學(xué)主題詞表》中的部分?jǐn)⒃~進(jìn)行了可視化研究工作[10]等。

  綜上可見(jiàn),國(guó)內(nèi)外還缺少對(duì)海洋敘詞表的管理維護(hù)及可視化的相關(guān)研究工作。

2 海洋敘詞表數(shù)據(jù)庫(kù)存儲(chǔ)結(jié)構(gòu)的分析

  本文主要是對(duì)已創(chuàng)建的海洋敘詞表進(jìn)行管理維護(hù)與可視化研究,以下簡(jiǎn)單介紹一下已創(chuàng)建的海洋敘詞表。

  該海洋敘詞表的創(chuàng)建主要是以維基百科的轉(zhuǎn)儲(chǔ)數(shù)據(jù)xml文件、維基百科數(shù)據(jù)庫(kù)E-R圖和各類參考資料為依據(jù)。通過(guò)對(duì)每個(gè)xml文件的分析,并依據(jù)數(shù)據(jù)格式和各類資料設(shè)計(jì)出自己的數(shù)據(jù)庫(kù),根據(jù)需求編寫xml信息提取程序,對(duì)xml文件中的術(shù)語(yǔ)及詞間關(guān)系進(jìn)行提取存儲(chǔ),設(shè)計(jì)了圖1所示的數(shù)據(jù)庫(kù)E-R圖。

001.jpg

3 系統(tǒng)設(shè)計(jì)架構(gòu)與流程

  海洋敘詞表管理與可視化系統(tǒng)前臺(tái)使用ExtJS框架,后臺(tái)使用.NET框架。

  系統(tǒng)采用B/S架構(gòu),通過(guò)HTML5.0、CSS和Canvas等來(lái)展現(xiàn)豐富多彩的客戶端,瀏覽器通過(guò)Ajax請(qǐng)求訪問(wèn)服務(wù)器端數(shù)據(jù),Web Service處理發(fā)送來(lái)的請(qǐng)求,對(duì)數(shù)據(jù)進(jìn)行提取并進(jìn)行處理,通過(guò)JSON格式數(shù)據(jù)反饋給瀏覽器。

  Web Service服務(wù)層主要是通過(guò)Web API提供數(shù)據(jù)與界面進(jìn)行交互。

  系統(tǒng)主要架構(gòu)如圖2所示。

002.jpg

4 敘詞表的管理及可視化系統(tǒng)實(shí)現(xiàn)

  4.1 敘詞表的管理

  敘詞表管理系統(tǒng)的主界面如圖3所示。

003.jpg

  “添加”操作一般針對(duì)單個(gè)術(shù)語(yǔ),主要存儲(chǔ)術(shù)語(yǔ)名稱與術(shù)語(yǔ)的詞間關(guān)系,當(dāng)添加新術(shù)語(yǔ)較多時(shí),一般使用“導(dǎo)入”操作,導(dǎo)入操作只需將新術(shù)語(yǔ)信息按照類似數(shù)據(jù)庫(kù)中存儲(chǔ)的格式整理成Word文檔,然后逐個(gè)提取文檔中的術(shù)語(yǔ)信息,先存儲(chǔ)術(shù)語(yǔ)名稱,后存儲(chǔ)術(shù)語(yǔ)的詞間關(guān)系。

  經(jīng)常使用的是“查詢”和“修改”操作,工作人員使用術(shù)語(yǔ)過(guò)程中,將查詢結(jié)果模糊不清的術(shù)語(yǔ)根據(jù)本領(lǐng)域術(shù)語(yǔ)使用情況進(jìn)行刪減和修改,通過(guò)刪除術(shù)語(yǔ)之間詞間關(guān)系的連接存儲(chǔ)來(lái)消除同義詞問(wèn)題,但并未對(duì)術(shù)語(yǔ)的信息進(jìn)行刪除。在使用術(shù)語(yǔ)過(guò)程中形成術(shù)語(yǔ)規(guī)范用法,明確術(shù)語(yǔ)意義,消除一詞多義問(wèn)題。

  4.2 敘詞表的可視化

  可視化[11]的場(chǎng)景展現(xiàn)主要是通過(guò)點(diǎn)擊可視化按鈕彈出新的網(wǎng)頁(yè)來(lái)加載呈現(xiàn)。

 ?。?)等級(jí)關(guān)系的構(gòu)建思想與實(shí)現(xiàn)

  頁(yè)面跳轉(zhuǎn)過(guò)來(lái),默認(rèn)展現(xiàn)的是術(shù)語(yǔ)等級(jí)關(guān)系的可視化,利用樹(shù)形結(jié)構(gòu)來(lái)體現(xiàn)術(shù)語(yǔ)之間的層次關(guān)系。等級(jí)關(guān)系的核心主要是樹(shù)形結(jié)構(gòu)的構(gòu)造,服務(wù)端先根據(jù)Ajax請(qǐng)求獲取相關(guān)數(shù)據(jù),然后建立服務(wù)器端的樹(shù)形結(jié)構(gòu),再將樹(shù)形列表信息根據(jù)需求傳給前臺(tái)進(jìn)行操作。前臺(tái)網(wǎng)頁(yè)HTML主要通過(guò)<ul>和<li>標(biāo)簽元素來(lái)達(dá)到層層等級(jí)的展現(xiàn),最終在場(chǎng)景中顯示以參數(shù)術(shù)語(yǔ)為中心的等級(jí)關(guān)系,如圖4所示。

004.jpg

  詞間關(guān)系的跳轉(zhuǎn)是通過(guò)點(diǎn)擊場(chǎng)景最上端3個(gè)菜單來(lái)實(shí)現(xiàn)的。

 ?。?)等同關(guān)系的構(gòu)建思想與實(shí)現(xiàn)

  等同關(guān)系主要是通過(guò)節(jié)點(diǎn)與連線來(lái)實(shí)現(xiàn)的,主要展現(xiàn)指定術(shù)語(yǔ)的所有同義詞。根據(jù)實(shí)際工作需求對(duì)術(shù)語(yǔ)的同義詞進(jìn)行刪減,確保經(jīng)常使用的術(shù)語(yǔ)得到呈現(xiàn),使查看更加清晰、明確。

  等同關(guān)系的實(shí)現(xiàn)也是通過(guò)相同的流程來(lái)實(shí)現(xiàn)的。根據(jù)傳遞的參數(shù)術(shù)語(yǔ)從數(shù)據(jù)庫(kù)中查找術(shù)語(yǔ)的同義詞,將其傳遞到前臺(tái),前臺(tái)函數(shù)構(gòu)建客戶端關(guān)系圖。經(jīng)過(guò)相關(guān)函數(shù)處理,在場(chǎng)景中展現(xiàn)圖5所示的效果。

005.jpg

 ?。?)相關(guān)關(guān)系的構(gòu)建思想與實(shí)現(xiàn)

  相關(guān)關(guān)系也是通過(guò)節(jié)點(diǎn)與連線來(lái)實(shí)現(xiàn)的,主要體現(xiàn)了術(shù)語(yǔ)之間的關(guān)聯(lián)關(guān)系。為了用戶查看方便,第一層展開(kāi)以不超過(guò)8個(gè)術(shù)語(yǔ)為限環(huán)繞中心術(shù)語(yǔ)周圍,剩余的術(shù)語(yǔ)通過(guò)“下一幅關(guān)系圖”按鈕展現(xiàn)。剩余各展開(kāi)層的術(shù)語(yǔ)以不超過(guò)3個(gè)為限進(jìn)行展現(xiàn),并以3層為例對(duì)圖形進(jìn)行了繪制加載。

  從服務(wù)端獲取相關(guān)關(guān)系術(shù)語(yǔ),前臺(tái)進(jìn)行圖形繪制展現(xiàn)。先繪制中心術(shù)語(yǔ),然后對(duì)環(huán)繞中心術(shù)語(yǔ)周圍的8個(gè)術(shù)語(yǔ)進(jìn)行繪制,并添加術(shù)語(yǔ)節(jié)點(diǎn)的展開(kāi)事件。相關(guān)關(guān)系術(shù)語(yǔ)第一層展現(xiàn)效果如圖6所示。

006.jpg

  3層相關(guān)關(guān)系術(shù)語(yǔ)效果如圖7所示。

007.jpg

5 研究意義

  海洋敘詞表的有效管理能夠使術(shù)語(yǔ)得到規(guī)范化、合理化存儲(chǔ),滿足用戶需求,并使術(shù)語(yǔ)及相關(guān)信息的檢索更加迅速、準(zhǔn)確,利于共享標(biāo)準(zhǔn)化的術(shù)語(yǔ)資源。

  海洋敘詞表的可視化[12]能夠協(xié)助相關(guān)人員查看術(shù)語(yǔ)間的詞間關(guān)系,并能夠更清楚地理解特定部門領(lǐng)域中的工作流程與關(guān)聯(lián)術(shù)語(yǔ)信息,提供用戶友好的視覺(jué)效果,方便用戶以交互的方式管理和開(kāi)發(fā)術(shù)語(yǔ)。

6 結(jié)論

  本文主要是針對(duì)已完成的基于維基百科分類體系構(gòu)建的海洋敘詞表進(jìn)行管理與可視化研究。根據(jù)實(shí)際需求,逐漸建立起一套適合特定部門使用的術(shù)語(yǔ)管理系統(tǒng),并對(duì)術(shù)語(yǔ)詞間關(guān)系進(jìn)行了可視化展現(xiàn)。該系統(tǒng)能夠滿足基本的需求工作,方便了用戶對(duì)術(shù)語(yǔ)的管理、查詢、維護(hù)等相關(guān)工作。

  但本系統(tǒng)還有較大的提升空間,例如,術(shù)語(yǔ)管理方面,對(duì)同義詞和一詞多義術(shù)語(yǔ)的消除是根據(jù)日常使用術(shù)語(yǔ)過(guò)程中發(fā)現(xiàn)問(wèn)題才進(jìn)行修改的,過(guò)程比較漫長(zhǎng),需要經(jīng)過(guò)很長(zhǎng)時(shí)間才能逐漸對(duì)術(shù)語(yǔ)進(jìn)行規(guī)范管理??梢暬矫?,只展現(xiàn)了以查詢術(shù)語(yǔ)為中心4層的等級(jí)關(guān)系和3層的相關(guān)關(guān)系,工作人員有時(shí)未能查看所有有用術(shù)語(yǔ)。

  可進(jìn)一步進(jìn)行優(yōu)化的方面:根據(jù)不同層次的工作人員、術(shù)語(yǔ)種類、使用頻率和使用目的對(duì)術(shù)語(yǔ)進(jìn)行分類管理,方便不同人員使用;借鑒本體添加術(shù)語(yǔ)間相關(guān)關(guān)系的實(shí)體活動(dòng),使詞間關(guān)系更加清晰、完善。

  參考文獻(xiàn)

  [1] 王華樹(shù).淺議實(shí)踐中的術(shù)語(yǔ)管理[J].中國(guó)科技術(shù)語(yǔ),2013(2):11-14.

  [2] 趙飛,周濤,張良,等.維基百科研究綜述[J].電子科技大學(xué)學(xué)報(bào),2010,39(3):322.

  [3] 袁維新.概念圖:一種促進(jìn)知識(shí)建構(gòu)的學(xué)習(xí)策略[J].學(xué)科教育,2004(2):39-44.

  [4] Protégé. Stanford center for biomedical informatics research [EB/OL]. [2011-02-15].http://protege.stanford.edu/.

  [5] TheBrain. PersonalBrain[EB/OL].[2011-02-15](2015-03-01).http://www.theBrain.com/.

  [6] Ontopia. OKS Samplers[EB/OL]. [2011-02-15](2015-03-01). http://www.ontopia.net/.

  [7] 方陸明,王彩華.利用微機(jī)輔助編制農(nóng)業(yè)敘詞表和建立敘詞庫(kù)管理系統(tǒng)的芻議[J].情報(bào)科學(xué),1990,11(4):35-39.

  [8] 周寧麗,朱獻(xiàn)有,崔淑蘭,等.中國(guó)物理學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)詞表管理系統(tǒng)及其應(yīng)用[J].現(xiàn)代圖書情報(bào)技術(shù),1996(1):24-26.

  [9] 王子熙,馬蕾.《漢語(yǔ)主題詞表》詞間關(guān)系的可視化[J].現(xiàn)代圖書情報(bào)技術(shù),2006(2):26-29.

  [10] 朱良兵,紀(jì)希禹.基于Topic Maps的敘詞表再工程[J].現(xiàn)代圖書情報(bào)技術(shù),2006(9):81-84.

  [11] 劉俊.敘詞表詞間關(guān)系可視化方法及實(shí)現(xiàn)的比較研究[D].南京:南京農(nóng)業(yè)大學(xué),2008.

  [12] 干珍珍,肖桂榮.武夷山生態(tài)監(jiān)測(cè)數(shù)據(jù)動(dòng)態(tài)圖表可視化研究[J].微型機(jī)與應(yīng)用,2014,33(2):84-87.


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。