摘 要: 討論了信息網格" title="信息網格">信息網格和數字圖書館之間的關系、應用以及構建基于信息網格的數字圖書館的關鍵技術,并給出了基于織女星" title="織女星">織女星信息網格的數字圖書館體系結構。
關鍵詞: 信息網格 數字圖書館 因特網
網格自二十世紀90年代中期被提出以來,得到了迅速的發(fā)展。網格是借鑒電力網的概念提出來的,其最終目的是希望用戶在使用網格計算" title="網格計算">網格計算能力時,能像現在使用電力一樣方便。人們在使用電力時,不需要知道它是從哪個發(fā)電站輸送出來的,也不需要知道該電力是通過什么樣的發(fā)電機產生的,不管是水利發(fā)電,還是核動力發(fā)電,使用的是統(tǒng)一的“電能”。網格也希望給最終使用者提供的是與地理位置無關、與具體的計算設施無關的通用問題求解能力。網格技術正逐漸成為分布式超級計算、高吞吐率計算和數據密集型計算的新平臺。網格充分吸納各種計算資源,包括網絡通信能力、數據資料、儀器設備甚至是人等各種相關資源來建立復雜的虛擬組織,從而提供給用戶隨處可得的、可靠的、標準和經濟的高端計算能力。根據求解問題的特點,網格可分為數據網格、信息網格和知識網格等。本文主要討論信息網格與數字圖書館的關系、信息網格在數字圖書館建設中的應用、構建基于信息網格的數字圖書館的關鍵技術和基于織女星信息網格的數字圖書館體系結構。
1 信息網格與數字圖書館
在互聯網技術普及的今天,因特網上Web信息服務器的數目眾多,但它們卻如同分布在因特網世界上的一個個孤立的小島。大量的信息被“鎖”在各個小島的中央數據庫中,只能通過搜索程序或固定渠道搜索信息。若要使用戶不必關心信息的實際存儲位置,隨心所欲地享用信息資源,其較理想的方法就是建立跨越Web的信息分布和集成應用程序邏輯,也就是信息網格。
信息網格是利用網格技術實現信息的共享、管理和提供信息服務的系統(tǒng),主要解決廣域、異構信息的共享、互聯和互操作問題,以滿足企業(yè)、政府部門等組織信息共享的需求。信息網格通過使用現有的網絡基礎設施、協議規(guī)范、Web和數據庫技術,為用戶提供一體化的智能信息平臺,其目標是創(chuàng)建一種架構在OS和Web之上的基于因特網的新一代信息平臺和軟件基礎設施。在這個平臺上,信息的處理是分布式、協作和智能化的,用戶可以通過單一入口訪問所有信息。信息網格追求的最終目標是能夠做到服務點播(Service On Demand)和一步到位的服務(One Click is Enough)。
數字圖書館的特點:(1)綜合運用多種高新技術支持的數字信息資源系統(tǒng),將分散于不同載體、不同地域的數字化信息資源以網絡化方式互相聯結起來,實現資源共享。(2)計算機可處理的、有序組織的信息集合,是存儲數字信息的倉儲。(3)通過數字技術進行信息資源的組織和管理,能夠存儲海量信息,用戶可以通過互聯網高效方便地進行查詢、檢索服務。(4)具有信息資源數字化、信息組織非線性化、結構復雜化、信息傳遞網絡化、服務方式多樣化等特點。網格是高性能計算機、數據源、因特網三種技術的有機組合,它具有高性能、一體化、知識生產、資源共享、異地協同工作、支持開放標準、功能動態(tài)變化等優(yōu)點,為數字圖書館建設提供了有利的條件。
2 信息網格在數字圖書館中的應用
(1)海量數據處理。數字圖書館需要處理的數據通常很大,而信息網格能存儲和管理PB量級的海量數據,并對數據進行高效的分析和處理,還能提供可視化和多媒體的數據服務。在具體操作時,只要網格用戶通過客戶端發(fā)出進行數據計算的指令,信息網格便會把這些任務分配給信息網格中的各高性能計算機執(zhí)行,然后將各高性能計算機執(zhí)行的結果反饋給用戶。實際上,信息網格建立于數據網格的層次上,海量數據處理都是通過數據網格提供的一組服務來支持資源和信息發(fā)現,如數據服務、注冊與發(fā)布服務、信息發(fā)現服務、存儲資源代理服務、身份認證與訪問控制服務、調度服務和方法執(zhí)行服務等。
(2)高性能計算與信息處理。數字圖書館需要實時及時地對各種信息進行處理,為用戶服務。而信息網格能大規(guī)模、高精度、高質量地處理問題,提供高速度、高效率、實時與及時的計算及信息處理能力。①基于信息網格的互聯網比現有的因特網具有更大的帶寬。②信息網格上的高性能并行處理計算機可使信息網格的計算速度和數據處理速度大幅度提高。③信息網格的體系結構將比現在的因特網更能有效地利用資源,如信息網格采用的廣域緩存技術能自動地把用戶最需要的信息存放到最近的服務器上。
(3)資源共享?;ヂ摼W實現了計算機硬件的連通,Web實現了網頁的連通,而信息網格將實現互聯網上所有資源的全面連通,包括計算資源、存儲資源、通信資源、軟件資源和信息資源等,從而消除信息孤島,實現資源的全面共享。信息網格能實現對異構數據資源的訪問,為用戶提供統(tǒng)一的訪問接口,通過選擇適當的訪問協議實現用戶提出的數據訪問" title="數據訪問">數據訪問請求。因此,基于信息網格的數字圖書館能實現資源的真正共享。
(4)集成現有系統(tǒng)。自二十世紀90年代以來,有關數字圖書館的理論和建設已逐漸成為我國圖書館界研究和實踐的最為熱門的話題。由國家863計劃智能計算機主題專家組牽頭,聯合國家圖書館、中國社科院圖書館、中央黨校圖書館、首都圖書館等十幾個應用單位,并聘請國內外諸多專家學者共同參與的中國數字圖書館工程(CDL工程),經過90年代末的醞釀啟動,現已頗具規(guī)模。但由于各地在建設數字圖書館的過程中可能采用不同的管理系統(tǒng),而基于信息網格的數字圖書館可集成現有的不同的管理系統(tǒng),從而解決各管理系統(tǒng)間不兼容的問題。
(5)一體化。信息網格的重要特征之一就是一體化。因特網只是通過網頁的形式把全球的計算機聯為一體,各個機構和公司可以在網上建立自己的網站,并為用戶提供相應的信息。但用戶卻必須通過一定的網址或搜索引擎查找所需的信息,而且找到的信息通常是重復繁雜的。信息網格則進一步把分布在全國甚至全世界的計算機、數據、信息等聯為一體,在邏輯上就像一臺機器。用戶可以像使用自己的計算機一樣方便地使用網上的各種資源。并且,用戶可以通過網格操作系統(tǒng)透明地使用整個網絡資源。信息網格為用戶提供一體化的智能信息平臺。在這個平臺上,信息處理是分布式、協作和智能化的,用戶可以通過單一入口訪問所有信息,而不是像因特網那樣,用戶需要在成千上萬的網站中尋找合適的信息。所以,信息網格是能為數字圖書館提供各種一體化信息服務的信息基礎設施。
(6)知識生產和管理。數字圖書館的發(fā)展以智能化和知識化作為主要的發(fā)展動力和方向,即如何發(fā)現并找到與指定任務或需求相適應的所有信息,并以可解決問題的知識形式提交用戶進行問題決策。信息網格為實現這一目標提供了框架上的可能性。信息網格的知識生產特性是信息網格與因特網二者之間質的區(qū)別。因特網只是簡單的資源互聯和單一使用,用戶僅能獲取和使用有限的信息和資源,而并不能通過因特網進行知識的再加工。而信息網格則可以通過組合來協同解決用戶的各種復雜問題,從而產生出具有附加值的新服務、新數據和新信息等資源,以滿足用戶的新需求,即可以進行知識的再生產。所以,信息網格有利于數字圖書館進行知識管理。
3 構建基于信息網格的數字圖書館關鍵技術
(1)網格安全基礎設施GSI(Grid Security Infrastructure)。在構建基于信息網格的數字圖書館時,GSI是首先要考慮的問題,沒有相應的網格安全基礎設施,就不可能建立信息網格數字圖書館。在基于信息網格的數字圖書館環(huán)境中,各種資源都動態(tài)地連接在因特網上,不同節(jié)點之間的通信都由因特網連接,并且用戶向網格計算環(huán)境提交任務和監(jiān)控管理任務也是通過因特網來完成。同時,計算環(huán)境中的所有主體都可以動態(tài)地加入或撤離網格中的虛擬組織,從而使基于信息網格的數字圖書館對安全的要求除因特網的安全要求(訪問控制和通信安全)外更進了一步。為了保證基于信息網格的數字圖書館安全,GSI應實現:①支持各主體之間的安全通信,防止主體假冒和數據泄密。②支持跨虛擬組織的安全,這樣就不能采用集中管理的安全系統(tǒng)。③支持用戶的單一登錄,包括跨多個資源及地點的信任委托和信任轉移等。為此,GSI提供了一系列的安全協議、安全服務、安全軟件開發(fā)工具包(SDK)和命令行程序,如安全應用編程接口、相互安全身份鑒別技術、單一登錄技術等。通過使用這些安全技術和服務,可有效地保證基于信息網格的數字圖書館的安全性。
(2)元數據" title="元數據">元數據訪問服務。信息網格中最基本的操作是數據訪問,而用戶通常不是直接訪問數據,而是通過提供數據的需求描述信息(即元數據)進行間接的數據訪問,這些描述性信息包括創(chuàng)建時間、文件類型、數據大小等。所有元數據構成一個元數據目錄,目錄中每一項或記錄都對應著信息網格中的一個文件以及該文件的各種關鍵描述信息。元數據是實現不同數字圖書館系統(tǒng)中資源互操作的一種簡單而有效的方法。因此實現元數據訪問服務是基于信息網格的數字圖書館必須解決的問題。元數據訪問服務通過元數據訪問服務器進行實施和管理,其原理是根據用戶提供的需求描述信息找到相應的數據并提供給用戶。首先,該服務把用戶對數據的描述性信息匯集并生成一條元數據;然后在元數據目錄中查詢與之相符的記錄;最后把該記錄對應的文件返回用戶。通過元數據訪問服務,用戶能夠根據自身需求定制數據信息,從而可以靈活快捷地進行數據訪問。目前,主要用輕量目錄存取協議(LDAP)實現元數據服務。
(3)數據復制管理服務。數據復制管理服務可以實時地維護和更新邏輯文件與物理文件的映射,從而確定物理文件的位置。在基于信息網格的數字圖書館中數據復制管理服務是基本的、不可缺少的服務。通過使用數據復制管理服務,可以獲得更好的數據訪問效率及容錯性能。因為在大規(guī)模分布式協作的信息網格數字圖書館中,一方面數據的用戶群廣域分布,另一方面數據也分布在不同位置上。為了減少計算時通過網絡訪問數據的時間,可以先從別的存儲位置中復制一部分數據在本地機器上,或在多個位置存放某一數據。當某個計算節(jié)點需要這些數據時,可以從訪問時間最短的存儲節(jié)點上獲取所需信息。這樣就產生了一份數據在整個系統(tǒng)中的多個拷貝。根據不同的粒度進行數據復制,包括文件復制和數據對象復制。文件復制是指在現有文件粒度上的數據復制。數據對象復制是指在數據對象粒度上對數據進行復制。通常數據對象復制時,先要在源節(jié)點上將所需復制的數據對象拷貝到一個新的文件中,再將該文件傳送到目的節(jié)點。在具體操作時,通常由復制文件管理器來建立、刪除、修改及查詢一個復制文件,并維護復制文件目錄,以提供文件或文件組的邏輯名到其物理存儲位置的映射關系。
(4)網格文件傳輸協議GridFTP。在基于信息網格的數字圖書館中存在多種存儲系統(tǒng),這些存儲系統(tǒng)因采用了不同的協議和軟件而不兼容。因此在訪問不同的存儲系統(tǒng)時,必須采用多種訪問方法。但這樣會降低在不同存儲系統(tǒng)上數據傳輸的效率,并增加用戶使用的復雜性。為支持安全、高速的數據傳輸,需要一種通用網格文件傳輸協議GridFTP。GridFTP基于規(guī)范的FTP協議,并對其進行了全面的擴展。GridFTP協議相對于FTP協議有許多新的特點:①支持GSI和Kerberos安全機制,支持靈活可靠的安全鑒別和完整性檢查,而且用戶可以控制GridFTP在不同層次上的數據完整性。②支持第三方控制的數據傳輸。為了管理分布式通信中的大數據集,必須提供經過鑒別的第三方控制的數據傳輸。③支持并行數據傳輸、條狀數據傳輸和部分文件傳輸。通過使用多個并行的TCP流提高數據傳輸的總帶寬,使用條狀數據傳輸提高數據的傳輸速度。對只需要訪問某個遠程文件一部分的某些應用,可從文件的任意位置開始傳輸數據,即部分文件傳輸。④自動調整TCP緩沖及窗口大小,使用優(yōu)化的TCP緩沖/窗口大小設置可有效提高數據傳輸性能。⑤支持可靠傳輸和數據重傳。對于許多應用程序而言,必須保證數據傳輸的可靠性,并需要支持容錯的數據傳輸。
(5)存儲資源代理?;谛畔⒕W格的數字圖書館的數據位于廣域范圍內分布的異構存儲設備上。為了提高數據訪問的效率,在網格范圍內應建立多個數據副本,從而實現數據的就近訪問。存儲資源代理是網格中的數據管理核心。在實現時,存儲資源代理利用元數據目錄為用戶提供面向集合的數據視圖,用戶利用存儲資源代理提供的應用程序接口(API)提出數據訪問請求。存儲資源代理利用元數據目錄中的信息進行協議轉接,并將轉接后的數據訪問請求發(fā)向不同的存儲系統(tǒng),從而實現對異構存儲資源的統(tǒng)一訪問。在系統(tǒng)功能方面,存儲資源代理可以劃分為:數據副本管理器、數據移動器、數據訪問器、數據定位器和緩沖區(qū)等幾個部分。數據副本管理器主要負責管理數據副本和維護數據副本的一致性,它通過數據定位器確定數據或其副本的物理位置,通過數據移動器實現對數據及其副本的訪問和一致性維護。數據移動器主要負責數據在不同存儲資源之間的移動,通過數據定位器確定物理位置,通過數據訪問器實現對數據的訪問。數據訪問器主要負責與具體的存儲設備和其他的存儲資源代理聯系,實現數據訪問。數據定位器利用元數據目錄獲取含有數據的各種信息,從而實現數據定位。緩沖區(qū)的主要目標是提高數據訪問的效率。為了實現存儲資源代理對各種存儲資源的數據訪問,需要為不同的存儲資源設計轉換器,實現數據訪問接口的轉換。
4 基于信息網格的數字圖書館體系結構
本文探討的體系結構基于織女星信息網格??椗切畔⒕W格(Vega Information Grid)是中國科學院計算所織女星網格研究的一個組成部分。其目的是在數據庫技術、因特網技術、網格技術、萬維網服務等技術的基礎上研究信息網格的機制和體系結構,進而指導信息網格系統(tǒng)及應用的開發(fā)。織女星信息網格并不強調網格的地理規(guī)模,而是強調信息資源的有效共享與管理。該體系結構采用B/S模式,主要包括網格用戶、網格應用服務器、網格操作系統(tǒng)和網格硬件等。其相互關系如圖1所示。
(1)網格用戶
網格用戶使用網格瀏覽器通過網格服務請求協議GSRP(Grid Service Request Protocol)向網格應用服務器提出服務請求。其中,網格瀏覽器采用類似于XML的網格服務標記語言GSML(Grid Service Markup Language),提供圖形化的網格服務。
(2)網格應用服務器
網格應用服務器是基于織女星網格編程接口開發(fā)的、面向網格最終用戶提供特定服務的程序。它通過編程接口實現對單個計算資源的訪問或協同使用多個計算資源,在收到網格瀏覽器使用GSML描述的服務請求并經過翻譯后,調用網格編程接口完成計算任務,最后將結果通過GSRP協議返回網格瀏覽器。
(3)網格操作系統(tǒng)
網格操作系統(tǒng)是網格硬件資源的管理者。它主要實現全網格計算資源的統(tǒng)一管理,隱藏計算資源的異構性、動態(tài)性和分布性,提供可靠的資源使用方式,完成資源命名、資源綁定和資源協同等資源管理功能。網格操作系統(tǒng)使用網格目錄文件系統(tǒng)對以物理形式保存在存儲設備上的數據實現邏輯組織,通過數據復制和文件層次結構命名的方法完成數據管理。它使用網格計算協議GCP(Grid Computing Protocol)處理資源提供者和使用者之間的各種協議報文。GCP協議分為二層:資源路由協議和網格計算協議。資源路由協議是廣域的資源查找協議,而網格計算協議則是網格計算的通用描述。它還提供應用程序編程接口,其相應函數定義如下:
Vega( ):創(chuàng)建一個網格計算,返回網格描述符。
Bind( ):查找計算資源,建立映射。
Read( ):取回計算結果。
Write( ):提交計算結果。
Close( ):結束整個網格計算。
(4)網格硬件
網格硬件包含廣域分布的各種計算資源,具體為:存放與數字圖書館密切相關的資源庫、存儲資源代理庫、元數據目錄庫、全文索引庫等資源的高性能計算機以及其他非計算機設備。
本文的研究在信息網格的實際應用方面作了有益的探索。
參考文獻
1 都志輝.網格計算.北京:清華大學出版社,2002
2 張 綱.基于角色的信息網格訪問控制的研究.計算機研究與發(fā)展,2002;(8)
3 黃曉斌.網格技術的發(fā)展與數字圖書館建設.情報資料工作,2003;(5)
4 韓 毅.基于知識網格的區(qū)域數字圖書館建設框架.大學圖書館學報,2003;(6)
5 Chervenak A,Foster I,Kesselmal C et al.The Data Grid:To-wards an Architecture for the Distributed Management and Analysis of Large Scientific Dadasets.Journal of Network and Computer Applications,2002;(23)
6 王意潔.數據網格及其關鍵技術研究.計算機研究與發(fā)展,2002;(8)
7 徐志偉.織女星信息網格的體系結構研究.計算機研究與發(fā)展,2002;(8)

