摘 要: 介紹了數(shù)字圖書館的定義和產生背景﹑數(shù)字圖書館的模塊組成與系統(tǒng)功能結構以及數(shù)字圖書館建設中使用的主要技術,提出數(shù)字圖書館建設過程中面臨的問題并進行綜合分析。
關鍵詞: 數(shù)字圖書館;信息數(shù)字化;信息檢索;數(shù)據(jù)挖掘
1 數(shù)字圖書館的概念
數(shù)字圖書館(Digital Library)是虛擬的圖書館,是在互聯(lián)網(wǎng)環(huán)境的支持下產生的資源共享庫。只要是合法的已授權用戶,就可以通過網(wǎng)絡在任何地點、任何時間,最大程度的獲取知識所需要的資源[1]?!皵?shù)字圖書館”是用數(shù)字技術處理和存儲各種圖文并茂文獻的圖書館,它是一種多媒體制作的分布式信息系統(tǒng),把各種不同載體、不同地理位置的信息資源用數(shù)字技術存貯,以便跨越區(qū)域面向對象的網(wǎng)絡查詢和傳播的一個大型信息系統(tǒng)。
數(shù)字圖書館就是將傳統(tǒng)圖書館中的館藏資料進行數(shù)字化后儲存到計算機的存儲設備中,再通過網(wǎng)絡傳遞的手段,讓人們可以通過各種終端查詢、瀏覽所需要的知識資源[1],終端設備包括計算機,手機,平板電視等。
與傳統(tǒng)圖書館相比,數(shù)字圖書館的優(yōu)點是顯而意見的。
(1)海量的數(shù)字化信息存儲在無數(shù)個磁盤存儲器中,占用的物理空間相對很小。
(2)數(shù)字圖書館可以存儲多種類型的數(shù)字化資源,如語音、樂曲、圖像、視頻、資料等。
(3)所有的珍貴資料都可以經(jīng)數(shù)字化處理后,將原件保存在更適宜的環(huán)境中,而數(shù)字化的資料由于實現(xiàn)原件的復制,并不影響一般意義上的查閱。
(4)利用數(shù)字化圖書館的用戶可以在任何地方、以任何身份只通過網(wǎng)絡進入圖書館瀏覽、查詢、下載及打印有用的信息。
2 產生背景
信息時代,人們獲取信息的又一重要手段便是互聯(lián)網(wǎng),而傳統(tǒng)圖書館中的文獻資料若要更加充分快捷地被獲取和查閱,就必須要依托網(wǎng)絡來實現(xiàn)資源共享,所以,網(wǎng)絡數(shù)字圖書館應運而生,它的出現(xiàn)極大地提高了圖書館資源的利用效率。
我國自20世紀90年代末開始興起數(shù)字圖書館建設,雖然起步較晚,但經(jīng)過不斷的學習和研究,我國的數(shù)字化圖書館工程在資源建設、服務渠道和服務手段等方面已逐漸走在世界前列。隨著國家數(shù)字圖書館建設的全面展開,數(shù)字圖書館已經(jīng)成為國民進行資源檢索、閱覽的重要渠道。
“十二五”期間,實施數(shù)字圖書館推廣工程,搭建以國家圖書館為核心,以省、市、縣各級圖書館為節(jié)點的虛擬網(wǎng),幫助各級圖書館建立數(shù)字圖書館服務網(wǎng)絡,從而全面提升各級圖書館的服務能力和服務水平,在此基礎上形成覆蓋全國的數(shù)字圖書館服務體系,使數(shù)字圖書館真正成為社會公眾身邊便捷、高效、不可或缺的信息獲取平臺。
3 數(shù)字圖書館的基本功能模塊
數(shù)字圖書館是一個硬件和軟件集成的系統(tǒng)平臺[2]。通過數(shù)字化處理技術,把各種文獻載體數(shù)字化,并將它們有組織地存儲在網(wǎng)絡服務器上,再通過Web訪問技術為用戶提供服務。從應用的角度來講,數(shù)字圖書館由如下模塊組成:為終端用戶提供友好交互界面的應用程序模塊、對多種資源進行數(shù)字化轉換的功能模塊、提供信息檢索的程序模塊、對后臺數(shù)據(jù)庫資源進行有效管理和維護的模塊和支持信息可靠傳輸?shù)木W(wǎng)絡架構模塊。
3.1 數(shù)字資源的收集
數(shù)字圖書館的資源收集包括多種渠道。采購中外文數(shù)據(jù)庫;對自身館藏資源的數(shù)字化及原創(chuàng)音頻、視頻資源的積累;利用網(wǎng)絡爬蟲對網(wǎng)頁中有價值的信息進行獲?。慌c其他各級數(shù)字圖書館進行資源交換或資源共建。
3.2 數(shù)據(jù)庫資源管理
數(shù)字圖書館的數(shù)字資源存儲于后臺數(shù)據(jù)庫,這些龐大的信息量必須進行有效的有組織的分類存儲。分類的方法可按學科分類,適用于規(guī)模較小且擁有眾多特色資源的數(shù)字圖書館;也可按資源本身的出版或存在形式進行分類,如中國國家數(shù)字圖書館將資源分為:圖書、期刊、報紙、論文、音視頻等。
3.3 信息檢索
信息檢索包含Web信息發(fā)布、全文檢索、異構資源同意檢索、關聯(lián)檢索、數(shù)字參考咨詢、全文傳送與信息推廣。使系統(tǒng)不僅能統(tǒng)一檢索圖書館常用的國內、國外商用數(shù)據(jù)庫外,還提供對外部數(shù)據(jù)資源,對網(wǎng)絡資源進行統(tǒng)一檢索功能,方便用戶獲得全面的信息資源。
4 數(shù)字圖書館的建設
建立數(shù)字圖書館,需要從以下幾個方面著手:網(wǎng)絡環(huán)境的建設、數(shù)字圖書館硬件設備的建設、數(shù)字圖書館軟件系統(tǒng)平臺的建設、數(shù)據(jù)庫資源的建設、圖書館自動化系統(tǒng)的建設和標準與法規(guī)的制定和實施。
4.1 運行環(huán)境建設
現(xiàn)代數(shù)字圖書館本質上是基于網(wǎng)絡環(huán)境下的海量數(shù)據(jù)庫及其應用。一般的數(shù)字圖書館是在如Linux、Unix或Windows Server環(huán)境下運行的,客戶端都是基于Windows操作環(huán)境的。數(shù)字化資料的傳輸由各種Internet接入技術建立的互聯(lián)網(wǎng)絡來實現(xiàn)。如:ADSL(非對稱數(shù)字用戶線路)、光纖接入、無線接入等。另外,基于移動互聯(lián)網(wǎng)的服務,開創(chuàng)了圖書館的移動互聯(lián)時代;數(shù)字電視服務,也成為理想的傳輸環(huán)境。
4.2 硬件設備建設
數(shù)字圖書館大多數(shù)采用客戶端/服務器的模式。客戶端瀏覽器、Web服務器和數(shù)據(jù)庫服務器構成信息傳遞的核心結構。數(shù)字圖書館硬件設備主要包括數(shù)字圖書館專用服務器和存儲設備。數(shù)字圖書館專用服務器用來存放和運行數(shù)字圖書館軟件系統(tǒng)平臺。對服務器性能的要求由于受讀者數(shù)量、網(wǎng)絡情況等因素的影響,會有很大差異。如果能將數(shù)字圖書館軟件系統(tǒng)的Web系統(tǒng)、數(shù)據(jù)庫系統(tǒng)和原版數(shù)據(jù)系統(tǒng)分開存放于不同的服務器,則既增加了系統(tǒng)的安全性,又增加了其易擴充性,而且擴充成本還比較低。
4.3 軟件系統(tǒng)平臺建設
根據(jù)數(shù)字圖書館的架構設計方案,開展軟件系統(tǒng)平臺的建設。數(shù)字圖書館是一個功能強大的在線聯(lián)機查詢報系統(tǒng),在進行軟件開發(fā)的過程中對軟件質量屬性的要求是嚴格的。首先是性能,即系統(tǒng)的響應能力,要求系統(tǒng)對即便是復雜的查詢也可以很快地返回結果;其次,是安全性,系統(tǒng)安全性是指只允許合法的用戶才能訪問圖書館系統(tǒng),拒絕非授權用戶的任何服務請求。除此之外,系統(tǒng)的可靠性、可用性和互操作性也是在軟件系統(tǒng)平臺建設過程中必須考慮的問題。
4.4 數(shù)據(jù)庫資源建設
數(shù)據(jù)庫資源建設是數(shù)字圖書館建設的核心工作,主要采用數(shù)字化處理技術。不管是通過何種手段獲得的數(shù)據(jù)庫資源,都應該進行有效的整合和檢測之后才可入庫,更應該避免數(shù)據(jù)資源的重復引入。如何選擇性價比最高的數(shù)據(jù)庫資源對于數(shù)字圖書館建設的成敗至關重要。
4.5 自動化系統(tǒng)的建設
圖書館自動化系統(tǒng)是數(shù)字圖書館的一個重要組成部分。圖書館自動化系統(tǒng)由計算機硬件系統(tǒng)、軟件系統(tǒng)、數(shù)據(jù)庫和相應的人員組成。
(1)硬件系統(tǒng)包括計算機主機、外部設備、通信設備和其他設備等。
(2)軟件系統(tǒng)包括系統(tǒng)軟件和應用軟件。系統(tǒng)軟件要和硬件系統(tǒng)配套,以適應圖書館工作的需要,例如要有很強的數(shù)據(jù)處理能力,包括多種文字的處理能力等。
(3)數(shù)據(jù)庫用以存儲和組織圖書館工作需要的各種數(shù)據(jù),如采購數(shù)據(jù)、編目數(shù)據(jù)、流通數(shù)據(jù)、連續(xù)出版物數(shù)據(jù)以及各種管理、統(tǒng)計數(shù)據(jù)等。它們是建立圖書館自動化系統(tǒng)的處理對象和基礎。
(4)人員包括系統(tǒng)人員、軟件人員、硬件人員和操作人員等,一般都應掌握有關計算機的理論知識和技能,并并熟悉有關的圖書館業(yè)務工作。
4.6 標準規(guī)范體系建設
數(shù)字圖書館系統(tǒng)的資源來源廣泛,主要有外購數(shù)據(jù)庫、各館自建特色資源、網(wǎng)絡資源的采集等多個方面,并且格式和類型也是多種多樣,為了對各類資源進行統(tǒng)一的加工、組織和管理,必須在數(shù)字資源建設的過程中建立一整套標準規(guī)范體系。
我國數(shù)字圖書館標準與規(guī)范建設(CDLS)項目于2002年10月啟動,由中國科技信息研究所、中國科 學院文獻情報中心和國家圖書館聯(lián)合發(fā)起,研究和制定了包括數(shù)字資源加工、元數(shù)據(jù)、唯一標識符等數(shù)字圖書館有關標準規(guī)范。國家數(shù)字圖書館工程在建設過程中,根據(jù)需要,先后制定了二十余項數(shù)字圖書館相關標準規(guī)范,內容涵蓋數(shù)字資源的組織、加工、描述、服務、保存等多個環(huán)節(jié),為接下來各省市級數(shù)字圖書館的資源建設提供了一定的依據(jù),也為未來的資源整合、跨庫檢索提供了基本保障。
5 數(shù)字圖書館的主要技術
數(shù)字圖書館涉及的技術領域十分廣泛[3]。除了作為支撐技術的計算機技術和網(wǎng)絡技術外,還涉及數(shù)字化技術、信息存儲技術、數(shù)據(jù)庫管理技術、信息壓縮與傳送技術、分類索引及檢索技術等。
5.1 數(shù)字化技術
信息數(shù)字化技術是指利用計算機和相關輸入輸出設備將大量的文獻資源轉換為數(shù)字形式并進行存儲的技術。文獻資源包括書刊、古籍、圖像等館藏資源。使用的設備包括掃描儀、掃描筆,將文字材料掃描后存儲為圖形或文字,其中文字要通過OCR識別系統(tǒng)進行識別和校對。
5.2 信息存儲技術
近年來,隨著存儲技術的發(fā)展,硬件容量不斷擴大同時,軟件潛力的充分發(fā)揮,使存儲的能力也越來越大。NAS(網(wǎng)絡連接存儲)和SAN(存儲區(qū)域網(wǎng)絡)作為兩種主流技術,從根本上改變了已有的存儲結構和管理方式,為大量數(shù)據(jù)傳輸造成的網(wǎng)絡擁塞,實現(xiàn)數(shù)據(jù)集中管理,提供了有效的解決方法。對數(shù)字圖書館而言,最重要的是擁有穩(wěn)定、可擴展、性能比最好的方案,而存儲領域任何新技術的發(fā)展,其最終目的也都是為了簡化用戶的從存儲資源的利用和管理。
5.3 超大規(guī)模數(shù)據(jù)庫技術
數(shù)字圖書館的數(shù)字資源體系結構完備,資源總量豐富,數(shù)量龐大。如此海量的數(shù)字資源,需要采用超大規(guī)模數(shù)據(jù)技術,才能保證對大用戶量的支持和并行的查詢操作。Oracle數(shù)據(jù)庫管理系統(tǒng)的超大規(guī)模數(shù)據(jù)庫技術可以滿足這一需要,所涉及的技術還有數(shù)據(jù)分區(qū)技術、并行處理技術、數(shù)據(jù)安全及資源計劃管理等。
5.4 信息傳輸與通信技術
實現(xiàn)數(shù)字圖書館的資源共享必須以網(wǎng)絡暢通為前提,網(wǎng)絡通信技術的種類包括互聯(lián)網(wǎng)、移動通信網(wǎng)、廣播電視網(wǎng)等,服務終端涵蓋計算機、數(shù)字電視、手機、手持閱讀器、觸摸屏等多種新媒體終端。近年來,網(wǎng)絡技術的發(fā)展和網(wǎng)絡設備的不斷改進,大大提升了網(wǎng)絡的傳輸速率,使用戶在訪問數(shù)字圖書館過程中,不管是瀏覽圖片信息還是觀看視頻資源,都能獲得很好的體驗。
5.5 數(shù)據(jù)挖掘技術[4]
數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數(shù)據(jù)挖掘技術可以從歷史數(shù)據(jù)中計算出規(guī)律,預測趨勢。這一技術應用在數(shù)字圖書館中,實現(xiàn)了系統(tǒng)動態(tài)跟蹤用戶需求,為用戶的個性化服務提供依據(jù)。
5.6 數(shù)據(jù)倉庫技術[4]
數(shù)據(jù)倉庫通常是一個面向主題的、集成的、不可更新的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持經(jīng)營管理中的決策制定過程。數(shù)據(jù)倉庫可以實現(xiàn)將數(shù)字圖書館中的海量但類型卻多種多樣的數(shù)據(jù)進行有效集成和重組,為數(shù)字圖書館系統(tǒng)實現(xiàn)有效的知識獲取做好準備。
6 主要問題
6.1 資源浪費問題
與傳統(tǒng)圖書館相比的巨大優(yōu)勢,讓人們建設數(shù)字圖書館的心情極為迫切。各級省、市、縣以及許多高校紛紛開啟了建設數(shù)字圖書館的進程。然而各自為政的建設方式,必然導致硬件資源的重復建設;此外,傳統(tǒng)館藏資源的重復,也將造成圖書資源數(shù)字化和錄入的重復。這更加違背了建設數(shù)字圖書館的初衷。因此,在數(shù)字圖書館建設之前的統(tǒng)一的規(guī)劃和建設過程中的及時協(xié)調,可以有效避免大量的財力、人力、物力資源浪費在低水平的重復建設上。
6.2 信息版權問題
目前數(shù)字圖書館的資源庫主要的信息來源是將圖書進行數(shù)字化后得到的[5]。但是將作品進行數(shù)字化處理涉及到侵犯著作權人的復制權。因為,對數(shù)字化作品的復制、下載、盜版等更加容易。國家版權局國權(1999)45號文《關于制作數(shù)字化制品的著作權規(guī)定》第2條明確規(guī)定“將已有作品制成數(shù)字化作品,不論已有作品以何種形式表現(xiàn)和固定,都屬于《中華人民共和國著作權法》所稱的復制行為”。因此,在數(shù)字圖書館的館藏信息資源建設過程中,要特別注意圖書資源的版權保護問題。對于還處在著作權保護期限內的圖書作品,要與作者協(xié)商在先,在取得許可之后方能進行數(shù)字化轉換。
6.3 建設資金問題
數(shù)字圖書館建設中包括:運行環(huán)境架設,硬件設備組建,軟件系統(tǒng)開發(fā)以及館藏資源建設,可見,數(shù)字圖書館建設是一個復雜和長期的工程,這也意味著,它需要龐大的資金支持。并且這筆不小的資金投入在很長一段時間內無法獲得收益。而且,數(shù)字圖書館建設并投入使用以后,還需要專業(yè)人員對系統(tǒng)進行日常管理和定期維護。目前,省、市級數(shù)字圖書館以及各高校的數(shù)字圖書主要依靠地區(qū)政府的專項撥款。所以,有限的資金來源和持續(xù)的資金投入是數(shù)字圖書館建設面臨的又一難題。
數(shù)字圖書館是圖書館在信息網(wǎng)絡時代的必然選擇與必由之路,更是一個國家信息基礎設施建設的重 要方面,它在提供給人們豐富的知識資源和強大的服務機制的同時,也在逐漸改變著人們獲取知識的習慣,相信日趨完善的數(shù)字圖書館將會成為人類文化與科技的進步的重要基石。
參考文獻
[1] 鄭巧英,楊宗英.數(shù)字圖書館的發(fā)展和研究[J].計算機工程,2000(1),731-736.
[2] 李冠強.數(shù)字圖書館研究[M].北京:北京圖書館出版社,2002:20-21.
[3] 邵銳.數(shù)字圖書館建設的關鍵技術[J].科技情報開發(fā)與經(jīng)濟,2006,16(6):36-37.
[4] 陳燕.數(shù)據(jù)挖掘技術與應用[M].北京:清華大學出版社,2011.
[5] 邵永初.數(shù)字圖書館中的著作權問題[J].江西教育學院學報,2011,32(5):14-15.