《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 其他 > 業(yè)界動態(tài) > 網(wǎng)絡(luò)關(guān)鍵信息篩選與影響力評估研究

網(wǎng)絡(luò)關(guān)鍵信息篩選與影響力評估研究

2010-01-13
作者:曹錦梅,李韶山,孟祥娟

摘  要: 網(wǎng)絡(luò)時代提高信息服務(wù)質(zhì)量的關(guān)鍵是信息篩選。網(wǎng)絡(luò)信息影響力評價方法主要有搜索引擎收錄情況、用戶訪問量統(tǒng)計和鏈接分析法,這些方法通過定量評價網(wǎng)絡(luò)信息,有效地彌補了同行評議法等定性評價方法的不足。結(jié)合這些方法為用戶檢索關(guān)鍵有效信息提供了一些思路。
關(guān)鍵詞: 網(wǎng)絡(luò);關(guān)鍵信息;篩選;影響力;評估

  如何從Internet資源庫中迅速準(zhǔn)確地獲取所需信息成為目前一個亟待解決的問題。搜索引擎成為目前人們獲取信息的重要途徑。面對著大量的信息,如何進行有效處理?如何利用網(wǎng)絡(luò)篩選獲得自己所需要的信息?如何才能有效地利用這些信息?這些問題是能否高效利用現(xiàn)代化技術(shù)的至關(guān)重要的環(huán)節(jié)。然而,即使像Google和百度這樣技術(shù)先進的通用搜索引擎巨頭仍然面臨一些棘手問題尚未解決[1]。
  (1)低查準(zhǔn)率:查準(zhǔn)率和查全率一直難以兩者兼得,通用搜索引擎往往以犧牲查準(zhǔn)率來獲得較高的查全率,而這種做法對有特定信息需求的人群越來越顯得無能為力。
  (2)搜索的“垂直度”問題:如何針對專業(yè)領(lǐng)域的行業(yè)需求,更精確地、深入地挖掘和獲取用戶所需信息既是一個難度很高也是一個亟待解決的現(xiàn)實問題。
1 網(wǎng)絡(luò)信息檢索的發(fā)展及其特點
  網(wǎng)絡(luò)信息檢索系統(tǒng)的核心是搜索引擎,搜索引擎的發(fā)展史就是網(wǎng)絡(luò)信息檢索的發(fā)展史。網(wǎng)絡(luò)信息檢索呈現(xiàn)出以下幾方面的特點:
     (1)多用戶
  網(wǎng)絡(luò)時代的信息資源服務(wù)從一開始就是多用戶的,在此模式下,信息檢索的服務(wù)必須注重快速反應(yīng),注重對并發(fā)訪問的支持、對公共數(shù)據(jù)的共享、對臨時工作數(shù)據(jù)的清理等。
  (2)海量數(shù)據(jù)
  在網(wǎng)絡(luò)環(huán)境下,信息源眾多、數(shù)據(jù)量巨大。大數(shù)據(jù)量的后果就是垃圾數(shù)據(jù)增多,而尋找1種甄別數(shù)據(jù)有效性的高效信息檢索方法就顯得尤為重要。
  (3)非專業(yè)化
  網(wǎng)絡(luò)環(huán)境下使用信息檢索系統(tǒng)的用戶大多都不具備專業(yè)的信息檢索技能,這些非專業(yè)用戶不能像圖書情報專家那樣熟練地使用主題詞、分類號、邏輯組合和嚴(yán)格的查詢語言來檢索網(wǎng)上的信息內(nèi)容。
2 篩選
  提高信息質(zhì)量的關(guān)鍵是由于網(wǎng)絡(luò)信息資源數(shù)量繁多,包羅萬象,所以對其應(yīng)當(dāng)有選擇、有甄別地利用。網(wǎng)絡(luò)信息資源的選擇應(yīng)遵循以下原則:
  (1)針對性原則。有針對地編制文摘、綜述、題錄等,通過各種交流途徑進行傳遞報道,及時提供給用戶。
  (2)科學(xué)性原則。信息資源的選擇需要采用科學(xué)的方法,高質(zhì)量的信息資源意味著它已經(jīng)過質(zhì)量的控制,已經(jīng)得到組織加工并以1種系統(tǒng)而統(tǒng)一的方式存儲,在1個可靠的、用戶友好的檢索系統(tǒng)中提供對它們的存取。
  (3)計劃性原則。對網(wǎng)絡(luò)信息的選擇要統(tǒng)籌計劃、歸類整合、制定目標(biāo)、合理管理。
    (4)對特定用戶進行跟綜服務(wù)、主動及時地提供新穎、準(zhǔn)確、有價值、實用的專業(yè)化網(wǎng)絡(luò)信息資源。
2.1 篩選出真實信息,增強準(zhǔn)確性
  網(wǎng)絡(luò)上收集到的信息大都來源廣泛、涉及面復(fù)雜,往往混雜著一些不真實、不準(zhǔn)確、虛假的、夸張的成份,對這一部分信息如不加以鑒別,就必然導(dǎo)致信息的不準(zhǔn)確。所以在篩選信息時,要努力做到兩點:首先搞好鑒別,判斷其真實和準(zhǔn)確程度;其次是追根溯源,一定要篩選出來重新核實,最大限度地剔除其不確定因素,確保所選的資料科學(xué)、周密、準(zhǔn)確。
2.2 篩選出核心信息,增強服務(wù)性
  在整理篩選核心資料時,一要找準(zhǔn)位置,二要把握需求,根據(jù)要求,有目的地收集和選擇信息資料,并加以全面系統(tǒng)地歸納、綜合和概括;三要抓住中心,不可孤立地看待信息的“好壞”,而必須以實際需求為準(zhǔn)繩,才能把握信息的質(zhì)量。
2.3 篩選出典型資料,增強代表性
  在文獻資料庫中,大部分信息是分散的、零星的、不系統(tǒng)的,反映的只是表層與局部,缺乏代表性。而要揭示事物本質(zhì)及其發(fā)展變化規(guī)律,就必須選擇具有代表性的典型材料。把收集到的大量信息加以濃縮,這樣的信息才具有代表性。
2.4 篩選出簡潔資料,增強實用性
  收集的信息資料有許多是重復(fù)多余的,只有剔除了這部分信息才便于加工整理、利用和存儲。在整理此信息資料時,一要抓住根本點;二要把握好尺度,有些信息資料雖然在內(nèi)容上有一定重復(fù),但也反映了事物的一些特點,篩選時可以剔除重復(fù)部分,綜合整理出有特點的部分。
3 網(wǎng)絡(luò)信息影響力評價方法
  網(wǎng)絡(luò)信息的急劇增長,需要對其進行評價以幫助人們更好獲取與利用信息。目前對網(wǎng)絡(luò)信息的評價研究主要集中在內(nèi)容評價方面,主要評價標(biāo)準(zhǔn)有可信度、準(zhǔn)確度、客觀性、及時性、報道范圍、鏈接、文章的目的性及高效性等。
  內(nèi)容評價主要采取同行專家評審法,此方法主觀性大,耗時長,專家的代表性與公正性難以得到有效保證。而網(wǎng)絡(luò)信息內(nèi)容是否有價值,最終都會在其對用戶行為的影響上表現(xiàn)出來,質(zhì)量較高的網(wǎng)絡(luò)信息會導(dǎo)致更多的瀏覽次數(shù),隨之而來的是更多的被鏈次數(shù),但可以通過一些具體的指標(biāo)進行測量,定量評價網(wǎng)絡(luò)信息,有效地彌補同行評議法等定性評價方法的不足。利用影響力對網(wǎng)絡(luò)信息進行評價是目前一個熱點課題。
  目前,國內(nèi)學(xué)者認(rèn)為網(wǎng)絡(luò)信息評價主要有3種方法。第3方評價法、網(wǎng)絡(luò)信息服務(wù)用戶評價法、由文獻計量學(xué)引申和發(fā)展而來的網(wǎng)絡(luò)計量法。這3種方法的評價過程,實際上就是信息評價從定性方法到定量方法的過程。定性方法主要依靠評價者的主觀判斷,用于評價網(wǎng)絡(luò)新體系時難免會影響結(jié)果的客觀性,降低結(jié)果的可信度,同時也會使評價過程花費時間較多。定量方法為人們提供系統(tǒng)客觀、規(guī)模宏大的數(shù)量分析方法,結(jié)果更加直觀、具體。由于目前網(wǎng)絡(luò)發(fā)展變化快、穩(wěn)定性差,通過定量方法得到的結(jié)果只能代表某一階段的狀況。所以,評價網(wǎng)絡(luò)信息資源時仍不能偏廢定性方法的使用,最佳方案是把定性與定量方法結(jié)合起來,這也是未來網(wǎng)絡(luò)資源評價的一個趨向。
  網(wǎng)絡(luò)信息影響力評價實際涉及2個層面,一是單個網(wǎng)影響力評價,二是網(wǎng)站影響力評價。因為網(wǎng)絡(luò)信息是以網(wǎng)站為單位發(fā)布的,網(wǎng)絡(luò)信息影響評價多是針對網(wǎng)站進行的。網(wǎng)站影響力評價的標(biāo)準(zhǔn)與方法關(guān)系極為密切,通常是一種評價指標(biāo)就是由一種具體的方法來測定的,因此,就將評價標(biāo)準(zhǔn)與方法結(jié)合在一起,對網(wǎng)站影響力評價的方法主要有以下幾種。
3.1 搜索引擎收錄情況
  搜索引擎是網(wǎng)民在互聯(lián)網(wǎng)中獲取所需信息的基礎(chǔ)應(yīng)用,從1998年起,中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)于每年1月和7月發(fā)布《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》。第23次調(diào)查統(tǒng)計數(shù)據(jù)截止日期為2008年12月31日,該次調(diào)查表明,目前搜索引擎的使用率為68.0%,在各互聯(lián)網(wǎng)應(yīng)用中位列第4。2008年全年搜索引擎用戶增長了5 100萬人,年增長率達(dá)到33.6%[2]。印刷型文獻影響評價有1個重要指標(biāo)就是被著名檢索工具(如Medine、BA、CA、Ei等)收錄情況,被其它資源收錄情況也是網(wǎng)絡(luò)信息影響力的1個重要指標(biāo)。不被搜索引擎收錄的網(wǎng)站被訪問、被利用的機會是很小的。
  所以根據(jù)搜索引擎收錄情況可以評價網(wǎng)站的影響力,另外被鏈次數(shù)、被點擊次數(shù)、被評議過的站點也能促進網(wǎng)站的排名。1個站點被鏈接的次數(shù)越多,證明該站點影響越大,質(zhì)量也越高。
3.2 用戶訪問量統(tǒng)計
  用戶訪問量是對網(wǎng)絡(luò)信息進行評價的1個客觀指標(biāo),訪問人數(shù)多是網(wǎng)絡(luò)信息價值高、可用性好的結(jié)果。目前,對用戶訪問量進行統(tǒng)計主要有2種方法:用戶行為監(jiān)測法與服務(wù)器登錄日志(Server Access Log)分析法。用戶行為監(jiān)測法的代表是Media Metrix的網(wǎng)站及數(shù)字媒體訪問量排名。Media Metrix選擇有代表性的家庭及工作單位上網(wǎng)用戶進行調(diào)查,在被調(diào)查用戶計算機的操作系統(tǒng)中安裝“Media Metrix Meter”監(jiān)測裝置,對用戶瀏覽網(wǎng)頁的每一次行為都進行統(tǒng)計,以此為基礎(chǔ)公布網(wǎng)站及數(shù)字媒體的訪問量排名。服務(wù)器登錄日志分析法是對服務(wù)器的訪問日志進行分析,所有訪問者對某一網(wǎng)站的訪問情況都被記錄在網(wǎng)站服務(wù)器的“登錄日志”中,登錄日志顯示了訪問者在網(wǎng)站上的全部訪問行為。
3.3 鏈接分析法
  鏈接分析法是利用某一站點的被鏈次數(shù)對其質(zhì)量進行評價。被鏈次數(shù)是網(wǎng)絡(luò)信息評價重要指標(biāo)。1個站點被鏈接的次數(shù)越多,證明該站點影響越大,質(zhì)量也越高。某一站點被鏈次數(shù)是搜索引擎搜索結(jié)果排序的一項重要指標(biāo)。
  網(wǎng)絡(luò)關(guān)鍵信息的篩選與影響力評估所帶來的益處是顯而易見的,必將對用戶的實際需求與科學(xué)研究等方面的發(fā)展起到積極的作用。
參考文獻
[1] 赫建營,晏海華,金茂忠,等.結(jié)合本體篩選和文本挖掘的垂直搜索引擎研究[J].計算機科學(xué),2008,35(2):188-190.
[2] 中國互聯(lián)網(wǎng)絡(luò)信息中心.中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告:第23次.http://www.cnnic.net.cn,2009.1.
[3] 楊海濤.網(wǎng)絡(luò)信息檢索的困境及發(fā)展趨勢[J].科技情報開發(fā)與經(jīng)濟,2008,18(1):13-14.
[4] 劉雁書,方平.網(wǎng)絡(luò)信息影響力評價方法[J].高校圖書館工作,2002,22(88):16-19.
[5] 韋彤.論高校圖書館情報咨詢部門的新職能-網(wǎng)絡(luò)信息資源搜索評估與咨詢[J].高校圖書館工作,2002,22(87).

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。