《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 通信與網(wǎng)絡(luò) > 業(yè)界動態(tài) > 數(shù)據(jù)安全:流動的數(shù)據(jù)

數(shù)據(jù)安全:流動的數(shù)據(jù)

2021-07-30
來源:計算機與網(wǎng)絡(luò)安全
關(guān)鍵詞: 數(shù)據(jù) 安全

  1. 數(shù)據(jù)采集:讓數(shù)據(jù)匯聚到一起

  當前,以大數(shù)據(jù)、物聯(lián)網(wǎng)、人工智能為核心的數(shù)字化浪潮正席卷全球,全世界每時每刻都在產(chǎn)生大量的數(shù)據(jù),人類產(chǎn)生的數(shù)據(jù)總量呈指數(shù)級增長。面對如此巨大的數(shù)據(jù)規(guī)模,如何采集并進行轉(zhuǎn)換、存儲以及分析,是人們在數(shù)據(jù)開發(fā)利用過程中面臨的巨大挑戰(zhàn)。其中,數(shù)據(jù)采集又是所有數(shù)據(jù)處理行為的前提。

  數(shù)據(jù)采集是指從系統(tǒng)外部采集數(shù)據(jù)并輸入到系統(tǒng)內(nèi)部的過程。數(shù)據(jù)采集系統(tǒng)整合了信號、傳感器、激勵器等數(shù)據(jù)采集設(shè)備和一系列應(yīng)用軟件。目前,數(shù)據(jù)采集廣泛應(yīng)用于互聯(lián)網(wǎng)及分布式領(lǐng)域,如攝像頭、麥克風都是數(shù)據(jù)采集工具。

  數(shù)據(jù)采集并不是隨隨便便、雜亂無章地采集數(shù)據(jù),而是對數(shù)據(jù)有一定的要求。例如,要求數(shù)據(jù)量是全面的,具有足夠的分析價值;是多維度和多類型的,能夠滿足不同的需求;是高效的,具有比較明確的針對性和時效性。常用的數(shù)據(jù)采集方法主要有傳感器采集、日志文件采集、網(wǎng)絡(luò)爬蟲采集。

  傳感器采集:傳感器通常用于測量物理變量,一般包括聲音、溫濕度、距離、電流等,將測量值轉(zhuǎn)化為數(shù)字信號并傳送到數(shù)據(jù)采集點,讓物體擁有“觸覺”“味覺”和“嗅覺”等“感官”,變得鮮活起來。

  日志文件采集:日志文件數(shù)據(jù)一般由數(shù)據(jù)源系統(tǒng)產(chǎn)生,用于記錄對數(shù)據(jù)源的各種操作活動,如網(wǎng)絡(luò)監(jiān)控的流量管理、金融應(yīng)用中的股票記賬和Web服務(wù)器記錄的用戶訪問行為。很多互聯(lián)網(wǎng)企業(yè)采用日志文件采集方式,如Hadoop的Chukwa、Cloudera的Flume、Facebook的Scribe等。這些工具均使用分布式架構(gòu),能滿足每秒數(shù)百MB的日志數(shù)據(jù)采集和傳輸需求。

  網(wǎng)絡(luò)爬蟲采集:網(wǎng)絡(luò)爬蟲是指為搜索引擎下載并存儲網(wǎng)頁的程序,它是針對搜索引擎和Web緩存的主要數(shù)據(jù)采集方法。該方法將非結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁中抽取出來,以結(jié)構(gòu)化的形式將其存儲為統(tǒng)一的本地數(shù)據(jù)文件,支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以自動關(guān)聯(lián)。

  由于所采集數(shù)據(jù)的種類錯綜復雜,因此對不同種類的數(shù)據(jù)進行分析必須運用提取技術(shù)。通過不同方式,可以獲得各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化的海量數(shù)據(jù)。在現(xiàn)實生活中,數(shù)據(jù)的種類有很多。而且,不同種類的數(shù)據(jù),其產(chǎn)生的方式不同。針對大數(shù)據(jù)采集,目前主要流行運用以下技術(shù)。

  Hive:Hive是由Facebook開發(fā)的數(shù)據(jù)倉庫,可支持SQL相似的查詢聲明性語言(HiveQL),可自定義插入相關(guān)腳本(Map-Reduce),并且支持基本數(shù)據(jù)類型、多種集合和組合等。只需要一些簡單的查詢語句,就能分析計算數(shù)據(jù)倉庫中的數(shù)據(jù)。

  Transform:Transform操作是大數(shù)據(jù)采集中的一個關(guān)鍵流程,利用多種數(shù)據(jù)分析和計算系統(tǒng)對清洗后的數(shù)據(jù)進行處理和分析。

  Apache Sqoop:將數(shù)據(jù)在Hadoop HDFS分布式文件系統(tǒng)和生產(chǎn)數(shù)據(jù)庫相互轉(zhuǎn)換,需要考慮數(shù)據(jù)是否一致,以及資源配置等問題。為了防止使用效率不高的腳本進行傳輸,將使用Apache Sqoop。Apache Sqoop能快速實現(xiàn)導入和導出數(shù)據(jù),解決數(shù)據(jù)來回轉(zhuǎn)換中暴露的問題,還可通過數(shù)據(jù)庫元數(shù)據(jù)預測數(shù)據(jù)類型。

  數(shù)據(jù)采集是挖掘數(shù)據(jù)價值的第一步,當數(shù)據(jù)量越來越大時,可提取出來的有用數(shù)據(jù)必然也就更多。只要善用數(shù)據(jù)化處理平臺,便能夠保證數(shù)據(jù)分析結(jié)果的有效性,助力實現(xiàn)數(shù)據(jù)驅(qū)動。

  2. 數(shù)據(jù)分析:機器學習和深度挖掘

  數(shù)據(jù)分析是指用適當?shù)慕y(tǒng)計方法對數(shù)據(jù)進行分析,將它們加以匯總和理解并消化,以求最大化地開發(fā)數(shù)據(jù)功能。數(shù)據(jù)分析的目的是把隱藏在一大批看似雜亂無章的數(shù)據(jù)背后的信息提煉出來,并總結(jié)出內(nèi)在規(guī)律。

  數(shù)據(jù)分析的概念不難理解,但數(shù)據(jù)分析是通過什么方法來實現(xiàn)的呢?這就要借助機器學習。機器學習是研究如何用機器來模擬人類學習活動的一門學科,它是研究機器如何獲取新知識和新技能并識別現(xiàn)有知識的學問。此處所說的“機器”是指計算機、電子計算機、中子計算機、光子計算機或神經(jīng)計算機等。機器學習主要包括三種類型:監(jiān)督學習、無監(jiān)督學習及強化學習。

  監(jiān)督學習從給定的訓練數(shù)據(jù)集中學習一個函數(shù),當有新數(shù)據(jù)時,可以根據(jù)這個函數(shù)預測結(jié)果,如圖1、圖2所示。監(jiān)督學習的訓練集要求包括輸入和輸出,也可以說是特征和目標。訓練集中的目標是由人標注的。監(jiān)督學習分為回歸和分類兩種類型,包括線性回歸、Logistic回歸、CART、樸素貝葉斯、KNN等幾種算法?;貧w是精確值預測。例如,根據(jù)已有的銷售價格和銷售數(shù)量建立模型,預測新銷售價格對應(yīng)的銷售數(shù)量,就是回歸的過程。

  圖1  監(jiān)督學習模型

  圖2  監(jiān)督學習預測模型

  無監(jiān)督學習就是輸入一些并不知道輸出的數(shù)據(jù),然后給這些數(shù)據(jù)打上標簽,如圖3所示。它主要有關(guān)聯(lián)、群集及維度降低三種類型,集中使用Apriori、K-means、PCA三種算法。其實,我們每天看的新聞分類就是一個無監(jiān)督學習,由新聞網(wǎng)站收集網(wǎng)絡(luò)新聞,根據(jù)主題將新聞分成各類鏈接,讀者點擊鏈接時會展現(xiàn)相關(guān)的新聞,而這些新聞的關(guān)聯(lián)性不是人工實現(xiàn)的,是算法自動分的。簡單地說,監(jiān)督學習是根據(jù)已經(jīng)存在的數(shù)據(jù),如現(xiàn)有銷售價格和銷售數(shù)量,預測在新的銷售價格下能賣出多少數(shù)量的商品;而無監(jiān)督學習則是在不知道數(shù)據(jù)的輸出是什么的情況下,根據(jù)特征進行分類和預測。

  圖3  無監(jiān)督學習模型

  強化學習是讓機器通過不斷的測試,在環(huán)境中獲得高分。在這個過程中,機器會一而再、再而三地出錯,從而獲取規(guī)律。近兩年比較有名的Alpha Go事件,其實就是機器通過不斷學習游戲和變換新步驟而得到高分的實例。那么,計算機是怎樣學習的呢?其實,計算機就像一位虛擬的老師,只是這位老師比較嚴厲,它不會提前告訴你怎樣移動,不會教你怎樣學習,就像學校的教導主任一樣只對你的行為進行監(jiān)督和打分,而不負責教學。在這種情況下,我們怎樣獲得高分呢?我們只需要記住高分和低分分別對應(yīng)的行為,在下一次打分時盡量表示出高分行為,避免低分行為,就能夠做到。據(jù)此,機器學習主要是從歷史數(shù)據(jù)獲得模型來預測未知屬性,而人類是通過經(jīng)驗總結(jié)規(guī)律以預測未來,如圖4所示。

  圖4  機器學習與人類思考對比

  說到機器學習,不能不提到近年來出現(xiàn)的一個新詞——信息機器。信息機器與信息技術(shù)密切相關(guān),它不是傳統(tǒng)意義上的機械機器,而是接收信息、處理信息的新型機器,誕生于媒介新技術(shù)的革新和變遷,更多地體現(xiàn)出人類與機器的交互性。例如,在機器學習的過程中,實際上機器也不斷地產(chǎn)生數(shù)據(jù)和信息,這種現(xiàn)象值得人們高度關(guān)注和研究。

  除了機器學習,還要提到數(shù)據(jù)分析的另一種方法——深度挖掘。這就好比挖掘機挖土,挖得越深,就越有可能挖到有價值的東西。數(shù)據(jù)領(lǐng)域的深度挖掘,就是從大量數(shù)據(jù)中通過算法搜索隱藏于其中的信息的過程。深度挖掘本質(zhì)上類似于機器學習和人工智能的基礎(chǔ),其主要目的是從各種各樣的數(shù)據(jù)來源中提取有用信息,然后將這些信息合并,深度分析其中的規(guī)律和內(nèi)在關(guān)聯(lián)。這就意味著深度挖掘不是一種用來證明假說的方法,而是用于構(gòu)建各種各樣假說的方法。深度挖掘不能告訴人們這些問題的答案,只能說明A和B可能存在相關(guān)關(guān)系,但是無法說出A和B存在什么樣的相關(guān)關(guān)系。與機器學習相比,深度挖掘的概念更廣,機器學習只是深度挖掘領(lǐng)域的一個分支領(lǐng)域。

  深度挖掘廣泛應(yīng)用于商務(wù)管理、生產(chǎn)控制、市場分析、工程設(shè)計和科學探索中,通過各種方法來挖掘數(shù)據(jù),主要包括分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則、特征、變化和偏差分析、Web頁挖掘等,它們分別從不同的角度對數(shù)據(jù)進行挖掘。

  數(shù)據(jù)挖掘是一種決策支持過程,它通過高度自動化地分析企業(yè)的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調(diào)整市場策略,減少風險,做出正確的決策。在市場經(jīng)濟比較發(fā)達的國家和地區(qū),許多企業(yè)都開始在原有信息系統(tǒng)的基礎(chǔ)上通過深度挖掘?qū)I(yè)務(wù)信息進行深加工,以構(gòu)筑自己的競爭優(yōu)勢,擴大自己的營業(yè)額。美國運通公司(American Express)有一個用于記錄信用卡業(yè)務(wù)的數(shù)據(jù)庫,其數(shù)據(jù)量已達到5GB,并仍在隨著業(yè)務(wù)發(fā)展而不斷更新。運通公司通過對這些數(shù)據(jù)進行挖掘,制定了“關(guān)聯(lián)結(jié)算(Relation ship Billing)優(yōu)惠”的促銷策略,即如果顧客在一家商店用運通卡購買一套時裝,那么在同一家商店再買一雙鞋就可以得到比較大的折扣。這樣既可以增加商店的銷售量,也可以增加運通卡在該商店的使用率。類似的方法在食品行業(yè)也備受青睞。全球著名的卡夫(Kraft)食品公司建立了一個擁有3000萬條客戶資料的數(shù)據(jù)庫。數(shù)據(jù)庫是通過收集對公司發(fā)出優(yōu)惠券等促銷手段做出積極反應(yīng)的客戶和銷售記錄而建立起來的??ǚ蚬就ㄟ^深度挖掘了解特定客戶的興趣和口味,以此為基礎(chǔ)向他們發(fā)送特定產(chǎn)品的優(yōu)惠券,并推薦符合他們口味和健康狀況的卡夫產(chǎn)品食譜。此外,出版業(yè)也是數(shù)據(jù)深度挖掘的受益者。例如,美國讀者文摘(Reader's Digest)出版公司運行著一個已有40年積累的業(yè)務(wù)數(shù)據(jù)庫,里面包含遍布全球的1億多個訂戶的資料,數(shù)據(jù)庫每天24小時連續(xù)運行,保證數(shù)據(jù)不斷實時更新。正是基于對客戶資料數(shù)據(jù)庫進行深度挖掘的優(yōu)勢,讀者文摘出版公司的業(yè)務(wù)才能夠從通俗雜志擴展到專業(yè)雜志、書刊和音像制品的出版和發(fā)行。

  3. 數(shù)據(jù)關(guān)聯(lián):因果關(guān)系or相關(guān)關(guān)系

  大數(shù)據(jù)時代,紛繁蕪雜的數(shù)據(jù)描述的是一個混沌的世界,只有找出看似不相干的數(shù)據(jù)背后隱藏的邏輯關(guān)系和本質(zhì)規(guī)律,才可能看清楚許多真相。目前,對于數(shù)據(jù)之間的關(guān)系,存在兩種較主流的看法,即因果關(guān)系和相關(guān)關(guān)系。

  對于因果關(guān)系,通俗地解釋是指一個事件(即“因”)和另一個事件(即“果”)之間的作用關(guān)系,其中后一事件被認為是前一事件的結(jié)果。從西方哲學的角度來看,亞里士多德較早提出的“四因說”,即質(zhì)料因、形式因、動力因、目的因,歸納了一般導致結(jié)果發(fā)生的幾個原因解釋。后來,在亞里士多德宇宙論的基礎(chǔ)上,托馬斯· 阿奎那又對這四種原因進行了等級排列,認為目的因>動力因>質(zhì)料因>形式因。阿奎那把第一因歸為上帝,認為塵世的很多事件都是在上帝的設(shè)計或計劃之中。這種觀點流傳了很久。不過,在后來的歷史中,亞里士多德的“四因說”遭到了后世學者的批評。當代西方哲學中廣為流傳的關(guān)于因果關(guān)系的定義出自大衛(wèi)· 休謨的理論。他提出,人們只是發(fā)展了一個思考習慣,把前后相繼的兩類客體或事件聯(lián)系起來,除此之外,人們是無法感知到原因和結(jié)果的。然而,雖然圍繞因果關(guān)系是否存在的爭論一直延綿不絕,但不可否認的是在傳統(tǒng)社會中,因果關(guān)系的確對人們分析事物的原因起著巨大的潛移默化的作用。

  大數(shù)據(jù)時代,由于數(shù)據(jù)對經(jīng)濟生活各個方面的影響,有學者對事物之間的關(guān)聯(lián)提出了新的詮釋。例如,舍恩伯格在《大數(shù)據(jù)時代》一書中一再強調(diào),人們應(yīng)該在很大程度上從對因果關(guān)系的追求中解脫出來,轉(zhuǎn)而將注意力放在相關(guān)關(guān)系的發(fā)現(xiàn)和使用上。他提出,相關(guān)關(guān)系是指當一個數(shù)據(jù)發(fā)生變化時,另一個數(shù)據(jù)也可能隨之變化,這兩個數(shù)據(jù)有時候沒有必然聯(lián)系。兩者可能是正相關(guān),也可能是負相關(guān);可能是強相關(guān),也可能是弱相關(guān)。“我們沒有必要非得知道現(xiàn)象背后的原因,而是要讓數(shù)據(jù)自己發(fā)聲”“相關(guān)關(guān)系能夠幫助我們更好地了解這個世界”,他認為建立在相關(guān)關(guān)系分析法上的預測是大數(shù)據(jù)的核心。通過找到關(guān)聯(lián)物并監(jiān)控它,人們就能夠預測未來。在大數(shù)據(jù)的背景下,相關(guān)關(guān)系較因果關(guān)系能在預測功能上展現(xiàn)出更大的優(yōu)勢。對于人們來說,大數(shù)據(jù)最關(guān)鍵的作用就是利用相關(guān)關(guān)系進行研究,把數(shù)據(jù)里面的金子挖出來,或者利用相關(guān)性預防或促成某些結(jié)果的發(fā)生。由于數(shù)據(jù)超級海量,需要一定的速度應(yīng)對信息社會“數(shù)據(jù)爆炸”和諸多涌現(xiàn)出來的“復雜性”,然后才是對其過程和背后原因的探詢。

  舍恩伯格提到的相關(guān)關(guān)系與因果關(guān)系有很明顯的不同。因果關(guān)系中,當一個表示原因的數(shù)據(jù)發(fā)生變化時,它對應(yīng)的結(jié)果數(shù)據(jù)也會發(fā)生變化,這兩個數(shù)據(jù)一定是必然關(guān)系。但是,有的時候追求因果關(guān)系顯得既無必要又無可能。例如,在實際生活中,如果要證明熬夜導致禿頭,可以找兩組身體狀況基本一樣的人,讓一組熬夜,另一組在正常時間睡覺。如果熬夜組禿頭的概率大于不熬夜組,那么基本可以證明熬夜和禿頭存在因果關(guān)系。但是,這種實驗在現(xiàn)實中很難做到,因為連原本的客觀環(huán)境都不能保持一致。而且,這種實驗也違背道德,因為很難逼大家熬夜,也無法實時追蹤是否熬夜。因此,用因果關(guān)系來證明和解釋這個現(xiàn)象有待商榷。

  那么,大數(shù)據(jù)時代的關(guān)系到底是因果關(guān)系、相關(guān)關(guān)系,還是因果關(guān)系和相關(guān)關(guān)系并存呢?這大概還是取決于人們對數(shù)據(jù)功能的定位。在相關(guān)關(guān)系中,預測是大數(shù)據(jù)的核心功能。對于快速變化的世界來說,探究相關(guān)關(guān)系的確比因果關(guān)系成本更低,耗時更少,而且也更顯必要。例如,全球最大的零售商沃爾瑪擁有一個超大型的歷史交易記錄數(shù)據(jù)庫,這個數(shù)據(jù)庫包括每位顧客的購物清單、消費額、購物籃中的商品、具體的購買時間以及購物時的天氣。經(jīng)過分析發(fā)現(xiàn)一個規(guī)律,就是每當季節(jié)性颶風來臨之前,不僅手電筒的銷量增加,蛋撻的銷量也會增加。因此,后來每當季節(jié)性颶風來臨時,沃爾瑪會把庫存的蛋撻放在靠近颶風用品的位置,這樣既方便了行色匆匆的顧客,又大幅增加了商品的銷量。在這樣的案例中,并沒有必要探究為什么手電筒和蛋撻的銷量會增加,只要知道這種相關(guān)關(guān)系就行。

  通過相關(guān)關(guān)系進行預測的案例還有很多。美國折扣零售商塔吉特曾經(jīng)做過一項關(guān)于懷孕女性的預測。公司分析團隊查看了登記在嬰兒禮物登記簿上的女性消費記錄,發(fā)現(xiàn)這些準媽媽會在懷孕第三個月左右的時候買很多無香乳液,之后還會陸續(xù)買些營養(yǎng)品,整個孕期大概能產(chǎn)生對20多種關(guān)聯(lián)物的需求。通過這些關(guān)聯(lián)物,公司分析團隊可以看出準媽媽們的懷孕趨勢,甚至能夠據(jù)此準確地推測出她們的預產(chǎn)期,這樣就能夠在她們孕期的每個階段給她們寄送相應(yīng)的優(yōu)惠券,從而增加銷售額。所以,不論是追求相關(guān)關(guān)系,還是因果關(guān)系,歸根結(jié)底都是看其能為主體提供什么樣的價值,以及主體需要實現(xiàn)什么樣的價值。

  4. 數(shù)據(jù)質(zhì)量:“清洗”后的數(shù)據(jù)更可靠

  大數(shù)據(jù)時代,人們關(guān)注的焦點是如何發(fā)揮數(shù)據(jù)的價值,卻鮮有人關(guān)注數(shù)據(jù)質(zhì)量這個最根本的問題。實際上,大數(shù)據(jù)處理的關(guān)鍵是解決數(shù)據(jù)質(zhì)量問題?!洞髷?shù)據(jù)資產(chǎn):聰明的企業(yè)怎樣致勝于數(shù)據(jù)治理》一書的作者托尼·費舍爾(Tony Fisher)曾提到:“如果基本數(shù)據(jù)不可靠,大多數(shù)企業(yè)的大數(shù)據(jù)計劃要么會失敗,要么效果會低于預期。造成上述結(jié)果的關(guān)鍵原因在于,數(shù)據(jù)生命周期之中流入了不一致、不準確、不可靠的數(shù)據(jù)?!痹愀獾臄?shù)據(jù)質(zhì)量常常意味著糟糕的業(yè)務(wù)決策,將直接導致數(shù)據(jù)統(tǒng)計分析不準確、監(jiān)管業(yè)務(wù)難、高層領(lǐng)導難以決策等問題。據(jù)IBM統(tǒng)計,錯誤或不完整的數(shù)據(jù)會導致業(yè)務(wù)系統(tǒng)不能正常發(fā)揮優(yōu)勢甚至失效;數(shù)據(jù)分析員每天有30%的時間浪費在辨別數(shù)據(jù)是否是“壞數(shù)據(jù)”上;低劣的數(shù)據(jù)質(zhì)量嚴重降低了全球企業(yè)的年收入。因此,只有規(guī)避數(shù)據(jù)錯誤、保障數(shù)據(jù)質(zhì)量,才能真正讓各數(shù)據(jù)使用方從大數(shù)據(jù)應(yīng)用中獲益。

  近年來,數(shù)據(jù)質(zhì)量管理應(yīng)運而生。所謂數(shù)據(jù)質(zhì)量管理,是指對在數(shù)據(jù)存在的各個周期中出現(xiàn)的一系列數(shù)據(jù)質(zhì)量問題,利用識別監(jiān)控等措施改善和提高數(shù)據(jù)質(zhì)量的管理水平。

  其中,數(shù)據(jù)清洗是數(shù)據(jù)質(zhì)量管理中重要的一環(huán),主要是對數(shù)據(jù)進行重新核驗,修正錯誤數(shù)據(jù)和去除重復數(shù)據(jù),通過過濾掉這些“臟數(shù)據(jù)”,盡可能地使數(shù)據(jù)保持一致性和準確性,提高數(shù)據(jù)質(zhì)量。

  關(guān)于數(shù)據(jù)質(zhì)量管理,不同的主體有不同思路。曾有篇文章以古人治理黃河水患為例來說明如何管理數(shù)據(jù)質(zhì)量,令人印象深刻。

  文章提到,現(xiàn)在的數(shù)據(jù)集成融合就和古人筑堤壩一樣:古人筑堤壩是為了約束河水,拓展人類的生存空間;今人做數(shù)據(jù)集成融合是為了挖掘數(shù)據(jù)價值,拓展企業(yè)的生存空間。古人提出:在修筑大堤前,黃河“左右游蕩,寬緩而不迫”;筑堤后河道變窄,發(fā)生洪水時泄流不暢,常決口為患。如今的企業(yè)在信息化初期,各類業(yè)務(wù)系統(tǒng)恣意生長,這個階段就像修筑大堤前的黃河雖然有問題,但是不明顯。后來,企業(yè)業(yè)務(wù)需求增長,需要按照統(tǒng)一的架構(gòu)和標準把各類數(shù)據(jù)集成起來,這個階段就像筑堤束水之后的黃河,各種問題撲面而來。古人治理黃河水患,主要有兩種方式,一種是“疏通”,另一種是“圍堵”。數(shù)據(jù)質(zhì)量治理也可以借鑒古人“疏”與“堵”的智慧和考量?!笆琛本褪情_展頂層設(shè)計,制定統(tǒng)一數(shù)據(jù)架構(gòu)、數(shù)據(jù)標準,設(shè)計數(shù)據(jù)質(zhì)量的管理機制,建立相應(yīng)的組織架構(gòu)和管理制度,采用分類處理的方式持續(xù)提升數(shù)據(jù)質(zhì)量?!岸隆本褪且蕾嚰夹g(shù)手段,通過增加數(shù)據(jù)清洗處理邏輯的復雜度,使用數(shù)據(jù)質(zhì)量工具來發(fā)現(xiàn)數(shù)據(jù)處理中的問題。

  5. 數(shù)據(jù)反壟斷:避免數(shù)據(jù)孤島的新手段

  在2018年12月25日舉行的新興科技中國全球峰會上,被譽為“互聯(lián)網(wǎng)之父”的麻省理工學院教授蒂姆·伯納斯·李發(fā)表了重要講話。1991年,他提出了互聯(lián)網(wǎng)的基石協(xié)議——超文本傳輸協(xié)議,并進一步發(fā)明了互聯(lián)網(wǎng)。然而,在此次會議上,“互聯(lián)網(wǎng)之父”對當前的互聯(lián)網(wǎng)表示了失望,稱“已經(jīng)失去了原有的精神,需要破而后立”。

  伯納斯·李指出,互聯(lián)網(wǎng)的發(fā)展曾經(jīng)有一個非常重要的長尾效應(yīng)。不同規(guī)模的企業(yè)都有自己的生存空間。但是今天,長尾效應(yīng)失敗了。目前,互聯(lián)網(wǎng)世界的頭部效應(yīng)是明顯的,一些網(wǎng)站占據(jù)了主導地位及大部分市場份額。他指出,人類仍然面臨許多“數(shù)據(jù)孤島”。每個人都在互聯(lián)網(wǎng)上產(chǎn)生了很多數(shù)據(jù),但是這些數(shù)據(jù)都在像Facebook這樣的大公司手里,而且無法連接。這些孤立的“島嶼”不尊重個人,令人沮喪?;ヂ?lián)網(wǎng)誕生的初衷是人們可以在互聯(lián)網(wǎng)世界中形成一個“自由開放的社區(qū)”來展示自己的個人想象力。然而,在目睹了一系列個人數(shù)據(jù)濫用丑聞后,他對互聯(lián)網(wǎng)的現(xiàn)狀感到失望。

  伯納斯·李對現(xiàn)在互聯(lián)網(wǎng)的不滿可以歸根于一個很時髦的詞——數(shù)據(jù)壟斷?,F(xiàn)在,人們提到數(shù)據(jù)壟斷,主要形容“重要數(shù)據(jù)被控制在少數(shù)人手中,并被不合理地分配和使用”的一種狀態(tài),而且主要針對互聯(lián)網(wǎng)巨頭企業(yè)而言。其實,最早出現(xiàn)的“數(shù)據(jù)壟斷”一詞是針對政府的,與“數(shù)據(jù)民主”相對應(yīng)。近年來,美國、英國、澳大利亞、新西蘭等國家相繼建立了政府數(shù)據(jù)門戶,將以前由政府擁有的公共數(shù)據(jù)推上互聯(lián)網(wǎng),掀起了“數(shù)據(jù)民主化”的浪潮。所謂數(shù)據(jù)民主化,是指將政府、企業(yè)等所擁有的各類公共數(shù)據(jù)推上互聯(lián)網(wǎng),允許任何人訪問和下載。也就是說,政府不應(yīng)該成為數(shù)據(jù)的壟斷者,公民應(yīng)該擁有對數(shù)據(jù)的知情權(quán)、發(fā)言權(quán)和決策權(quán)。

  在我國,“數(shù)據(jù)壟斷”一詞是伴隨著菜鳥和順豐事件而興起的。2017年“六一”兒童節(jié)期間,菜鳥和順豐像兩個爭搶糖果的小孩子在網(wǎng)絡(luò)上隔空“掐架”:6月1日下午,菜鳥官微發(fā)出一則“菜鳥關(guān)于順豐暫停物流數(shù)據(jù)接口的聲明”,稱順豐主動關(guān)閉了豐巢自提柜(由深圳順豐投資有限公司控股的豐巢科技所提供的智能快遞自提柜)和淘寶平臺物流數(shù)據(jù)信息回傳;隨后,順豐回應(yīng)稱,菜鳥以安全為由單方面切斷了豐巢的信息接口,并指責菜鳥索要豐巢的所有包裹信息(包括非淘系訂單),認為菜鳥有意讓其從騰訊云切換至阿里云。不過,監(jiān)管部門并沒有讓這場“掐架”持續(xù)多久。在國家郵政局的調(diào)停下,6月3日12點,菜鳥和順豐握手言和,全面恢復了業(yè)務(wù)合作和數(shù)據(jù)傳輸。

  然而,這場突如其來的鬧劇,最后卻是由用戶和賣家買單。在菜鳥和順豐切斷數(shù)據(jù)接口后,淘寶天貓的賣家無法通過后臺錄入順豐快遞單號,相當一部分賣家受到影響。根據(jù)菜鳥網(wǎng)絡(luò)給出的說法,雙方發(fā)生爭執(zhí)后,菜鳥收到了大量賣家和消費者的詢問。受影響的賣家擔心的是如果繼續(xù)采用順豐發(fā)貨,可能造成財產(chǎn)損失,也會引起買家集中投訴。但是,由于順豐在冷鏈物流配送的速度上遙遙領(lǐng)先于其他民營快遞公司,要找到合適的替代者確實不容易。

  菜鳥和順豐事件引起了全民熱議。在輿論發(fā)展過程中,討論越來越集中于數(shù)據(jù)方面,“數(shù)據(jù)壟斷”問題被提了出來。不過,這里的對象不是政府,而是企業(yè)。

  當前,關(guān)于數(shù)據(jù)壟斷沒有形成統(tǒng)一的定義。從數(shù)據(jù)占有角度來說,數(shù)據(jù)壟斷是指獨占數(shù)據(jù)。但獨占數(shù)據(jù)本身并不違反《反壟斷法》,即使獨占的是海量數(shù)據(jù)。從數(shù)據(jù)流動的角度來說,數(shù)據(jù)壟斷意味著不共享數(shù)據(jù)。從個人信息保護角度來說,數(shù)據(jù)壟斷是指控制個人數(shù)據(jù)。從數(shù)據(jù)收益角度來說,數(shù)據(jù)壟斷是指獨占數(shù)據(jù)收益。這些說法都有各自的道理,但是又都不完全準確。要構(gòu)成數(shù)據(jù)壟斷行為,至少應(yīng)該包括三個要素:一是數(shù)據(jù)可能造成進入壁壘或擴張壁壘;二是擁有大數(shù)據(jù)形成市場支配地位并濫用;三是因數(shù)據(jù)產(chǎn)品而形成市場支配地位并濫用。

  2019年2月4日,德國反壟斷機構(gòu)聯(lián)邦卡特爾局(Federal Cartel Office)采取行動禁止德國境內(nèi)Facebook在未經(jīng)用戶同意的情況下收集某些類型的消費者數(shù)據(jù),指出其數(shù)據(jù)聚合行為是對其市場力量的濫用。聯(lián)邦卡特爾局一再強調(diào),一方面,除非用戶同意,否則Facebook不能將其擁有的WhatsApp或Instagram賬戶數(shù)據(jù)與其主要平臺上的其他賬戶予以關(guān)聯(lián);另一方面,對于從第三方網(wǎng)站收集其個人數(shù)據(jù)的情形,用戶同樣保有同意權(quán)。關(guān)于Facebook未來的數(shù)據(jù)處理政策,聯(lián)邦卡特爾局正在引入Facebook數(shù)據(jù)的內(nèi)部剝離措施。與此同時, Facebook對這一裁決提出上訴,認為聯(lián)邦卡特爾局低估了其在德國面臨的激烈的競爭環(huán)境,曲解了其GDPR合規(guī)狀態(tài),而且破壞了歐洲法律引入的確保歐盟內(nèi)整體一致的數(shù)據(jù)保護標準的機制。




電子技術(shù)圖片.png

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。