123,123,123

大数据也有问题数据量增加远超摩尔定律需要“智能遗忘”

日期： 2016-06-14

關(guān)鍵詞： 大数据计算机摩尔定律智能遗忘

我們需要更好地確定哪些數(shù)據(jù)值得優(yōu)先保存

　　據(jù)國(guó)外媒體報(bào)道，在經(jīng)濟(jì)領(lǐng)域和人類行為的大量數(shù)據(jù)采集中，存在著一個(gè)違反直覺的弊端，而這會(huì)使我們忽略歷史的教訓(xùn)。

　　你或許很熟悉這樣一個(gè)統(tǒng)計(jì)結(jié)論：世界90%的數(shù)據(jù)是過去幾年里產(chǎn)生的。事實(shí)上，過去三十年中，全世界的數(shù)據(jù)量大約每?jī)赡暝黾?0倍——遠(yuǎn)遠(yuǎn)超過了計(jì)算機(jī)領(lǐng)域的摩爾定律。

　　這樣的信息增長(zhǎng)速率會(huì)帶來一些問題，其中之一便是現(xiàn)時(shí)的數(shù)據(jù)量總是遠(yuǎn)遠(yuǎn)超過即使最近的過去。想象你正在通過一本相片簿回顧人生的頭18年，假設(shè)在兩歲時(shí)你有兩張照片，如果信息增長(zhǎng)速率與世界數(shù)據(jù)量相同，那么在你6到8歲時(shí)，你會(huì)有驚人的2000張照片；10到12歲時(shí)有20萬張照片；而在16到18歲時(shí)，照片數(shù)量會(huì)達(dá)到2億張，相當(dāng)于在最后兩年中，每秒有3張以上的照片。

　　當(dāng)然，這并非是全球數(shù)據(jù)增長(zhǎng)情況的完美類比。首先，世界大部分?jǐn)?shù)據(jù)的增長(zhǎng)源于有更多的人創(chuàng)造出了更多的信息來源，同時(shí)伴隨更大、更精細(xì)的格式。不過，有關(guān)比例的觀點(diǎn)還是成立的。如果你像前述的例子那樣回顧以往的記錄，或者試圖進(jìn)行分析，那距離越久遠(yuǎn)的過去就會(huì)變得越無關(guān)緊要。

　　這就是目前采集和分析大數(shù)據(jù)時(shí)所面臨的問題。當(dāng)你開始以更長(zhǎng)遠(yuǎn)的視角往前回溯時(shí)，會(huì)發(fā)現(xiàn)近期的事情太多，而以前的事情太少。短視是結(jié)構(gòu)性的，對(duì)短期趨勢(shì)的過度估計(jì)是壓倒性的，同時(shí)卻忽略了歷史的經(jīng)驗(yàn)教訓(xùn)。

　　為了理解這個(gè)問題的重要性，需要考慮社會(huì)科學(xué)中有關(guān)“近期偏差”（recency bias，又稱近因效應(yīng)）的研究發(fā)現(xiàn)。近期偏差是指在判斷趨勢(shì)時(shí)，認(rèn)為未來事件與近期體驗(yàn)更加類似。這可以說是某種“可利用性法則”（availability heuristic） ——不恰當(dāng)?shù)匾宰钊菀妆恢X到的信息來作為思考的基礎(chǔ)。這還是一種普遍的心理學(xué)特征。舉例來說，如果在你居住的地方，過去幾年中夏季都異乎尋常地寒冷，你可能會(huì)認(rèn)為夏天正在變得更冷——或者說你當(dāng)?shù)氐臍夂蛘谧兝?。事?shí)上，你不應(yīng)當(dāng)把任何東西都塞到數(shù)據(jù)里分析。你需要有一個(gè)長(zhǎng)遠(yuǎn)的視角，才能認(rèn)識(shí)真正有意義的氣候趨勢(shì)。在短時(shí)期內(nèi)，你最好不進(jìn)行任何猜測(cè)。不過，我們之中又有誰能真正做到這點(diǎn)呢？

　　現(xiàn)實(shí)生活中大部分復(fù)雜的趨勢(shì)正是如此：股票市場(chǎng)、經(jīng)濟(jì)發(fā)展、企業(yè)的成功或失敗、戰(zhàn)爭(zhēng)或和平、國(guó)家關(guān)系、帝國(guó)的崛起和衰落等等。短期分析不僅不夠扎實(shí)，而且毫無益處甚至?xí)碚`導(dǎo)。看看2009年金融危機(jī)即將到來的時(shí)候，還有那么多經(jīng)濟(jì)學(xué)家信誓旦旦地宣稱這一事件不會(huì)發(fā)生。認(rèn)為從那種時(shí)間尺度的數(shù)據(jù)就能做出扎實(shí)的預(yù)測(cè)，本身就有很大的問題。

　　我們還應(yīng)當(dāng)記住，在決定哪些數(shù)據(jù)是保存還是刪除的時(shí)候，新穎性往往會(huì)成為主要的考慮因素。舊的淘汰，新的進(jìn)來，在這個(gè)搜索算法本質(zhì)上偏向于新鮮事物的數(shù)字世界中，這是明顯的趨勢(shì)。從高等法院的裁決，到所有的社交媒體服務(wù)平臺(tái)上，我們到處都可以看到已經(jīng)失效的網(wǎng)址。對(duì)當(dāng)前的偏好已經(jīng)滲透到我們身邊幾乎所有的技術(shù)中，大多數(shù)人已經(jīng)習(xí)慣用個(gè)四五年就把原本光鮮亮麗的機(jī)器拋棄。

　　怎么辦？這不僅是一個(gè)如何更好保存舊數(shù)據(jù)的問題——盡管這并不是個(gè)壞主意，想想我們現(xiàn)在還有什么東西能保留10年的。更重要的是，這個(gè)問題關(guān)系到確定哪些東西值得優(yōu)先保存，如何在知識(shí)的名義下，確定哪些信息最有意義。

　　或許我們需要的是“智能遺忘”：讓我們的工具變得更會(huì)放棄最近的過去，從而在整體視角上保持更大的連續(xù)性。這有點(diǎn)像是重新組織一本相片簿，盡管加上了更多的數(shù)學(xué)方法。什么時(shí)候兩百萬張照片的價(jià)值比兩千張照片更低？什么時(shí)候較大的樣品覆蓋的范圍反而較??？什么時(shí)候細(xì)節(jié)水平能提供有用的質(zhì)疑證據(jù)，而不是虛假的自信？

　　許多數(shù)據(jù)集是無法縮減的，而且在完整的情況下才最寶貴，比如，基因序列、人口統(tǒng)計(jì)學(xué)數(shù)據(jù)、地理和物理學(xué)的原始觀測(cè)數(shù)據(jù)等?？茖W(xué)性越弱，數(shù)據(jù)規(guī)模與數(shù)據(jù)的質(zhì)量更可能呈現(xiàn)負(fù)相關(guān)，此時(shí)時(shí)間本身就成為更加重要的過濾工具。我們?nèi)绻蛔屑?xì)選擇過去保存下來的有價(jià)值、有意義的東西，那它們就會(huì)悄無聲息地淹沒在如今日益增長(zhǎng)的噪音之中。

　　今天的企業(yè)、個(gè)人和政府機(jī)構(gòu)都能夠獲得比以往（甚至就在幾年前）大許多數(shù)量級(jí)的數(shù)據(jù)，但這些數(shù)據(jù)并沒有獲得更多的處理時(shí)間。利用越來越高效的工具，董事會(huì)成員、首席執(zhí)行官、政府官員等決策者可以就已有的信息提出更有意義的問題。單純的堆積不是問題的答案。在一個(gè)數(shù)據(jù)量越來越大的時(shí)代，如何選擇不知道哪些事情，與選擇做什么事情一樣重要。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請(qǐng)及時(shí)通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

大数据也有问题 数据量增加远超摩尔定律需要“智能遗忘”

日期： 2016-06-14

相關(guān)內(nèi)容

大数据也有问题数据量增加远超摩尔定律需要“智能遗忘”