京東金融和城市計(jì)算的關(guān)系是什么?這要從剛剛加入公司的鄭宇說(shuō)起。
鄭宇說(shuō),京東金融的城市計(jì)算,是一盤很大的棋。
2018 年 2 月 13 日,城市計(jì)算領(lǐng)軍人物鄭宇正式加入京東金融。此前,他曾是微軟亞洲研究院城市計(jì)算領(lǐng)域的負(fù)責(zé)人,毫不夸張地說(shuō),「城市計(jì)算」一詞,就是他提出來(lái)的。
鄭宇有一連串響當(dāng)當(dāng)?shù)念^銜——上海交通大學(xué)講座教授(Chair Professor)、香港科技大學(xué)客座教授、ACM Transactions on Intelligent Systems and Technology(TIST)主編、全球杰出青年創(chuàng)新者(MIT TR35)、2014 年《財(cái)富》雜志中國(guó) 40 位 40 歲以下商界精英...... 除了這些,鄭宇還在 Google Scholar 城市計(jì)算領(lǐng)域世界學(xué)者的論文引用排名中名列榜首。
和很多人一樣,在得知鄭宇加入京東金融這一新聞時(shí),我的第一反應(yīng)是,為什么要去京東金融?京東金融作為金融科技公司,為什么要做城市計(jì)算?畢竟,鄭宇這次所帶領(lǐng)的,是一個(gè)一級(jí)事業(yè)部。
帶著這樣的疑問(wèn),機(jī)器之能采訪到鄭宇,希望找到問(wèn)題的答案。以下為采訪實(shí)錄,機(jī)器之能做了不改變?cè)獾恼怼?/p>
京東金融給了我很大的空間,成立了一個(gè)一級(jí)事業(yè)部,從數(shù)據(jù)到研究到開(kāi)發(fā)到市場(chǎng),能夠形成一個(gè)閉環(huán)。這種閉環(huán)的空間不是什么地方都可以給的。
你加入京東金融這件事在業(yè)內(nèi)反響很大,是什么原因讓你做出這個(gè)決定?
我覺(jué)得有幾點(diǎn)原因,首先看大環(huán)境,現(xiàn)在人工智能與實(shí)體經(jīng)濟(jì)結(jié)合是大趨勢(shì),智慧城市是抓手。這個(gè)事情一定要有人來(lái)做,我覺(jué)得現(xiàn)在是一個(gè)很好的時(shí)間點(diǎn)。
第二,京東金融給了我很大的空間,也給了我足夠的信任來(lái)做這件事。包括成立獨(dú)立的一級(jí)事業(yè)部等等。另外我們還會(huì)建立城市計(jì)算研究院,我還兼任整個(gè)京東金融的首席數(shù)據(jù)科學(xué)家。我覺(jué)得這是非常難得的機(jī)會(huì)。
一級(jí)事業(yè)部不像一個(gè)小組或者研究院,它是一個(gè)獨(dú)立的事業(yè)部,可以發(fā)展得很大。我們從數(shù)據(jù)到研究到開(kāi)發(fā)到市場(chǎng),能夠形成一個(gè)閉環(huán)。這種閉環(huán)的空間不是什么地方都可以給的。
從戰(zhàn)略制高點(diǎn)看的話,一級(jí)事業(yè)部的成立也說(shuō)明了整個(gè)京東金融對(duì)城市計(jì)算這件事的重視,同時(shí)讓我感受到京東金融有足夠的信心和勇氣來(lái)對(duì)城市計(jì)算進(jìn)行投入。
要做城市計(jì)算這件事,一定需要非常大的空間和信任,同時(shí)我需要面對(duì)的挑戰(zhàn)也會(huì)更大。以前我可能只關(guān)注研究、開(kāi)發(fā)和落地,那現(xiàn)在還要關(guān)注市場(chǎng)、數(shù)據(jù)、資源、客戶的對(duì)接,各方面的事情都要考慮。
最后一點(diǎn)是,我比較認(rèn)可京東的文化和價(jià)值觀,踏踏實(shí)實(shí)地干事情,然后努力成功。確實(shí)有很多企業(yè)給我拋過(guò)橄欖枝,但是我最后還是選擇了京東金融。
你所負(fù)責(zé)的這個(gè)事業(yè)部預(yù)計(jì)要招多少人?
這個(gè)暫時(shí)要保密,再過(guò)一段時(shí)間之后,我們會(huì)有一個(gè)比較官方的宣布。
可以說(shuō)的是,我們現(xiàn)在正在建立二級(jí)部門,分別著眼于環(huán)境、交通規(guī)劃等方面。所以京東金融的城市計(jì)算是一個(gè)很大的架構(gòu),不是說(shuō)只是一個(gè)小團(tuán)隊(duì)。
預(yù)計(jì)會(huì)建幾個(gè)二級(jí)部門?
這個(gè)到時(shí)候大家就知道了,可以說(shuō)大家關(guān)心的我們都會(huì)有,像交通、環(huán)境都會(huì)有,但這個(gè)具體數(shù)字是多少,得等到具體的情況來(lái)看。
京東金融是一家服務(wù)金融行業(yè)的科技公司,為什么要做城市計(jì)算?
這里有兩個(gè)關(guān)鍵詞,金融和科技。京東金融其實(shí)是科技公司,它的商業(yè)模式是 B2B2C。當(dāng)然,很多人認(rèn)為京東金融是一個(gè)金融公司,但其實(shí)不是這樣的,它的業(yè)務(wù)是為金融行業(yè)提供一些科技技術(shù)。
比如它為銀行提供風(fēng)控模型,讓銀行更好地為 C 端客戶提供貸款服務(wù)。在這里京東金融是第一個(gè) B,銀行是第二個(gè) B,然后終端客戶是 C。京東金融并不是說(shuō)直接放貸給個(gè)人,它更多地是扮演了一個(gè)技術(shù)賦能者的角色。
這種 B2B2C 的模式我非常認(rèn)可。因?yàn)槲覀兛梢园阎虚g的這個(gè) B 想象成 G。我們給相關(guān)主管機(jī)構(gòu)提供技術(shù),讓他們更好地為百姓服務(wù)。
你可以認(rèn)為,城市計(jì)算是京東金融作為一家科技公司,對(duì)現(xiàn)有業(yè)務(wù)的拓展。TO G 的業(yè)務(wù)需求會(huì)著眼于交通、環(huán)境等等,這會(huì)反哺京東金融的科技公司屬性。
我們的定位是要成為國(guó)內(nèi)最好的智慧城市技術(shù)平臺(tái)和解決方案提供方,同時(shí)我們也希望成為產(chǎn)學(xué)研一體化的典范。
京東金融當(dāng)前的業(yè)務(wù)與城市計(jì)算最緊密的連接點(diǎn)在哪里?
智能商業(yè)。大家對(duì)城市計(jì)算了解得比較多的方面可能是環(huán)境、交通、規(guī)劃等,但其實(shí)智能商業(yè)也是城市計(jì)算的很大一部分。包括商業(yè)選址、地產(chǎn)價(jià)格評(píng)估,還有甚至幫銀行做一些 B 端的風(fēng)控等。
舉個(gè)例子,一個(gè)企業(yè)到銀行貸款,要蓋一個(gè)娛樂(lè)城,那銀行就要對(duì)這個(gè)項(xiàng)目進(jìn)行風(fēng)險(xiǎn)評(píng)估,確保到了還款時(shí)間能按時(shí)收回貸款。以前銀行的方法可能是去評(píng)估這個(gè)企業(yè)本身的一些征信資質(zhì),比如壞賬率,誠(chéng)信度等等。
但是企業(yè)資質(zhì)良好,不代表它開(kāi)發(fā)的每個(gè)項(xiàng)目都沒(méi)有風(fēng)險(xiǎn),因?yàn)檫@個(gè)風(fēng)險(xiǎn)不是企業(yè)本身決定的,而是由這個(gè)地方的發(fā)展環(huán)境和消費(fèi)水平?jīng)Q定的。這些東西只能從別的數(shù)據(jù)反映,銀行本身也沒(méi)有??梢詮捻?xiàng)目周邊居民的消費(fèi)水平反映,從人們出行的方式反映,從地區(qū)周邊的配套反應(yīng),甚至包括基礎(chǔ)設(shè)施比如路網(wǎng)、車站是不是變得越來(lái)越完善來(lái)反映,這些因素綜合決定了這個(gè)地域本身的發(fā)展程度。
這其實(shí)代表了城市計(jì)算的一個(gè)愿景,用多元的、不同的時(shí)空數(shù)據(jù)融合來(lái)做一些事情。不管是分析預(yù)測(cè),還是因果分析,還是異常檢測(cè),都能夠從更多維度、更準(zhǔn)確地進(jìn)行。
在京東金融的城市計(jì)算布局上你有怎樣的規(guī)劃?
我們的定位是要成為國(guó)內(nèi)最好的智慧城市技術(shù)平臺(tái)和解決方案提供方,同時(shí)我們也希望成為產(chǎn)學(xué)研一體化的典范。這兩點(diǎn)很重要,我們不希望只是一個(gè)工程公司,賺很多錢,而是希望真的作為一個(gè)科技公司,把產(chǎn)學(xué)研帶動(dòng)起來(lái)。這是國(guó)家一直強(qiáng)調(diào)的東西,只有這樣產(chǎn)業(yè)才有長(zhǎng)遠(yuǎn)的生命力。
這兩點(diǎn)定位之后,我們也就知道了應(yīng)該怎么做。一方面給國(guó)家相關(guān)機(jī)構(gòu)提供服務(wù),一方面給一些大型國(guó)有企業(yè)提供服務(wù),幫助他們解決行業(yè)痛點(diǎn),還有就是我們會(huì)跟高校進(jìn)行合作,建立一些人才聯(lián)合培養(yǎng)機(jī)制,聯(lián)合實(shí)驗(yàn)室,也會(huì)合作發(fā)表一些論文,攻克一些重點(diǎn)難題。我們這三方面會(huì)一起做。
至于布局,各個(gè)地方的業(yè)務(wù)需求是不一樣的,有些地方可能比較關(guān)心環(huán)境,有的地方可能比較關(guān)心交通,有的地方可能關(guān)心他們自己的經(jīng)濟(jì) GDP 問(wèn)題、脫貧問(wèn)題等等。所以我們會(huì)針對(duì)于各個(gè)地方的需求,盡量利用我們一個(gè)比較通用性的平臺(tái),來(lái)滿足各地差異的需求。
所以是要看具體的需求才能決定業(yè)務(wù)開(kāi)展的優(yōu)先級(jí)?還是已經(jīng)有規(guī)劃?
我們已經(jīng)有規(guī)劃,確定了大概哪幾個(gè)方向是一定要做的,先把它做起來(lái),然后根據(jù)各個(gè)地方的需求進(jìn)行定制化。交通、環(huán)境、規(guī)劃、智能商業(yè)這幾個(gè)方向是一定要做的。
是否有多長(zhǎng)時(shí)間推進(jìn)多少個(gè)城市這樣的計(jì)劃?
這種量化數(shù)字跟我們具體的團(tuán)隊(duì)和人數(shù)有關(guān)系。我覺(jué)得其實(shí)這不是重點(diǎn),我相信未來(lái)一段時(shí)間大家會(huì)看到我們更多的布局。
在城市計(jì)算這件事上,京東金融的優(yōu)勢(shì)是什么?
其實(shí)京東金融本身有海量的數(shù)據(jù)。根據(jù)最新財(cái)報(bào),京東集團(tuán)的活躍用戶已經(jīng)有 2.925 億。我們不僅有京東集團(tuán)的商城數(shù)據(jù),包括產(chǎn)品本身數(shù)據(jù)、用戶交易數(shù)據(jù)、物流數(shù)據(jù),還有京東金融本身的一些理財(cái)、支付和消費(fèi)數(shù)據(jù),構(gòu)成了一個(gè)很大的數(shù)據(jù)群體。
這些數(shù)據(jù)可以從側(cè)面描述城市的經(jīng)濟(jì)維度,甚至跟別的數(shù)據(jù)融合之后可以反映這個(gè)城市的發(fā)展趨勢(shì),因?yàn)椴牧蠘颖疽呀?jīng)足夠大。特別是還有物流的數(shù)據(jù)在里面,其實(shí)也反映了城市的一些動(dòng)態(tài)的韻律,跟城市和城市之間的一些消費(fèi)的交往,以及物流需求的一些往來(lái)。所以說(shuō)京東的數(shù)據(jù)是很好的,很難得的。
再就是京東集團(tuán)在地方上跟很多管理部門已經(jīng)形成了有效配合,它的渠道和品牌效應(yīng)可以幫助我們比較順利地開(kāi)展很多事情。
劣勢(shì)呢?
我覺(jué)得不能說(shuō)是劣勢(shì),就是我們未來(lái)會(huì)在哪方面進(jìn)行努力。我們會(huì)把科技含量提高,然后我們會(huì)跟更多的高校合作,跟政府和企業(yè)加強(qiáng)聯(lián)系合作。有了我們這個(gè)事業(yè)部之后,我相信城市計(jì)算這件事情會(huì)更加順暢,變得更好。
你剛剛說(shuō)到,京東金融在城市計(jì)算的智能商業(yè)領(lǐng)域有很好的條件,那在像環(huán)境、交通等領(lǐng)域,京東金融會(huì)怎樣參與?
首先,京東金融作為科技公司,我們用科技服務(wù)于各個(gè)其他的 B??梢允倾y行,也可以是有關(guān)主管部門,也可以是其下屬的大型國(guó)有企業(yè)。這樣的話我們就可以做交通服務(wù)、環(huán)境服務(wù),我們并沒(méi)有把自己限制在金融場(chǎng)景里面。
可能現(xiàn)在最初的一些項(xiàng)目是在與金融相關(guān)的消費(fèi)場(chǎng)景中,后面慢慢地我們會(huì)建立企業(yè)信用,做企業(yè)服務(wù),也會(huì)和政府有一些項(xiàng)目合作。再往后可能政府以外、金融以外的很多項(xiàng)目也都是我們希望做的。
所以,未來(lái)京東金融的定位是科技公司,其根本是 B2 B2 C 的模式。我們強(qiáng)調(diào)科技服務(wù),而不強(qiáng)調(diào)金融本身。以后大家會(huì)越來(lái)越發(fā)現(xiàn)這個(gè)趨勢(shì)。
京東金融的城市計(jì)算和阿里的城市大腦會(huì)有怎樣的不同?
對(duì)于其他公司我不作評(píng)價(jià)。我在這個(gè)領(lǐng)域的工作十幾年前就開(kāi)始了,這十幾年來(lái)也一直堅(jiān)持扎根在這個(gè)領(lǐng)域。我有這樣的一個(gè)情懷,希望能用畢生所學(xué)真正地服務(wù)中國(guó)。
這也是我出來(lái)最根本的原因。我只希望我們能夠?qū)崒?shí)在在地把城市中的問(wèn)題解決掉,幫助到城市建設(shè),同時(shí)我們也很愿意跟其他公司共同合作來(lái)推進(jìn)這個(gè)進(jìn)程。
所以您認(rèn)為城市計(jì)算的市場(chǎng)容量是很大的,合作大于競(jìng)爭(zhēng)?
對(duì),行業(yè)需求非常大,現(xiàn)在更多的應(yīng)該是推動(dòng)行業(yè)共同發(fā)展。另外,城市計(jì)算有它自己特殊的業(yè)務(wù)邏輯。要做城市計(jì)算這個(gè)行業(yè),其實(shí)不是那么容易,它有它的門檻。除了技術(shù)本身的門檻之外,還有業(yè)務(wù)邏輯和場(chǎng)景的門檻,還有地域的限制。這就導(dǎo)致了為什么到現(xiàn)在還沒(méi)看到一家特別大的城市計(jì)算公司。很少有人能夠做到這一點(diǎn),我們希望能夠做成這個(gè)最難的事。
城市計(jì)算問(wèn)題狀態(tài)空間大、動(dòng)作空間也大、還是一個(gè)開(kāi)放系統(tǒng),問(wèn)題解決起來(lái)比 AlphaGo 難多了。
城市計(jì)算問(wèn)題和其它人工智能相關(guān)問(wèn)題相比,有哪些特有的技術(shù)難點(diǎn)?
第一,城市計(jì)算是時(shí)空數(shù)據(jù),它不是一般的視頻圖像文本,它所用到的數(shù)據(jù)管理辦法和人工智能方法和其他問(wèn)題都不太一樣,不是說(shuō)拿一個(gè) CNN 或者 LSTM 就能解決的。它有自己特殊的時(shí)空屬性,包括時(shí)間的趨勢(shì)、周期和鄰近性,包括空間距離和空間層次性。這些特殊的時(shí)空特性用普通算法是抓不住的。
還有就是在真正的城市計(jì)算里面,會(huì)用到多個(gè)數(shù)據(jù)源,而不是單一數(shù)據(jù)源。比如剛剛我們說(shuō)到的娛樂(lè)城案例,需要用到 POI、路網(wǎng)數(shù)據(jù)點(diǎn),加上環(huán)境消費(fèi)等等很多種數(shù)據(jù),融合這么多數(shù)據(jù)才能判斷這個(gè)地方未來(lái)的變化。
多元數(shù)據(jù)融合本身就是一個(gè)難點(diǎn),在機(jī)器學(xué)習(xí)當(dāng)中也是一個(gè)相對(duì)比較新興的學(xué)科和研究方向。來(lái)自于不同領(lǐng)域的數(shù)據(jù)如何做到 1+1 大于 2 的知識(shí)發(fā)現(xiàn),這個(gè)其實(shí)是一件很困難的事情。
同時(shí),城市計(jì)算也不是一個(gè)簡(jiǎn)單的云計(jì)算問(wèn)題,現(xiàn)在云計(jì)算平臺(tái)對(duì)這種時(shí)空數(shù)據(jù)的支持都不足夠好。時(shí)空數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)查詢方法,以及剛剛說(shuō)的多元數(shù)據(jù)的融合、索引機(jī)制都不存在,所以市面上任何一家公司的云直接拿來(lái)做城市計(jì)算都不太合適。必須要經(jīng)過(guò)特殊的技術(shù)積淀,使得云能夠具備對(duì)時(shí)空大數(shù)據(jù)的管理、分析和挖掘能力,并且形成動(dòng)態(tài)閉環(huán),這非常難,門檻也很高。
所以最后會(huì)有一個(gè)京東金融城市計(jì)算云?
不,我們事業(yè)部不做云,我們希望讓市場(chǎng)上的云計(jì)算公司擁有挖掘分析城市大數(shù)據(jù)的能力??梢允蔷〇|金融自己的云,可以是微軟的云,也可以是騰訊的云,華為的云,都可以。我們會(huì)讓云廠家快速擁有對(duì)城市大數(shù)據(jù)的分析、挖掘和管理能力,并且能夠快速形成閉環(huán),做一些實(shí)時(shí)動(dòng)態(tài)的分析挖掘業(yè)務(wù)。這是我們的能力所在,也是我們的門檻。
能否舉例具體說(shuō)明一下城市計(jì)算之「復(fù)雜」?
我講個(gè)具體的例子,比如說(shuō)交通信號(hào)燈的控制問(wèn)題,就比其他任務(wù),比如 AlphaGo 要難太多。AlphaGo 是一個(gè) 19×19 的網(wǎng)格,每個(gè)格子上的狀態(tài)只有黑棋、白棋和沒(méi)棋三種,狀態(tài)空間就這么大。
但是和 19×19 個(gè)格子相比,整個(gè)北京的紅綠燈路口數(shù)量有幾萬(wàn),而且每個(gè)路口的狀態(tài)和動(dòng)作也會(huì)更多,比如這個(gè)道路的交通流量速度是 40 公里每小時(shí),另一個(gè)是 45,還有 30 的;信號(hào)燈的控制的變化可能是紅燈 30 秒,綠燈 20 秒,都是連續(xù)變量,這個(gè)空間狀態(tài)就比剛才的三個(gè)狀態(tài)要大多了。
而且很多數(shù)據(jù)是缺失的??赡苓@一時(shí)刻剛好這條路上沒(méi)有人,或者沒(méi)有車經(jīng)過(guò),或者沒(méi)有埋傳感器,那我們就拿不到這條路的數(shù)據(jù),拿到的是一個(gè)不完整的觀察。
另外,還有道路是一個(gè)開(kāi)放系統(tǒng),在圍棋里面,我說(shuō)一句話,在旁邊走兩步路,不會(huì)影響圍棋的結(jié)果。但是在道路上,有一個(gè)人過(guò)馬路,哪怕一條狗穿過(guò)馬路,都會(huì)改變道路的狀態(tài)。
所以城市計(jì)算問(wèn)題狀態(tài)空間大、動(dòng)作空間也大、還是一個(gè)開(kāi)放系統(tǒng),那問(wèn)題解決起來(lái)肯定比 AlphaGo 難多了。
我再舉個(gè)例子,城市人流量的預(yù)測(cè),我們把城市分成很多個(gè)網(wǎng)格,要預(yù)測(cè)每一個(gè)網(wǎng)格里面,未來(lái)會(huì)有多少人進(jìn)和出。
一個(gè)網(wǎng)格中的人流量既跟它自身前一個(gè)小時(shí)有多少人進(jìn)和出有關(guān)系,也跟他周邊那些鄰居格子有多少人進(jìn)和出有關(guān)系,因?yàn)橛腥藭?huì)從旁邊過(guò)來(lái)。還跟離格子很遠(yuǎn)的地方,某個(gè)區(qū)域的人的進(jìn)和出有關(guān)系。因?yàn)楫?dāng)你這里有大事情發(fā)生的時(shí)候,會(huì)有很多人從很遠(yuǎn)的地方,坐地鐵從地下鉆出來(lái),這個(gè)時(shí)候你如果只是靠網(wǎng)格周邊的人員變化,就不能捕捉到大事情發(fā)生時(shí)的異常,就像一些地方發(fā)生的踩踏事件一樣。
如果你想對(duì)每一個(gè)格子都能準(zhǔn)確預(yù)測(cè)人流量,也就意味著你要把城市的所有其他格子的狀態(tài)都作為輸入,來(lái)預(yù)測(cè)這個(gè)變化。而且格子和格子之間是相互依賴的,你不能說(shuō)我先做 A 格子再做 B 格子。因?yàn)?A 格子進(jìn)入了多少來(lái)自 B 格子的人,也就意味著 B 格子出來(lái)了多少人到 A,這是一個(gè)相互的東西,所以要同時(shí)做。如果你把每個(gè)格子單獨(dú)拿出來(lái)做,那這個(gè)模型會(huì)相對(duì)簡(jiǎn)單,可是你發(fā)現(xiàn)這樣做出來(lái),總?cè)藬?shù)加到一起可能都不等于全城總?cè)藬?shù)。
要把這么多格子一起做起來(lái)的話,有一個(gè)傳統(tǒng)的方法,就是用 graphic model,把每個(gè)格子當(dāng)作一個(gè)節(jié)點(diǎn),每個(gè)格子跟其他格子建立邊的關(guān)系,那這個(gè)復(fù)雜度就非常非常高了,所以以前的機(jī)器學(xué)習(xí)根本做不了,直到現(xiàn)在深度學(xué)習(xí)出來(lái)之后,才有解決方案。
除了格子本身的數(shù)據(jù)之外,還有天氣、事件等能夠影響人流量的數(shù)據(jù),都是要?jiǎng)討B(tài)輸入的。這么多數(shù)據(jù),需要在秒級(jí)或者分鐘級(jí)得出結(jié)果。比如交通量預(yù)測(cè),或者預(yù)警任務(wù),對(duì)時(shí)效性要求很高。這么多數(shù)據(jù)的處理,沒(méi)有特殊的方法的話,可能一個(gè)小時(shí)過(guò)去了,特征都沒(méi)提完。
現(xiàn)在我們看像人臉識(shí)別這樣的任務(wù),就是一張圖片和特征,是單一數(shù)據(jù)源的單一樣例,而城市計(jì)算是多個(gè)數(shù)據(jù)源的多個(gè)樣例,所以復(fù)雜度是不在同一個(gè)量級(jí)上的。
京東金融在計(jì)算資源上的投入一定很大。
我們有一些特殊的方法,如果沒(méi)有很好的方法的話,那就只能靠堆機(jī)器,必然是不可行的,對(duì)國(guó)家資源也是一種浪費(fèi)。我們用特殊的方法,結(jié)合分布式技術(shù)和時(shí)空索引技術(shù),能夠用十分之一的機(jī)器實(shí)現(xiàn)十倍的效率。
說(shuō)到踩踏事件,當(dāng)時(shí)你發(fā)微博說(shuō)可以用城市計(jì)算解決這個(gè)問(wèn)題,最終還發(fā)了一篇論文,但是受到了很大的爭(zhēng)議,說(shuō)是在蹭熱點(diǎn),你本人對(duì)這件事怎么看?
當(dāng)時(shí)我在微博上說(shuō),完全可以通過(guò)大數(shù)據(jù)和人工智能方法提前預(yù)測(cè),加強(qiáng)管控,避免踩踏。有些人支持我,相信我一定能把這個(gè)問(wèn)題解決掉。也有一撥人說(shuō),「這個(gè)東西根本就不需要你預(yù)測(cè),誰(shuí)都知道會(huì)有很多人來(lái)?!?/p>
但其實(shí)仔細(xì)想一想,很多人是多少人?50 萬(wàn)人很多,100 萬(wàn)人也很多??墒菓?yīng)對(duì) 100 萬(wàn)人和 50 萬(wàn)人的安全級(jí)別戒備是完全不一樣的。另外,就算你知道 100 萬(wàn)人要來(lái),那這 100 萬(wàn)人是分成五個(gè)小時(shí)均勻來(lái),還是說(shuō)在某兩個(gè)小時(shí)峰值到達(dá)?這兩種情況所采取的安全措施也是完全不一樣的。所以只能大概知道有很多人要來(lái),但不知道會(huì)有多少人、具體什么時(shí)候來(lái)。這個(gè)時(shí)候就需要用技術(shù)的方法來(lái)解決。
現(xiàn)在,我們可以預(yù)測(cè)各地區(qū)的人流進(jìn)和出,能夠提前幾個(gè)小時(shí)告訴城市主管部門,這邊可能會(huì)有問(wèn)題,你可以加強(qiáng)管控,提前預(yù)防,比如通過(guò)媒體通知疏散人流。這些事情一定是越早做越好,人家都來(lái)了,你再讓人家回去,這也不現(xiàn)實(shí)。
城市計(jì)算已經(jīng)在我們的實(shí)際生活中解決了哪問(wèn)題?
很多,比如 2014 年我給環(huán)保部做的霧霾預(yù)測(cè),那段時(shí)間是北京空氣越來(lái)越糟糕的時(shí)候,我們定義了問(wèn)題。
第一,怎么根據(jù)環(huán)保部門設(shè)立的這些有限的空氣質(zhì)量監(jiān)測(cè)站點(diǎn),把那些沒(méi)有監(jiān)站的地方的空氣質(zhì)量給估計(jì)出來(lái)。
城市空氣是不均勻的,空氣質(zhì)量會(huì)受很多復(fù)雜因素的影響,包括周邊交通流量,周邊是否有廠礦,擴(kuò)散條件怎么樣,是公園綠地還是建筑群等等。這些東西都不是線性的,不是均勻變化的,甚至每個(gè)小時(shí)差異都特別大。
環(huán)保部門只設(shè)立了有限個(gè)監(jiān)測(cè)點(diǎn)。為什么不多建?因?yàn)檎军c(diǎn)很貴,一個(gè)國(guó)產(chǎn)的站點(diǎn)大概需要 100 萬(wàn)人民幣,進(jìn)口的要 200 萬(wàn)人民幣的樣子。而且還要維護(hù),站點(diǎn)的占地面積還蠻大的,它不是一個(gè)小盒子就可以做的,一定是要在一個(gè)大的地方部署一個(gè)很大的設(shè)備才能做這件事情。如果真的在北京每一平方公里都放這樣一個(gè)設(shè)備的話,大概需要 3000 多個(gè)站點(diǎn),根本沒(méi)法維護(hù),所以只能設(shè)立有限的站點(diǎn)。
站點(diǎn)有限,空氣質(zhì)量又不均勻,那怎么辦?只能用人工智能和大數(shù)據(jù)的方法,結(jié)合交通氣象以及地理信息的變化來(lái)學(xué)習(xí)。這就是一個(gè)非常典型的半監(jiān)督學(xué)習(xí)的案例,只用有限的樣本,來(lái)推斷所有地區(qū)的空氣質(zhì)量。
這是第一步,然后第二步還要預(yù)測(cè),剛剛是搞清楚現(xiàn)狀,現(xiàn)在是預(yù)測(cè)未來(lái)??諝赓|(zhì)量會(huì)受天氣的影響,受地區(qū)綠化的影響,受人類地面活動(dòng)排放的影響,所以看天、看地、還要看人。
另外,我們拿到的天氣預(yù)報(bào)的數(shù)據(jù)都是不準(zhǔn)確的,現(xiàn)在天氣預(yù)報(bào)的準(zhǔn)確率只有 40% 左右,你的模型要在很多這種不確定的數(shù)據(jù)上訓(xùn)練,大數(shù)據(jù)和人工智能就有這種能力,把很多不確定的數(shù)據(jù)加在一起,形成確定的數(shù)據(jù);把很多稀疏的數(shù)據(jù)疊在一起,得到一個(gè)明確答案。
這篇論文我們發(fā)表在 KDD 2013 上,是領(lǐng)域內(nèi)第一篇用大數(shù)據(jù)做空氣質(zhì)量分析和預(yù)測(cè)的文章,引用率特別高。同時(shí)技術(shù)也已經(jīng)落地,已經(jīng)覆蓋到中國(guó) 300 多個(gè)城市。
像今年過(guò)年某些地區(qū)游客滯留這件事情,能夠怎樣通過(guò)城市計(jì)算進(jìn)行解決?
游客滯留是一大類問(wèn)題,大家在某段時(shí)間大家扎堆過(guò)去,但是景區(qū)旅客接待能力不足,或者說(shuō)運(yùn)力不足導(dǎo)致游客滯留在某地,不能及時(shí)返回。這個(gè)問(wèn)題是我一直想做的問(wèn)題,我覺(jué)得很有意思。
國(guó)家旅游局希望能夠預(yù)測(cè)未來(lái)一段時(shí)間,比如黃金周,各個(gè)景點(diǎn)的人數(shù)。你如果只是把某個(gè)地區(qū)單獨(dú)拎出來(lái),根據(jù)往年數(shù)據(jù)來(lái)看,預(yù)測(cè)一定不準(zhǔn)。為什么?因?yàn)檫@是一個(gè)相關(guān)性問(wèn)題??赡芮耙荒耆ミ@個(gè)地方的人很多,第二年就沒(méi)人去了??赡芡蝗荒硞€(gè)景區(qū)火了,帶動(dòng)了鄰近的景區(qū)。還有一些景色相似的地區(qū),比如一個(gè)地區(qū)出現(xiàn)問(wèn)題了,大家都不去了,導(dǎo)致去另一個(gè)相似地區(qū)的人突然變多了?;蛘叱鰢?guó)便宜了,出國(guó)游的人變多了,國(guó)內(nèi)游的人就變少了。原因有很多,不能單獨(dú)看,要多維度聯(lián)動(dòng)一起看。這些維度有些是關(guān)聯(lián)存在的關(guān)系,有些是增強(qiáng)關(guān)系,有些是互相的排斥關(guān)系,都要搞清楚。
一個(gè)厲害的人大概同時(shí)能把十個(gè)項(xiàng)目撐起來(lái),而一個(gè)平庸的團(tuán)隊(duì)可能鋪一百個(gè)人下去,也討論不出來(lái)一個(gè)結(jié)果。
目前城市計(jì)算所面臨的最主要的挑戰(zhàn)是什么?
缺數(shù)據(jù)科學(xué)家。很多人覺(jué)得自己已經(jīng)將 AI 掌握得很成熟,算法研究的很好,但這不代表他能夠解決行業(yè)問(wèn)題。要解決行業(yè)問(wèn)題,還需要對(duì)行業(yè)本身的了解。
舉個(gè)例子,比如說(shuō)空氣質(zhì)量分析和預(yù)測(cè)工作,你必須知道是什么因素導(dǎo)致了空氣污染,這樣才能想到用什么樣的數(shù)據(jù)來(lái)分析和預(yù)測(cè)。當(dāng)反映某個(gè)因素的數(shù)據(jù)不存在的時(shí)候,你要想是不是能夠有別的數(shù)據(jù)來(lái)替代。還有這個(gè)行業(yè)里面的傳統(tǒng)方法是什么樣子?有什么樣好的思想可以借鑒?有什么地方是不行的?為什么不行?我們要怎樣做才能讓它行?你的方法比原來(lái)的方法好在哪里?這些問(wèn)題都要搞得很清楚。
否則即便你做出一個(gè)東西,看起來(lái)模型結(jié)果比較好,行業(yè)的人不見(jiàn)得會(huì)認(rèn)可你。因?yàn)槟阒v不清楚,你沒(méi)有跟別人溝通的語(yǔ)言。業(yè)務(wù)場(chǎng)景是在別人那,你最終要落到業(yè)務(wù)場(chǎng)景里去。
比如我接到過(guò)的城市需求是發(fā)展大數(shù)據(jù)產(chǎn)業(yè)。你要自己找到問(wèn)題,比如充電樁選址是個(gè)問(wèn)題,你要提出方法,用什么數(shù)據(jù),怎樣實(shí)現(xiàn)。在這方面北京和上海會(huì)好一些,但是如果我們要求全國(guó)各城市都具備計(jì)算機(jī)問(wèn)題的分析能力,那要求太高了。政府是城市管理部門,不是科研部門。
所以現(xiàn)在我不擔(dān)心硬件不發(fā)達(dá),或者算法上不去,或者算法本身研究不出來(lái),這都不是問(wèn)題,我相信總會(huì)有突破。怎樣把這些 AI 大數(shù)據(jù)人工智能算法跟行業(yè)的問(wèn)題對(duì)接,是需要一大批數(shù)據(jù)科學(xué)家來(lái)支撐的。
合格的數(shù)據(jù)科學(xué)家需要有怎樣的特質(zhì)?
既要深度地了解行業(yè),也需要懂?dāng)?shù)據(jù)背后的知識(shí),而不是數(shù)據(jù)表面的格式。要懂各種各樣的模型,不單單要具備底層的機(jī)器學(xué)習(xí)能力,還要有可視化、數(shù)據(jù)管理能力。他要懂得云平臺(tái)怎么用,因?yàn)樽詈螽a(chǎn)品會(huì)落到云平臺(tái)上來(lái),做一個(gè)好的數(shù)據(jù)科學(xué)家是站在云平臺(tái)上看問(wèn)題,想數(shù)據(jù)關(guān)聯(lián)模型,把模型有機(jī)地組合到一起,部署到我們的云平臺(tái)上。
我覺(jué)得以后我們國(guó)家要加大力培養(yǎng)數(shù)據(jù)科學(xué)家,而不是簡(jiǎn)單地培養(yǎng) AI 人才。在學(xué)校里上幾門課,學(xué)學(xué)算法,學(xué)學(xué)工具,這些都不難。難的是學(xué)了之后要到各行各業(yè)里面去工作,解決行業(yè)問(wèn)題,這中間有很高的門檻。這種經(jīng)驗(yàn)的積累不是在學(xué)校里能夠?qū)W得到的,需要靠數(shù)據(jù)和項(xiàng)目去喂養(yǎng),在實(shí)戰(zhàn)中去修煉。
所以我很鼓勵(lì)高校的一些學(xué)生,特別是高年級(jí)的研究生們,能夠多出來(lái)接觸實(shí)際的企業(yè),看到實(shí)際的問(wèn)題,用真實(shí)的數(shù)據(jù)做一些東西。除了理論研究之外,我們也可以看看這個(gè)研究怎么落地應(yīng)用,并從中得到一些反饋,同時(shí)你也會(huì)發(fā)現(xiàn)新的問(wèn)題,甚至可能是核心的研究問(wèn)題,是以前沒(méi)想到的問(wèn)題。所以我覺(jué)得這是一個(gè)產(chǎn)學(xué)研一體化的東西。
我們需要多長(zhǎng)時(shí)間才能擁有足夠多的數(shù)據(jù)科學(xué)家?
按照以往經(jīng)驗(yàn)的話,7 到 10 年培養(yǎng)這樣的一個(gè)人。五年的博士加上兩年的工作經(jīng)驗(yàn),如果博士全在學(xué)校里面,那可能還不行。
我發(fā)現(xiàn)在我?guī)У膶W(xué)生里面,有很多人有這樣的問(wèn)題。你給他培訓(xùn)得很細(xì)致,讓他做了很多項(xiàng)目,但是他沒(méi)有環(huán)境轉(zhuǎn)換能力,換了就不懂。因?yàn)樗麤](méi)有快速的學(xué)習(xí)能力、高度的抽象能力、以及舉一反三的能力。這可能跟悟性是有關(guān)的,還需要數(shù)據(jù)敏感性。有的人一看到問(wèn)題,馬上就能想到什么數(shù)據(jù)可以反映這個(gè)問(wèn)題,但很多人就很難建立這個(gè)思路。
比如他看到出租車數(shù)據(jù)就想到出租車,想不到可以變成車流、人流,還能反映區(qū)域的經(jīng)濟(jì)、交通環(huán)境的變化。這個(gè)思路穿過(guò)來(lái)之后,就能用領(lǐng)域 A 的數(shù)據(jù)解決領(lǐng)域 B 的問(wèn)題。
這個(gè)真的是看悟性,有時(shí)候你教都教不來(lái)。我從這么多的學(xué)生中觀察,成才率很低。培養(yǎng)數(shù)據(jù)分析師很容易,可能數(shù)據(jù)分析師國(guó)家有幾千幾萬(wàn)名,但是數(shù)據(jù)科學(xué)家真的非常少。所以說(shuō)中國(guó)一定要加大力度培養(yǎng)這種人才,才能在世界上立于不敗之地。
在這方面我們的團(tuán)隊(duì)還好,因?yàn)槲覀儓F(tuán)隊(duì)已經(jīng)磨合了很多年了,在這個(gè)方向我們也研究了很久,經(jīng)驗(yàn)積累比較多。然后我自己學(xué)生跟我讀書(shū)也讀了四五年的博士,所以相對(duì)來(lái)說(shuō)他們是有一些經(jīng)驗(yàn)的。
一家公司想做城市計(jì)算的話,需要有怎樣的素質(zhì)?
我覺(jué)得需要有數(shù)據(jù)和團(tuán)隊(duì)。首先,做城市計(jì)算需要有良好的數(shù)據(jù)基礎(chǔ)和數(shù)據(jù)資源。大家都以為政府?dāng)?shù)據(jù)特別多,但其實(shí)不是這樣的,很多時(shí)候政府也需要行業(yè)數(shù)據(jù)來(lái)支撐他們的決策,共同解決問(wèn)題。
還有一個(gè)就是團(tuán)隊(duì)。其實(shí)我覺(jué)得人才是最關(guān)鍵的,現(xiàn)在都說(shuō) AI 大戰(zhàn)其實(shí)是人才大戰(zhàn)。但不是說(shuō) AI 比賽是千軍萬(wàn)馬的比賽,不是說(shuō)我有一百個(gè)人就比你十個(gè)人要厲害。很多時(shí)候能不能解決問(wèn)題,往往靠一個(gè)人靈光一現(xiàn)。比如說(shuō)問(wèn)題卡在那,某一種數(shù)據(jù)缺失,怎么想都搞不定。這種時(shí)候往往是靠某一個(gè)人靈光一閃,發(fā)現(xiàn)另外一種數(shù)據(jù),通過(guò)怎樣的轉(zhuǎn)變,怎樣的使用就能解決問(wèn)題了。當(dāng)幾個(gè)看上去沒(méi)用的數(shù)據(jù)組合在一起的時(shí)候,在一種特殊場(chǎng)景和模型下面,能夠發(fā)揮出一些意想不到的優(yōu)勢(shì),這就是人才的作用。
一個(gè)厲害的人大概同時(shí)能把十個(gè)項(xiàng)目撐起來(lái),而一個(gè)平庸的團(tuán)隊(duì)可能鋪一百個(gè)人下去,也討論不出來(lái)一個(gè)結(jié)果。所以 AI 真的不是一個(gè)靠千軍萬(wàn)馬過(guò)河的學(xué)科。京東在這方面已經(jīng)意識(shí)到了戰(zhàn)略儲(chǔ)備的重要性,也在花大力氣投入引進(jìn)尖端人才。