「對于創(chuàng)業(yè)者來說,你每年都得升個級,如果一次升級被卡住了,你的公司就卡住了。」
伴隨著互聯網時代而來的,是鋪天蓋地的數據。風口之上,行業(yè)內的大數據公司不斷沉淪起伏,都想殺出一條血路。
創(chuàng)業(yè)七年時間,在國內大數據公司 TalkingData CEO 崔曉波的眼中,領域內的廝殺已經異常殘酷?!高@已經不是小公司的游戲了,而是一場大公司間的絞殺,甚至是一種贏者通吃的局面?!?/p>
而在這樣的大環(huán)境之下,TalkingData 發(fā)展迅猛,不僅服務于 12 萬款移動應用與 10 萬多應用開發(fā)者,還深入多個垂直行業(yè),并且邁過了 C 輪融資,估值接近 60 億元,步入行業(yè)獨角獸行列。
「其實我們從創(chuàng)業(yè)至今也并沒有在某一個時刻把落點看清楚,而是不斷往前去嘗試而已?!?/p>

初探行業(yè)壁壘
從最初的學生生涯到之后的外企經歷,再到 2011 年創(chuàng)立 TalkingData,你在不同階段對「數據」一詞的認知產生了怎樣的變化?
這是一個角度特別的好問題,這里面有一個規(guī)律是「越早越接近本質」。
舉例來說,我在 1993 年進入南開大學學習信息管理,是與計算機相關的專業(yè)。其實在那個時候,計算機電腦處于早期發(fā)展階段,并沒有數據這個概念,讓我們有機會見證奇跡。
以往,人們做記錄是把文字內容寫在紙上或者筆記本里,信息分享要通過抄寫。后來出現了 Word 這類自處理軟件,分享只需拷貝文件就行了?,F在看來這是一件特別平常的事,但在當時卻是一個跨時代的轉變。所以我認為最早跟數據相關的概念首先是存儲,存儲的東西是什么?是文件。
那為什么說越早越接近事物的本質呢?
念書的時候我們開始研究計算機的操作系統(tǒng),眼中看到的不是文件,而是二進制。人們可能很難理解數據存儲是什么,因為數據就是這樣一個抽象的表達形式。
我畢業(yè)參加工作之后,一個最重要的變化就是出現了數據庫,也真正有了數據的概念。那時候存在數據庫里的東西才叫數據。最早的數據庫都是關系型數據庫,這是一個偉大的發(fā)明。關系型數據庫是數據發(fā)展的第二個階段。
在這之后,人們發(fā)現單純把數據存儲下來是不夠的。所以第三個階段就是 BI(商業(yè)智能),從數據角度來說的另一個表述形式就是數據倉庫。數據倉庫并不只是存取數據,更關心的是數據對商業(yè)的價值。因此那時針對數據倉庫出現了數據挖掘技術。
到了互聯網時代,「數據」的概念又進化了,出現了「大數據」的概念,只有互聯網的數據,不管是在維度、體量還是價值上才稱得上是大數據。無論是從親歷者還是觀察者角度出發(fā),這個領域的發(fā)展歷程可以總結為四個階段:文件、數據庫、數據倉庫、大數據。
身處數據概念發(fā)展變遷的過程中,是什么契機促使你決定創(chuàng)業(yè)建立 TalkingData 這樣一家公司?
我在以前的工作經歷中做了許多數據分析和數據挖掘的相關工作。我慢慢意識到,從業(yè)務角度出發(fā),傳統(tǒng)的數據庫公司遇到了很多瓶頸。
那時做的數據庫叫集群系統(tǒng),但即使是當時世界上最大的一個集群節(jié)點,在支持到幾億用戶的時候,就已經到上限,不可能再突破了??梢园l(fā)現,當數據量劇增,傳統(tǒng)的數據庫和數據倉庫技術便很難支撐了。
所以從技術的發(fā)展來看,我們認為必然會有一波新的技術浪潮涌現,取代這種集中化的數據管理技術。在這之后,開源社區(qū)出現了 Hadoop 這樣的分布式文件存儲基礎架構,它們的核心思想不再是把數據集中進行處理,而是用無數分布式的小單元分開去存儲、計算數據。
再就是從數據源的角度去看問題。企業(yè)數據的類型都是靜態(tài)的,并且類型非常有限。而在互聯網時代,大量全新的數據類型不斷出現,包括用戶的點擊、瀏覽歷史、購買記錄等行為數據。這些行為數據帶來潛在的商業(yè)價值,需要用新的技術挖掘這些新的行為數據。這是一個很大的趨勢。
而之后的移動互聯網對于我們來說才是一個巨大的機會。
智能手機是一個可以隨身攜帶的設備,人類歷史上第一次出現了一種類似于人體器官、走到哪跟到哪的設備,這種設備可以時時刻刻忠實地記錄人們的線上行為以及線下位置等。我們意識到,移動互聯網的時代會讓數據的體量、維度、價值呈指數級爆發(fā),這就是我們創(chuàng)立 TalkingData 的最大契機。
在看到智能手機將成為未來數據發(fā)展的關鍵點之后,你做了什么事情?
2009 年,我加入了一家做手機應用的創(chuàng)業(yè)公司。在那段時間中,我們注意到手機的功能在不斷變化,而且迭代速度特別快。從一開始只有打電話、發(fā)短信這樣的功能,到后來各色應用的出現,覆蓋衣食住行,涉及的數據也越來越多。
與此同時,隨著海量的 APP 誕生,開發(fā)者這個群體開始出現。開發(fā)者需要數據庫,但由于他們一般都是創(chuàng)業(yè)公司或者小團隊,可能沒有能力開發(fā)成熟的數據平臺,就需要找到第三方來提供這方面的服務,這也是我們的機會。
那么在決定創(chuàng)業(yè)之后,TalkingData 最初鎖定的商業(yè)模式是什么,之后是否經歷過調整?
其實在創(chuàng)業(yè)七年的過程中我們一直都是在探索,并沒有在某一個時刻把落點看清楚了,而是不斷往前去嘗試而已。
最早我們給開發(fā)者提供 SaaS 服務,開發(fā)者可以將數據傳到我們的平臺上,之后我們對數據進行各種標準化、清洗以及處理計算,進而形成數據指標,再形成數據報表系統(tǒng)。
但在中國做 SaaS 服務非常難。大企業(yè)不愿意把數據放在一個移動化平臺上面,而是更傾向于自己管理;小微企業(yè)愿意為 SaaS 服務買單,但小微企業(yè)存活率非常低,要不斷的尋找新客戶,獲客成本非常高。
第二個階段,我們做的更多的是 On-Premise 模式,就是為企業(yè)客戶提供軟件平臺。這種模式的最大弊端在于大客戶的定制化程度高,項目壓力大,也很難盈利。
其實可以發(fā)現,這兩種服務模式的最大問題是都沒有核心的壁壘。行業(yè)競爭逐漸加劇,盈利不斷降低,那這樣的業(yè)務模式就跑不通了。
我們就開始反思,為什么二十年前這樣的模式曾經可行,現在卻不行了呢?其實一句話就可以說明白:那個時代過去了。
現在軟件已經不是一種稀缺資源,而是進入一個供給充足的時代了。
那核心的東西是什么?這是一個數據時代,最核心的東西是數據,最稀缺的也是數據。需要的是一個以數據為核心的整合能力。只有基于數據構建能力,同時擁有高質量的軟件系統(tǒng)以及專業(yè)的服務團隊,才能贏得客戶,這是我們所選擇的模式。
建立數據中臺
反思過后,公司的技術策略和路徑開始走向何處?
2013 年左右,我們開始進入金融領域,客戶包括國有銀行、股份制銀行、券商等。那時我們在垂直行業(yè)的擴張進程非???,除了金融,我們還進入了零售、地產、快銷、航旅等,可以說是勢如破竹。
但業(yè)務沖得很快的同時,問題也來了。我們遇到了瓶頸,首先是產能不足、效率不夠高,第二是高附加值的數據服務不太多。我覺得這樣的模式對公司來說競爭力不太穩(wěn),容易變成傳統(tǒng)的以人力為核心的公司。
所以經過反思,到 2016 年我們就開始收斂,最大變化就是將原本分散在各個業(yè)務單元里的研發(fā)和產品人員集中起來,服務我們的「數據中臺」。目前,這個團隊的人員占公司整體員工數的近一半。
我們有兩個數據科學團隊,一個是領域數據科學團隊,他們幫助行業(yè)客戶構建所謂的算法模型甚至數據科學工具;另一個則是做數據中臺的數據科學團隊,他們注重的是提高數據質量、實現算法糾偏、提升預測模型準確率等工作。
能否展開講講這個數據中臺?
這個數據平臺的核心就是起兩個作用。
第一是聚合所有的數據。不僅要對開放的數據源做進一步技術處理,也要與許多數據源合作伙伴展開深度合作。這樣一來,才能打通數據,將數據關聯在一起,并且提供統(tǒng)一的建模環(huán)境,進而給上層的模型開發(fā)商和數據應用開發(fā)商使用。
第二是要提供大量共享的數據服務和工具,例如人群畫像、標簽管理等服務,還有建模、報表等工具。
其實數據中臺的概念更多是由「共享」推動而產生的。既然行業(yè)對數據、數據服務、數據工具有著同樣的需求,而我們在服務行業(yè)客戶時的很多數據、工具、能力也是相通的,那不如就打造一個共享的平臺。
數據中臺是為上層提供能力的。它上面有兩層,第一層是數據應用,或者說是數據模型,再往上一層叫解決方案。
根據我們的判斷,眼下尚處于大數據變現的早期階段,所以大量客戶比較認可的價值還是屬于數據應用和解決方案。而在未來,隨著大數據領域不斷向前發(fā)展,對數據平臺、數據服務的認可和相應的營收都會提升。
為了實現這一點,我們會采取哪些措施?
賦能。
我們現在會開放我們的建模環(huán)境,把很多聚合好的數據能力開放給上層的數據建模合作伙伴,在更豐富的場景下進行數據挖掘。相比之下,他們更懂業(yè)務,也有更多的應用場景,能夠幫我們把底層的數據服務和數據標簽提煉好,然后再開放出去。
升級合作模式
所以在 TalkingData 的眾多數據服務產品線中,想最早打開局面的那盤棋是什么?
這也是個好問題,很多人也問,到底應該怎么做。我們公司采用的方式是先做解決方案。
每當我們進入一個領域的時候,第一個 KA(Key Account,關鍵客戶)一般我們都不會考核盈利,而是先找出一些產出標準化數據產品的機會。
國內外有沒有哪些公司在跟我們走一樣的路?
其實大數據領域有很多公司的商業(yè)模型都是有點像的,但與我們 TalkingData 不太像。對我們來說,核心壁壘在于數據中臺形成業(yè)務閉環(huán),并與上層的合作伙伴實現共贏。我們的業(yè)務模型是往這方面走的,不是單純的提供服務或者工具。
去年開始,TalkingData 對合作模式了調整,開始傾向于與 KA(關鍵客戶)達成成效合作??煞窠榻B一下?
我們發(fā)現成效合作是一種更為先進的合作形態(tài)。如果合作沒有出效果,客戶為什么持續(xù)性投入?
例如我們與一家零售企業(yè)合作。他們的訴求比較簡單,公司的線上業(yè)務收入比較低,銷售主要靠線下門店。他們與我們合作線上業(yè)務,如果能產生成效就與我們按銷售額分成。
其實成效合作對幾個方面的能力有較強要求。
第一是不僅要為客戶提供平臺,還要提供運營團隊。一般客戶的運營和數據分析的能力相對一般,我們會派團隊進去幫他們把最基本的運營體系建立起來,包括如何利用數據鎖定目標人群、利用數據策劃活動、利用數據鑒定模型等。然后再在每次活動后看效果,包括獲客成本是否降低、個體收益是否提升,也要看客戶生命周期價值。
另一方面,還要具備自動化流程的能力。剛進入一個領域時,會發(fā)現有特別多的環(huán)節(jié)都需要人來決策,而我們的的算法和模型團隊會讓固化的模型去替代人做決策,這不僅是人力成本的降低,也是效率的提升。
例如,我們有一個客戶在發(fā)起營銷活動時,以前相同的配置只能做 50 個活動,但現在能做 500 個活動,這種效率提升也是一種收益。
鎖定行業(yè)領域
目前看來,TalkingData 聚焦的金融、零售、營銷、智慧城市等都是數據流動性強、相對高頻的領域。在你眼中,具備哪些特質的行業(yè)應用,可以讓其數據價值和潛力可以最大程度地發(fā)揮?這中間經歷了怎樣的取舍與漸進?
其實我們更重視的是數據能不能形成產品和模型。
例如,零售領域中有大量做算法應用的場景。以選址為例:以前的選址是完全基于人工的選址,但現在基于算法可以比人更高效、更精準,還可以做預測。此外,還可以通過模型來整合運營、電控、銷售等數據,這樣一個簡單的場景所形成的閉環(huán)也非常具備價值。
金融領域也是一樣。反欺詐模型可能很成熟了,但在營銷模型、貸后模型上還有很大的發(fā)展空間,這也是形成數據產品的機會。
在政府方面也是如此。我們與統(tǒng)計局、旅游局合作開發(fā)人口模型,后面有很多種數據源,要做很多次模型的校準和比對。一旦模型形成,會發(fā)現模型有很多可以開放共享的部分,它會沉淀到我們的數據中臺里,在其他應用場景中發(fā)揮作用。
總而言之,我們重視的是將利用數據形成的智能沉淀下來。
公司是否對其他領域有所布局?
第一是醫(yī)療領域。雖然目前發(fā)展相對較慢,但是這是有潛力的領域,我們也做了一些投資。
其次是制造業(yè),我們也在與制造業(yè)的頭部企業(yè)溝通合作,考慮能否在工業(yè)生產線中做出標準化、規(guī)?;漠a品。
還有,我們很關心如何搭建一條中美之間的橋梁。
中國有非常好的應用,有實際待解決的問題,也有與這些問題相關的數據,但缺乏相關技術和有經驗的數據科學家。而美國有非常好的數據科學人才,有很多行業(yè)應用經驗的知識儲備。那么如何構建平臺來溝通二者呢?我們想做一個平臺讓全球的科學家?guī)臀覀兘鉀Q問題。
2018 年已經過去一半,對于公司來說,這期間最重要的一個改變或關鍵詞是什么?
數據產品。
以前我們的數據并沒有形成產品,這半年我們做一件事,就是數據產品化,不管是數據服務還是數據模型,都是往產品方面做。
公司的下一個階段最核心的發(fā)展關鍵是什么?
發(fā)展合作伙伴。我們的中臺能力已經具備了,也聚合了各種數據源、發(fā)布了一些數據應用。希望發(fā)展更多的數據合作伙伴,把上層的應用場景做大。
回顧來時之路
那么回顧 TalkingData 這一路走來,公司經歷過的最大阻礙是什么?如何解決的?
首先我個人的經歷比較特殊。我在外企工作的 8 年時間里,是從前端的售前逐步走向了后端的研發(fā),而不是常見的從后端到前端。
從創(chuàng)業(yè)者的角度來看,每年都得給自己升個級。其實剛創(chuàng)業(yè)的時候,我滿腦子都是技術。技術架構怎么搭?用哪些開源組件?用哪個框架、數據庫解決問題?……開始的兩年想的就是這些。
但是后來會發(fā)現,除了技術之外,產品也很重要。用戶體驗怎樣?市場定位準不準?與競品的競合策略?如何實現差異化?……這些問題開始變得很重要。
再之后,技術、產品差不多了,會發(fā)現銷售和市場能力又變得很重要,公司品牌也得提升。
再后來資本能力、政府關系等方面的重要性也體現出來。
總結下來,創(chuàng)業(yè)企業(yè)每年都得升級,這也是在中國創(chuàng)業(yè)和在美國創(chuàng)業(yè)的不同之處。如果一次升級被卡住了,這家公司就卡住了。所以有的創(chuàng)業(yè)公司規(guī)模過不了 100 人,有的過不了 200 人,有的到不了 500 人,隨著規(guī)模的上升,管理能力也要上升,這都得學習。
所在你看來,大數據智能分析領域的最大技術門檻在哪里?在數據行業(yè),業(yè)務突破上的核心要素到底是什么?TalkingData 的競爭力又在哪里?
布局能力還是很重要的,我們一直在嘗試著比別人看得更遠一點。
很多創(chuàng)業(yè)者看得比較近,更多是看半年、一年內的事情。也有很多 toB 的公司把目光更多放在盈利上。這樣么做的問題在哪?短期可能沒問題,但長期來看公司的產品能力和平臺能力并沒有得到提升。
TalkingData 的特點在于,第一我們嘗試著平衡短期和中期的目標,這也意味著我們比較自信的。很多公司只看短期是因為想著活過今年就行,所以還想那么遠干嘛。而我們是一定能活下去的,所以一定要考慮明年、后年的事情。
這也使得我們在研發(fā)上投入非常大。我們認為,未來的核心壁壘在技術、算法、數據模型上面,所以我們會持續(xù)投入在這些方面,把壁壘建立起來。
那么數據呢?你們提供數據相關的服務,能夠真正沉淀和掌握一些數據嗎?手里拿到一些數據,對大數據公司來說是不是重要的事?
重要,也不重要。我們觀察到一個很有意思的情況,數據應用、數據模型做的好的都是沒數據的公司,基本都是這樣一個情況。
如果有數據,會過于依賴數據。如果沒有數據,可能會聚合很多數據源做交叉驗證和模型測試,反而讓模型效果更好。
是不是說擁有數據的公司才能把上面的平臺、應用做好?回答是一定是,但現在不是。
短期內沒有數據的公司不一定沒有機會。因為他們可以把應用做出來,然后通過業(yè)務閉環(huán)收集各種數據,再從沒有數據的公司慢慢變成有數據的公司。
而現在擁有數據也不能代表什么,未來還是要看數據能不能形成閉環(huán),從而流動起來。單方面消耗數據毫無用處,只有把數據加工成數據服務和模型再應用,將應用反饋返回數據和模型,然后再使用經反饋優(yōu)化后面的數據,這樣才能形成閉環(huán)。千錘百煉之后的數據模型更準確,這也是我們公司的重要壁壘之一。
現在很多人在談數據智能,因為數據是人工智能的一條生命線。所以人工智能對于大數據行業(yè)意味著什么?你怎么看接下來大數據行業(yè)的走向?
我認為,大家對人工智能的理解還處于感性認知階段,常見的智能音箱、自動駕駛等并不是真正的人工智能。真正的人工智能,是能夠幫人做決策。
但企業(yè)級應用里,人工智能已經開始做決策了。例如通過模型評分決定店鋪選址、通過模型評分決定貸款發(fā)放。這是我們理解的基于數據做智能,但還沒有到 toC 應用的程度。
去年在烏鎮(zhèn),我也與 DeepMind 創(chuàng)始人 Demis Hassabis 聊過這個問題??梢园l(fā)現,他們對人工智能的看法與前兩年相比發(fā)生了巨大的變化。之前谷歌認為人工智能是會改變世界的,但去年我問他,你們的 AI 策略是什么?他的回答是,這首先是一個 toB 的服務,會更多地把人工智能能力放在 Google Cloud 上作為服務提供給企業(yè)。而短期內 toC 并不會因人工智能而發(fā)生顛覆性的改變,除了下棋。
這與我們的看法是一致的,目前階段,數據智能還是幫助企業(yè)做決策,而且要在這件事情上做透。
