具有計算奧運會之稱的SortBenchmark全球排序競賽公布結(jié)果,其中,騰訊云用98.8秒完成100TB的數(shù)據(jù)排序,打破阿里云去年創(chuàng)造的329秒記錄,以及更早前百度的716秒紀錄,這引起了業(yè)界的關(guān)注。
眾所周知,騰訊云直到最近幾年才開始發(fā)力公有云和大數(shù)據(jù)業(yè)務(wù),而阿里云早從2009年開始就已經(jīng)大張旗鼓的發(fā)展云計算業(yè)務(wù),進入2016年全力推進大數(shù)據(jù)業(yè)務(wù)。那么,騰訊云在2016年底刷新大數(shù)據(jù)國際比賽的紀錄,是偶然事件還是確有過人之處?記者就此采訪了騰訊云副總裁、騰訊數(shù)據(jù)平臺部總經(jīng)理蔣杰。
史上最好的大數(shù)據(jù)比賽成績
SortBenchmark是一個專門從事排序基準評估的非盈利國際機構(gòu),該機構(gòu)每年主持的SortBenchmark排序競賽被認為是全球的“計算奧運會”,它主要通過“Sort排序”這個最基本的計算問題來評估一家公司或機構(gòu)大規(guī)模計算的綜合實力,不僅全面評測分布式系統(tǒng)軟件架構(gòu)能力,也評測硬件架構(gòu)能力。這是因為“Sort排序”計算任務(wù)雖然比較基礎(chǔ),但兼具測試系統(tǒng)IO(數(shù)據(jù)吞吐)和CPU資源消耗這兩項計算系統(tǒng)的核心性能評估指標,尤其適合以海量數(shù)據(jù)為基準來測評不同分布式系統(tǒng)的性能。
?。ㄉ蠄D:近三年來SortBenchmark最好成績對比)
今年騰訊云總共參加了SortBenchmark的兩項主要比賽:GraySort和MinuteSort。GraySort比拼的主要是參賽系統(tǒng)對大規(guī)模數(shù)據(jù)的處理能力,MinuteSort則評測參賽系統(tǒng)的效率。具體來說,GraySort比拼的是在最短時間內(nèi)將總共100TB、一共1萬億條無序的100字節(jié)記錄、按照從小到大的順序排序;而MinuteSort比拼的是在1分鐘之內(nèi)能夠完成多少數(shù)據(jù)量的排序。每個比賽還再分為Indy(專用目的排序)和Daytona(通用目的排序)兩個子項。
騰訊云“數(shù)智分布式計算平臺”(以下簡稱“數(shù)智”)參加IndyGraySort測試,每分鐘可完成60.7TB的數(shù)據(jù)排序,去年的最好成績?yōu)?8.2TB/分鐘(阿里云)、2014年最好成績?yōu)?.38TB/分鐘(百度);參加DaytonaGraySort測試,每分鐘可完成44.8TB的數(shù)據(jù)排序,去年的最好成績?yōu)?5.9TB/分鐘(阿里云)、2014年最好成績?yōu)?.35TB/分鐘(UCSD,加州大學圣地亞哥分校)以及4.27TB/分鐘(ApacheSpark)。
騰訊云“數(shù)智”參加IndyMinuteSort測試的成績?yōu)?5TB,去年的最好成績?yōu)?1TB(阿里云)、2014年的最好成績?yōu)?TB(百度);參加DaytonaMinuteSort測試的成績?yōu)?7TB,去年的最好成績?yōu)?.7TB(阿里云)、2014年的最好成績?yōu)?.7TB(三星)。
根據(jù)SortBenchmark官網(wǎng),可以看到騰訊云此次所取得的成績即便在SortBenchmark歷史上也算得上是最強。而蔣杰介紹說,騰訊云今年能取得好成績,不僅得益于騰訊云平臺自有的強大調(diào)度能力,還由于騰訊云平臺對自身的調(diào)度系統(tǒng)做了大量優(yōu)化工作,目前在騰訊內(nèi)部系統(tǒng)中每天的調(diào)度達2億次,可以說是在海量系統(tǒng)中不斷驗證磨合出的大數(shù)據(jù)處理能力。
相應(yīng)花了多少成本?
在本次SortBenchmark比賽中,騰訊云參賽系統(tǒng)主要采用的是512臺IBM的OpenPOWER服務(wù)器和邁絡(luò)思的100Gb網(wǎng)卡。蔣杰強調(diào),這樣配置的平臺并不是專門為了本次比賽所搭建,而是來自于騰訊的日常計算服務(wù)網(wǎng)絡(luò)。
具體來說,本次騰訊云的參賽系統(tǒng)配備了512個節(jié)點,每個節(jié)點配置兩顆OpenPOWER處理器、512GB內(nèi)存、4塊華為NVMeSSD盤、100GbMellanox網(wǎng)卡。而去年阿里云配備3377個節(jié)點,每節(jié)點兩顆至強E5-2630芯片、96G內(nèi)存、12塊SATA硬盤、10G網(wǎng)卡。由于技術(shù)的飛速進行,兩個參賽系統(tǒng)的成本相差不大,騰訊云的系統(tǒng)總體成本甚至還要略低一些。
眾所周知,基于RISC架構(gòu)的IBMPower芯片可同時執(zhí)行多條指令,可將一條指令分割成若干個進程或線程,交由多個處理器同時執(zhí)行,因此并行計算性能方面遠優(yōu)于基于CISC架構(gòu)的英特爾x86芯片。同時,Power架構(gòu)還可以很好地結(jié)合GPU的優(yōu)勢,形成IBM+NVIDIA的強強組合。IBM在2013年對Power芯片技術(shù)進行了開放,隨后出現(xiàn)了大批定制的OpenPOWER服務(wù)器。值得一提的是,OpenPOWER服務(wù)器芯片不僅性能更優(yōu),而價格甚至要低于英特爾的同等性能芯片。
而基于OpenPOWER服務(wù)器的騰訊云大數(shù)據(jù)實時計算平臺,能提供單集群上千臺規(guī)模實時流式計算;在數(shù)據(jù)存儲方面則支持多重數(shù)據(jù)備份、萬億數(shù)據(jù)的存儲能力;在任務(wù)調(diào)度方面,支持百萬級任務(wù)的毫秒級調(diào)用;而且可以自動發(fā)現(xiàn)故障節(jié)點并自動剔除,通過業(yè)務(wù)的自動遷移、關(guān)鍵節(jié)點的主從熱備,實現(xiàn)故障的秒級切換。
當然,此次參賽也還是經(jīng)歷了不少困難。蔣杰回憶說,在調(diào)優(yōu)的過程中發(fā)現(xiàn)網(wǎng)絡(luò)IO和磁盤IO都達不到理想的極限能力,雖然當時已經(jīng)跑出了不錯的成績,但整個團隊沒有放過任何一個可以提高性能的機會。從架構(gòu)到代碼細節(jié)再到硬件的驅(qū)動層,團隊成員加班加點、不停地提出優(yōu)化方案和嘗試,最終達到理想成績。
背后的騰訊云大數(shù)據(jù)平臺
蔣杰認為,最近幾年國內(nèi)互聯(lián)網(wǎng)公司頻頻在該大賽中奪冠,說明國內(nèi)公司在云計算、大數(shù)據(jù)等領(lǐng)域已經(jīng)有了長足的進步,本次奪冠就是騰訊多年來技術(shù)積累的成果。在今年實際參賽時,組委會突然宣布比寒提前一個月進行,這出乎很多參賽團隊的預(yù)料,但這也考驗了參賽團隊的技術(shù)能力。
騰訊云參賽團隊所使用的大數(shù)據(jù)平臺“數(shù)智”,是騰訊云于2016年發(fā)布了的大數(shù)據(jù)解決方案,這是基于騰訊十余年海量數(shù)據(jù)處理核心能力所打造的一站式大數(shù)據(jù)處理平臺。在對微信每天160億級別的多維分析場景中,“數(shù)智”平臺能夠做到6秒返回結(jié)果。
“數(shù)智”結(jié)合騰訊在互聯(lián)網(wǎng)海量數(shù)據(jù)處理經(jīng)驗、開源生態(tài)和自研組件服務(wù),具有穩(wěn)定易用、技術(shù)開放、秒級多維分析處理、安全可靠等特性。在基礎(chǔ)架構(gòu)上,騰訊云大數(shù)據(jù)團隊對包括YARN、HIVE、PIG、SPARK、Kylin等眾多開源組件進行深度優(yōu)化,大幅提升了平臺性能;在使用上,可以按需部署大數(shù)據(jù)處理服務(wù),包括數(shù)據(jù)倉庫建設(shè)、報表展示、數(shù)據(jù)分析、客戶畫像等大數(shù)據(jù)應(yīng)用。除此之外,“數(shù)智”還囊括了騰訊自研的機器學習引擎和內(nèi)置算法庫,可視化操作方式讓非技術(shù)人員也可能輕松駕馭數(shù)據(jù)挖掘。
蔣杰介紹說,騰訊云“數(shù)智”平臺的誕生是因為騰訊要處理海量數(shù)據(jù)的自身需求。截至2015年底,騰訊QQ、QQ空間、微信等產(chǎn)品線背后,有著3萬億條數(shù)據(jù)接入、100億次數(shù)據(jù)分發(fā)、120PB的存儲、8.6PB的離線計算、2.5萬億的實時計算、500萬次任務(wù)調(diào)度等億萬級的數(shù)據(jù)處理經(jīng)驗和能力,這些都是騰訊云“數(shù)智”這一大數(shù)據(jù)產(chǎn)品的基礎(chǔ)。
巨大的數(shù)據(jù)量和高復(fù)雜度高的數(shù)據(jù)分析,對底層技術(shù)平臺的要求也非常高。春晚搖一搖發(fā)紅包的千萬級并發(fā)請求量是搶火車票的一百余倍,要處理的不僅是海量并發(fā)請求,還有資源推送、紅包收發(fā)和金融級的安全防護等等。面臨每天的海量多維分析計算需求,已經(jīng)無法通過傳統(tǒng)的開源社區(qū)組件來保證分析結(jié)果及時效性。
騰訊云大數(shù)據(jù)團隊針對交互式海量數(shù)據(jù)分析需求而自主研發(fā)了秒級分析平臺?!皵?shù)智”實時檢索分析把檢索與數(shù)據(jù)分析有機結(jié)合,摒棄傳統(tǒng)數(shù)據(jù)分析的系統(tǒng)數(shù)據(jù)預(yù)加工模式,而是根據(jù)用戶輸入的個性化數(shù)據(jù)分析需求實時計算,可實現(xiàn)在億萬級數(shù)據(jù)、萬級維度的量級下進行任意維度組合、任意層級下鉆等分析作業(yè),結(jié)果響應(yīng)在數(shù)秒以內(nèi)。
蔣杰表示,“數(shù)智”是騰訊云全面開放騰訊18年海量大數(shù)據(jù)處理經(jīng)驗,讓企業(yè)在最短的時間內(nèi)、用最少的資源,通過精準計算來建立核心商業(yè)競爭優(yōu)勢。用戶采用騰訊云大數(shù)據(jù)解決方案后,可在短時間內(nèi)具備秒級響應(yīng)的實時多維數(shù)據(jù)分析能力?!皵?shù)智”目前已經(jīng)在政府、傳統(tǒng)企業(yè)和互聯(lián)網(wǎng)企業(yè)中深度應(yīng)用。
在2015年9月,國務(wù)院印發(fā)了《促進大數(shù)據(jù)發(fā)展行動綱要》,指出信息技術(shù)與經(jīng)濟社會的交匯融合引發(fā)了數(shù)據(jù)迅猛增長,數(shù)據(jù)已成為國家基礎(chǔ)性戰(zhàn)略資源。隨著騰訊云在國際大數(shù)據(jù)大賽中取得新的世界紀錄,騰訊云的大數(shù)據(jù)平臺勢必將與騰訊的“互聯(lián)網(wǎng)+”相輔相承,成為在十三五期間的大數(shù)據(jù)高速公路之一。