“OLAP”這個(gè)名詞最早誕生于1993年,由關(guān)系型數(shù)據(jù)庫之父E.F.Codd博士提出,這也是世界范圍內(nèi)首次對多維數(shù)據(jù)庫與多維分析有一個(gè)蓋棺定論的概念定義。但可能連考特博士本人也沒有預(yù)料到,在短短二十余年的時(shí)間里OLAP型數(shù)據(jù)庫迅速在千億數(shù)據(jù)庫市場中站穩(wěn)了腳跟,并在大數(shù)據(jù)浪潮的推動(dòng)下不斷拓寬著屬于自己的市場版圖。在當(dāng)下這個(gè)時(shí)代,傳輸?shù)臄?shù)據(jù)即是流動(dòng)的石油,而OLAP數(shù)據(jù)庫則是企業(yè)從數(shù)據(jù)中獲取價(jià)值最為直接的工具。
不同于OLTP領(lǐng)域在漫長的時(shí)間積淀下所形成的穩(wěn)定技術(shù)格局,OLAP領(lǐng)域的數(shù)據(jù)庫產(chǎn)品目前還處于百家爭鳴、群雄割據(jù)的狀態(tài)。正所謂“亂世出英豪”,2016年由俄羅斯搜索巨頭Yandex開發(fā)并開源的一款OLAP型數(shù)據(jù)庫產(chǎn)品ClickHouse在短時(shí)間內(nèi)迅速躥紅。作為后起之秀,ClickHouse憑借著先天的設(shè)計(jì)優(yōu)勢、極致的速度性能與靈活可擴(kuò)展性,受到了國內(nèi)外企業(yè)的廣泛關(guān)注與使用。
當(dāng)然對于數(shù)據(jù)庫產(chǎn)品而言,僅僅做到性能上的出眾是遠(yuǎn)遠(yuǎn)不夠的,無論是開發(fā)者看重的上手難度、學(xué)習(xí)成本,還是企業(yè)看重的產(chǎn)品穩(wěn)定性與業(yè)務(wù)兼容性,現(xiàn)階段ClickHouse都難以滿足企業(yè)級用戶的使用需求。2021年8月,火山引擎正式對外發(fā)布了「ByteHouse」企業(yè)級數(shù)據(jù)庫產(chǎn)品。作為ClickHouse的企業(yè)版,ByteHouse在解決上手與試錯(cuò)難題的同時(shí),還能夠?yàn)槠髽I(yè)用戶提供完善的產(chǎn)品技術(shù)支持服務(wù)。
極限業(yè)務(wù)場景下的千錘百煉,國內(nèi)最大ClickHouse“玩家”打造的ByteHouse
如果我們想為ClickHouse尋找一個(gè)完美的“壓力測試場景”,那么坐擁抖音、頭條、西瓜視頻等一系列頭部產(chǎn)品的字節(jié)跳動(dòng)一定會(huì)榜上有名。“節(jié)點(diǎn)總數(shù)超過15000個(gè)、管理總數(shù)據(jù)超過600PB、最大集群規(guī)模在2400余個(gè)節(jié)點(diǎn)”,從數(shù)字上我們不難看出ClickHouse在字節(jié)跳動(dòng)內(nèi)部業(yè)務(wù)場景中的深度應(yīng)用。
火山引擎是字節(jié)跳動(dòng)旗下企業(yè)級技術(shù)服務(wù)平臺(tái),其基于開源的ClickHouse進(jìn)行深度優(yōu)化和改造后,推出了企業(yè)版產(chǎn)品ByteHouse。除自研表引擎、擴(kuò)展數(shù)據(jù)類型、冷熱數(shù)據(jù)分離等諸多自研優(yōu)勢以外,ByteHouse的數(shù)據(jù)實(shí)時(shí)寫入能力也相較原生ClickHouse提升了兩倍以上。在極限業(yè)務(wù)場景的打磨下,ByteHouse完成了由一個(gè)優(yōu)秀的開源OLAP引擎向完善的商業(yè)化企業(yè)級產(chǎn)品的蛻變,能夠?yàn)槠髽I(yè)級用戶海量數(shù)據(jù)的生產(chǎn)環(huán)境,提供更強(qiáng)的數(shù)據(jù)查詢和寫入服務(wù)。
這里我們?yōu)榇蠹曳窒鞢lickHouse在字節(jié)跳動(dòng)代表性業(yè)務(wù)場景的應(yīng)用案例與ByteHouse的優(yōu)化方案:
A/B測試下的推薦系統(tǒng)實(shí)時(shí)指標(biāo)
2016年,字節(jié)跳動(dòng)搭建了支持大規(guī)模產(chǎn)品實(shí)驗(yàn)的A/B測試平臺(tái)。在完成對抖音、西瓜視頻等全線業(yè)務(wù)的接入后,字節(jié)跳動(dòng)每天同時(shí)進(jìn)行的A/B測試達(dá)到上萬場,單日新增實(shí)驗(yàn)數(shù)量超過1500個(gè),覆蓋400多個(gè)大大小小的業(yè)務(wù),累計(jì)A/B測試次數(shù)已經(jīng)突破70萬(截至2021年4月)。隨著推薦系統(tǒng)產(chǎn)生的數(shù)據(jù)量越來越大,單個(gè)節(jié)點(diǎn)消費(fèi)能力的要求自然也水漲船高。在使用ClickHouse支持A/B測試推薦系統(tǒng)的實(shí)時(shí)數(shù)據(jù)時(shí),火山引擎研發(fā)團(tuán)隊(duì)也遇到了諸如單次數(shù)據(jù)吞吐量大、數(shù)據(jù)落盤時(shí)延低,以及數(shù)據(jù)傳輸過程中不丟失且不重復(fù)等技術(shù)需求。
ByteHouse通過異步構(gòu)建輔助索引的方式,及基于自研的Kafka Engine,保證寫入性能在OLAP數(shù)據(jù)庫中具有領(lǐng)先優(yōu)勢。同時(shí),ByteHouse也支持exactly once語義,確保數(shù)據(jù)傳輸中的原子性,有效保障和滿足了字節(jié)業(yè)務(wù)部門在熱門活動(dòng)實(shí)時(shí)數(shù)據(jù)分析上的訴求。
頭部APP端的大數(shù)據(jù)分析
上線短短四年時(shí)間,字節(jié)跳動(dòng)的短視頻APP產(chǎn)品抖音的日活用戶便已突破6億。除了抖音,字節(jié)跳動(dòng)也還有其他日活過億的頭部App產(chǎn)品,在龐大日活用戶的背后產(chǎn)生了海量的產(chǎn)品使用數(shù)據(jù)分析需求。從業(yè)務(wù)的角度分析,APP端產(chǎn)品的數(shù)據(jù)分析具有指標(biāo)計(jì)算相對復(fù)雜、數(shù)據(jù)總量較大且查詢模式多變的業(yè)務(wù)特點(diǎn),為此也需要具備高可用保障,以及能夠應(yīng)對超大數(shù)據(jù)規(guī)模下交互式實(shí)時(shí)響應(yīng)的能力。
ByteHouse 提供了 PB 級數(shù)據(jù)秒級響應(yīng),通過增強(qiáng)的自研引擎,確保95%以上的查詢均可在秒級返回,針對APP端的業(yè)務(wù)多變性,引入了新的數(shù)據(jù)類型支持動(dòng)態(tài)schema。同時(shí)通過自研的HAEngine和元數(shù)據(jù)持久化等優(yōu)化,ByteHouse提供了新的生產(chǎn)級高可用方案,能夠保障其在大數(shù)據(jù)量場景下依然不會(huì)影響到查詢分析體驗(yàn)。
“運(yùn)維工具+技術(shù)支持”,齊頭并進(jìn)的ToB服務(wù)雙頭馬車
“使用難度、運(yùn)維成本”相信這是每一個(gè)企業(yè)級用戶在選型數(shù)據(jù)庫產(chǎn)品時(shí),會(huì)去關(guān)注的兩大衡量指標(biāo)。同時(shí),這兩項(xiàng)指標(biāo)也成為了橫跨在ClickHouse“關(guān)注者”與“使用者”之間巨大的鴻溝。無論是國內(nèi)還是國外的開發(fā)論壇上,ClickHouse“上手容易,用好很難”已經(jīng)成為開發(fā)者共同的認(rèn)知。正所謂“九層之臺(tái),起于累土”,對于企業(yè)級用戶的實(shí)際應(yīng)用場景而言,配套的運(yùn)維能力與技術(shù)支持是企業(yè)級產(chǎn)品的基石,發(fā)揮的作用至關(guān)重要。
ByteHouse 提供了一個(gè)自助服務(wù)平臺(tái),針對部署和運(yùn)維提供了多種工具進(jìn)行集群管理。對于常規(guī)的運(yùn)維操作,ByteHouse支持自動(dòng)下發(fā)版本調(diào)整、節(jié)點(diǎn)重啟和替換等運(yùn)維任務(wù),并具有自動(dòng)發(fā)現(xiàn)和替換故障節(jié)點(diǎn)的能力。同時(shí),針對系統(tǒng)的運(yùn)行情況,ByteHouse也提供了全面的監(jiān)控、負(fù)載指標(biāo),使其具備便捷、清晰的管理能力。比如說,在集群使用過程中,ByteHouse可以隨時(shí)對CPU利用率與磁盤利用率的警戒水位線等關(guān)鍵指標(biāo)進(jìn)行監(jiān)控,對健康度進(jìn)行可視化展示。ByteHouse系統(tǒng)內(nèi)部還可以根據(jù)企業(yè)自身需求,配置故障、服務(wù)異常等報(bào)警功能的閾值,方便企業(yè)級用戶進(jìn)行預(yù)處理操作。
針對數(shù)據(jù)庫產(chǎn)品不可避免存在的慢查詢問題,ByteHouse提供了強(qiáng)大的查詢診斷功能,對負(fù)載過重的后臺(tái)合并任務(wù),也可以進(jìn)行自動(dòng)診斷。這些“事前”、“事中”、“事后”的運(yùn)維能力,有效提升了可用性,大大降低了運(yùn)維復(fù)雜度。在ByteHouse的加持下,大型企業(yè)用戶或許只需七名SRE工程師就能支持上萬節(jié)點(diǎn)的運(yùn)維。
此外,火山引擎圍繞ByteHouse提供了完善的產(chǎn)品技術(shù)支持,從產(chǎn)品的安裝部署、業(yè)務(wù)應(yīng)用與項(xiàng)目的0到1、端到端落地的多重維度,為企業(yè)用戶提供包括架構(gòu)咨詢、使用優(yōu)化、進(jìn)階培訓(xùn)等服務(wù)。從完善的自動(dòng)化運(yùn)維工具,到覆蓋產(chǎn)品與項(xiàng)目的專業(yè)技術(shù)支持,火山引擎ByteHouse的ToB拓展之路,走的平穩(wěn)且堅(jiān)實(shí)。
先狹義后廣義,企業(yè)級數(shù)據(jù)庫產(chǎn)品的商業(yè)化范式
雖千行百業(yè)皆需賦能,但需求痛點(diǎn)個(gè)個(gè)不同。對于企業(yè)級交互式分析數(shù)據(jù)庫產(chǎn)品而言,既要儲(chǔ)備深度足夠的技術(shù)能力,同時(shí)還要具備靈活適應(yīng)不同業(yè)務(wù)場景的泛化能力?!跋泉M義,后廣義”,這也是火山引擎在開發(fā)ByteHouse產(chǎn)品中貫穿始終的心路歷程。
作為企業(yè)級交互式數(shù)據(jù)庫產(chǎn)品,目前ByteHouse已經(jīng)成功在金融、制造、零售、互聯(lián)網(wǎng)等行業(yè)中逐漸落地生根,并切實(shí)地幫助企業(yè)解決其在大數(shù)據(jù)分析領(lǐng)域中的痛點(diǎn)。火山引擎向CSDN分享了ByteHouse在實(shí)際應(yīng)用場景中取得的進(jìn)展:
在服務(wù)傳統(tǒng)工業(yè)制造應(yīng)用場景中,客戶基于工業(yè)互聯(lián)網(wǎng)大數(shù)據(jù)平臺(tái),積累了數(shù)十萬臺(tái)大型設(shè)備,并以每天5億條的速度不間斷產(chǎn)生IoT數(shù)據(jù),急需構(gòu)建一個(gè)具有高性能、高可用、易擴(kuò)展的大數(shù)據(jù)平臺(tái),以支撐千億級數(shù)據(jù)的性能指標(biāo)查詢和高效的數(shù)據(jù)計(jì)算分析。ByteHouse在技術(shù)選型中脫穎而出,在實(shí)時(shí)數(shù)據(jù)寫入性能、并發(fā)查詢、高可用和集群穩(wěn)定性、監(jiān)控可視化等方面滿足其核心訴求,并進(jìn)一步支持了報(bào)警預(yù)測實(shí)時(shí)推送、電子圍欄等場景。
作為泛互聯(lián)網(wǎng)場景下的代表性產(chǎn)業(yè),“數(shù)據(jù)驅(qū)動(dòng)”正逐漸成為游戲行業(yè)發(fā)展的核心源動(dòng)力。在游戲行業(yè)的實(shí)際應(yīng)用場景中,客戶需要根據(jù)人群包,在豐富的維度標(biāo)簽下洞察人群特征分布,實(shí)現(xiàn)快速理解用戶。而現(xiàn)有的技術(shù)棧面臨著高基維、標(biāo)簽數(shù)據(jù)良多,以及復(fù)雜的業(yè)務(wù)邏輯等眾多難題。ByteHouse憑借高基維優(yōu)化、BitmapEngine等核心優(yōu)化,有效支持了用戶包的運(yùn)算和亞秒級查詢響應(yīng),極大提升了人群畫像洞察、差異分析、個(gè)體畫像分析等場景下的查詢體驗(yàn)。
在OLAP場景需求快速增長的當(dāng)下,企業(yè)對于交互式分析數(shù)據(jù)庫產(chǎn)品的需求,仍將會(huì)進(jìn)一步增加?;鹕揭鍮yteHouse利用自身場景的沉淀推出企業(yè)級“ClickHouse”服務(wù),在CSDN看來可謂是恰逢其時(shí)。它的出現(xiàn),為處在大數(shù)據(jù)浪潮中的企業(yè)級用戶提供了OLAP場景下的一站式服務(wù),有助于其打通大數(shù)據(jù)分析場景化落地的“最后一公里”。