HBase在互聯(lián)網(wǎng)領(lǐng)域有廣泛的應(yīng)用,比如:互聯(lián)網(wǎng)的消息系統(tǒng)的存儲(chǔ)、訂單的存儲(chǔ)、搜索原材料的存儲(chǔ)、用戶畫像數(shù)據(jù)的存儲(chǔ)等。得益于HBase海量的存儲(chǔ)量及超高并發(fā)寫入讀取量。HBase在09年就開(kāi)始在工業(yè)界大范圍使用,在學(xué)術(shù)界,也有非常多的高校、機(jī)構(gòu)在研究HBase應(yīng)用于不同的行業(yè),本文主要梳理下這些資料(主要是中文資料,有一些是碩士論文\期刊),這些很多都在工業(yè)界使用了。大家也可以感覺(jué)下,HBase應(yīng)用的方面還是非常多的。大家也可以看下是否的場(chǎng)景是否對(duì)應(yīng)起來(lái)。 由于涉及到版權(quán),我提供鏈接,不提供資源下載,請(qǐng)大家見(jiàn)諒。
HBase最主要的特性
HBase基于HDFS,可以提供廉價(jià)的解決方案。在阿里云ApsaraDB for HBase會(huì)發(fā)布基于D1、I2的物理機(jī)方案,存儲(chǔ)成本為0.1元每GB每月左右,且可以在線動(dòng)態(tài)添加節(jié)點(diǎn),增加容量。 無(wú)需一次性投入全年的量。
HBase容量可以無(wú)限擴(kuò)容:在100T的數(shù)據(jù)量上毫無(wú)壓力,在1P的數(shù)據(jù)量上也類似。
HBase提供超高的并發(fā)量:主要得益于系統(tǒng)的除了Master之外的所有節(jié)點(diǎn)都直接跟客戶端通信,且系統(tǒng)自動(dòng)分區(qū)。有的系統(tǒng)會(huì)有一個(gè)路由中心,此會(huì)極大的限制并發(fā)量及流量
跟Spark、hadoopMR等分析系統(tǒng)結(jié)合 關(guān)于 阿里云HBase產(chǎn)品的優(yōu)勢(shì)見(jiàn):阿里云HBase優(yōu)勢(shì)
行業(yè):
物聯(lián)網(wǎng)行業(yè):
基于HBase的大規(guī)模無(wú)線傳感網(wǎng)絡(luò)數(shù)據(jù)存儲(chǔ)系統(tǒng) : 無(wú)線傳感網(wǎng)絡(luò)(WSN)存在分布的跨區(qū)域性,隨著無(wú)線傳感網(wǎng)絡(luò)的擴(kuò)張,傳感器數(shù)目增多,將產(chǎn)生大規(guī)模的傳感數(shù)據(jù).針對(duì)存儲(chǔ)大規(guī)模無(wú)線傳感網(wǎng)絡(luò)數(shù)據(jù)的問(wèn)題,提出了一個(gè)兩層分布式存儲(chǔ)架構(gòu),使用分布式數(shù)據(jù)庫(kù)HBase存儲(chǔ)跨區(qū)域的無(wú)線傳感網(wǎng)絡(luò)數(shù)據(jù)和全局?jǐn)?shù)據(jù)存儲(chǔ)管理目錄,實(shí)現(xiàn)一個(gè)近實(shí)時(shí)的存儲(chǔ)系統(tǒng).實(shí)驗(yàn)結(jié)果證明,該系統(tǒng)有良好的擴(kuò)展性、存儲(chǔ)和查詢效率.
車聯(lián)網(wǎng):
基于HBase的車聯(lián)網(wǎng)傳感數(shù)據(jù)管理系統(tǒng)設(shè)計(jì) :關(guān)系型數(shù)據(jù)庫(kù)由于面向行存儲(chǔ)以及無(wú)法擴(kuò)展等原因,已很難滿足大規(guī)模車聯(lián)網(wǎng)傳感數(shù)據(jù)的存儲(chǔ)與查詢要求.針對(duì)該問(wèn)題,設(shè)計(jì)了一個(gè)基于非關(guān)系型數(shù)據(jù)庫(kù)HBase存儲(chǔ)的車聯(lián)網(wǎng)傳感數(shù)據(jù)管理系統(tǒng).該系統(tǒng)采用Hadoop與HBase搭建分布式實(shí)驗(yàn)平臺(tái),采用C#語(yǔ)言開(kāi)發(fā)Web網(wǎng)頁(yè)端.通過(guò)與傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)SQL Server的存儲(chǔ)與查詢效率進(jìn)行對(duì)比分析,表明HBase在處理大規(guī)模車聯(lián)網(wǎng)傳感數(shù)據(jù)方面具有明顯優(yōu)勢(shì).
基于HBase的交通數(shù)據(jù)區(qū)域查詢方法 :隨著智能交通的發(fā)展,交通數(shù)據(jù)呈現(xiàn)出指數(shù)性增長(zhǎng).為了提升時(shí)空區(qū)域查詢性能,論文提出了一種基于HBase的交通數(shù)據(jù)區(qū)域查詢方法HRQ.該方法利用交通數(shù)據(jù)的三維時(shí)空特性,采用Geohash算法將交通數(shù)據(jù)的經(jīng)緯度信息轉(zhuǎn)為Geohash編碼,然后與時(shí)間組合作為HBase行鍵,并設(shè)計(jì)了相應(yīng)的查詢算法.實(shí)驗(yàn)結(jié)果表明,與直接組合經(jīng)緯度和時(shí)間作為行鍵的方法相比,在基于時(shí)間范圍的區(qū)域查詢上HRQ方法的性能要高30%以上,在基于區(qū)域范圍的區(qū)域查詢上HRQ的性能優(yōu)勢(shì)隨著查詢區(qū)域的增大而增加.
交通
基于HBase的交通流數(shù)據(jù)實(shí)時(shí)存儲(chǔ)系統(tǒng) :交通流數(shù)據(jù)具有多來(lái)源、高速率、體量大等特征,傳統(tǒng)數(shù)據(jù)存儲(chǔ)方法和系統(tǒng)暴露出擴(kuò)展性弱和存儲(chǔ)實(shí)時(shí)性低等問(wèn)題.針對(duì)上述問(wèn)題,設(shè)計(jì)并實(shí)現(xiàn)了一套基于HBase交通流數(shù)據(jù)實(shí)時(shí)存儲(chǔ)系統(tǒng).該系統(tǒng)采用分布式存儲(chǔ)架構(gòu),通過(guò)前端的預(yù)處理操作對(duì)數(shù)據(jù)進(jìn)行規(guī)范化整理,利用多源緩沖區(qū)結(jié)構(gòu)對(duì)不同類型的流數(shù)據(jù)進(jìn)行隊(duì)列劃分,并結(jié)合一致性哈希算法、多線程技術(shù)、行鍵優(yōu)化設(shè)計(jì)等策略將數(shù)據(jù)并行存儲(chǔ)到HBase集群服務(wù)器中.實(shí)驗(yàn)結(jié)果表明:該系統(tǒng)與基于Oracle的實(shí)時(shí)存儲(chǔ)系統(tǒng)相比,其存儲(chǔ)性能提升了3~5倍;與原生的HBase方法相比,其存儲(chǔ)性能提升了2~3倍,并且具有良好的擴(kuò)展性能.
電力
HBase 在智能電網(wǎng)異構(gòu)數(shù)據(jù)同步中的應(yīng)用:未來(lái)的智能電網(wǎng)在運(yùn)行中將會(huì)產(chǎn)生海量的多態(tài)、異構(gòu)數(shù)據(jù),對(duì)這些數(shù)據(jù)的可靠獲取、實(shí)時(shí)分析、同步及處理會(huì)給電網(wǎng)信息系統(tǒng)帶來(lái)前所未有的壓力。因此,把電網(wǎng)大數(shù)據(jù)遷移到云端—數(shù)據(jù)中心,來(lái)實(shí)現(xiàn)異構(gòu)數(shù)據(jù)的精準(zhǔn)、實(shí)時(shí)同步則顯得尤為必要。以解決未來(lái)智能電網(wǎng)大數(shù)據(jù)處理問(wèn)題為出發(fā)點(diǎn),通過(guò)對(duì)電網(wǎng)數(shù)據(jù)中心相關(guān)功能需求進(jìn)行細(xì)致分析,對(duì)比傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)建?;A(chǔ),提出了基于Hbase架構(gòu)的智能電網(wǎng)數(shù)據(jù)中心的解決方案。最后通過(guò)對(duì)比 MySQL 性能進(jìn)行模擬測(cè)試,得出所提出的設(shè)計(jì)方案能夠很好地適用于未來(lái)智能電網(wǎng)數(shù)據(jù)中心的構(gòu)建以及異構(gòu)數(shù)據(jù)的同步,達(dá)到電網(wǎng)大數(shù)據(jù)的實(shí)時(shí)共享、監(jiān)測(cè)及準(zhǔn)確分析、處理的目的,在未來(lái)智能電網(wǎng)信息管理系統(tǒng)中具有廣闊的應(yīng)用前景。
金融
基于HBase的金融時(shí)序數(shù)據(jù)存儲(chǔ)系統(tǒng) : 設(shè)計(jì)并實(shí)現(xiàn)了1個(gè)基于HBase的金融時(shí)序數(shù)據(jù)的存儲(chǔ)系統(tǒng)。設(shè)計(jì)了基于金融時(shí)序數(shù)據(jù)的HBase預(yù)分區(qū)策略,可解決HBase存儲(chǔ)熱點(diǎn)的問(wèn)題;采用了行鍵優(yōu)化策略和基于時(shí)序數(shù)據(jù)的表設(shè)計(jì)策略,可解決數(shù)據(jù)存儲(chǔ)分散的問(wèn)題;使用了提供異步處理機(jī)制的事件驅(qū)動(dòng)的Netty框架所編寫的中間件接收采集器發(fā)送的請(qǐng)求,可解決高并發(fā)事務(wù)的處理問(wèn)題。實(shí)驗(yàn)結(jié)果表明,與HBase原生方法相比,該系統(tǒng)的性能在處理高并發(fā)事務(wù)時(shí)更好。
航空
基于HBase的民用航空發(fā)動(dòng)機(jī)大數(shù)據(jù)管理系統(tǒng) : 為克服傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ)管理海量航空發(fā)動(dòng)機(jī)狀態(tài)監(jiān)控?cái)?shù)據(jù)的不足,本研究提出了基于HBase的民用航空發(fā)動(dòng)機(jī)大數(shù)據(jù)管理系統(tǒng).首先分析了該系統(tǒng)的功能需求,給出了系統(tǒng)整體架構(gòu)與模塊設(shè)計(jì),并對(duì)關(guān)鍵技術(shù)進(jìn)行了闡述.最后設(shè)計(jì)試驗(yàn)對(duì)比HBase與Oracle的搜索效率.試驗(yàn)結(jié)果表明檢索結(jié)果集較大時(shí)HBase的搜索效率明顯高于Oracle.本研究中提出的航空發(fā)動(dòng)機(jī)大數(shù)據(jù)管理系統(tǒng)為發(fā)動(dòng)機(jī)海量數(shù)據(jù)的存儲(chǔ)管理提供了一種解決方案.
小文件存儲(chǔ)(圖片視頻等)
一種基于HBase的海量圖片存儲(chǔ)技術(shù) 針對(duì)海量圖片存儲(chǔ),已有若干個(gè)基于Hadoop的方案被設(shè)計(jì)出來(lái).這些方案在系統(tǒng)層小文件合并、全局名字空間以及通用性方面存在不足.本文基于HBase提出了一種海量圖片存儲(chǔ)技術(shù),成功解決了上述問(wèn)題.本文將介紹基于HBase海量圖片存儲(chǔ)技術(shù)方案,分析其原理及優(yōu)勢(shì),該方案在城市交通監(jiān)控中得到應(yīng)用驗(yàn)證.
基于 HBase 的小文件高效存儲(chǔ)方法 :基于 Hadoop 平臺(tái)的相關(guān)系統(tǒng)得到了廣泛應(yīng)用。Hadoop 分布式文件系統(tǒng)(Hadoop distributed file system, HDFS)通過(guò)分布式的工作方式,負(fù)責(zé)處理海量文件數(shù)據(jù)。對(duì) HDFS 而言,海量數(shù)據(jù)中的小文件存儲(chǔ)問(wèn)題制約著系統(tǒng)高效工作的能力。針對(duì)海量數(shù)據(jù)中小文件讀寫效率低的情況,提出一種基于 HBase(Hadoop database)的海量小文件高效存儲(chǔ)方法,利用 HBase 的存儲(chǔ)優(yōu)勢(shì),將小文件直接存儲(chǔ)于 HBase,從而有效減少元數(shù)據(jù)節(jié)點(diǎn)服務(wù)器(Name-Node)的負(fù)載,并對(duì)上層應(yīng)用系統(tǒng)提供透明的訪問(wèn)接口。實(shí)驗(yàn)結(jié)果表明,該方法可以實(shí)現(xiàn)海量小文件的高效存儲(chǔ),提高 HDFS 環(huán)境下小文件的讀寫效率。