HBase在互聯(lián)網(wǎng)領域有廣泛的應用,比如:互聯(lián)網(wǎng)的消息系統(tǒng)的存儲、訂單的存儲、搜索原材料的存儲、用戶畫像數(shù)據(jù)的存儲等。得益于HBase海量的存儲量及超高并發(fā)寫入讀取量。HBase在09年就開始在工業(yè)界大范圍使用,在學術界,也有非常多的高校、機構在研究HBase應用于不同的行業(yè),本文主要梳理下這些資料(主要是中文資料,有一些是碩士論文\期刊),這些很多都在工業(yè)界使用了。大家也可以感覺下,HBase應用的方面還是非常多的。大家也可以看下是否的場景是否對應起來。 由于涉及到版權,我提供鏈接,不提供資源下載,請大家見諒。
HBase最主要的特性
HBase基于HDFS,可以提供廉價的解決方案。在阿里云ApsaraDB for HBase會發(fā)布基于D1、I2的物理機方案,存儲成本為0.1元每GB每月左右,且可以在線動態(tài)添加節(jié)點,增加容量。 無需一次性投入全年的量。
HBase容量可以無限擴容:在100T的數(shù)據(jù)量上毫無壓力,在1P的數(shù)據(jù)量上也類似。
HBase提供超高的并發(fā)量:主要得益于系統(tǒng)的除了Master之外的所有節(jié)點都直接跟客戶端通信,且系統(tǒng)自動分區(qū)。有的系統(tǒng)會有一個路由中心,此會極大的限制并發(fā)量及流量
跟Spark、hadoopMR等分析系統(tǒng)結合 關于 阿里云HBase產品的優(yōu)勢見:阿里云HBase優(yōu)勢
行業(yè):
物聯(lián)網(wǎng)行業(yè):
基于HBase的大規(guī)模無線傳感網(wǎng)絡數(shù)據(jù)存儲系統(tǒng) : 無線傳感網(wǎng)絡(WSN)存在分布的跨區(qū)域性,隨著無線傳感網(wǎng)絡的擴張,傳感器數(shù)目增多,將產生大規(guī)模的傳感數(shù)據(jù).針對存儲大規(guī)模無線傳感網(wǎng)絡數(shù)據(jù)的問題,提出了一個兩層分布式存儲架構,使用分布式數(shù)據(jù)庫HBase存儲跨區(qū)域的無線傳感網(wǎng)絡數(shù)據(jù)和全局數(shù)據(jù)存儲管理目錄,實現(xiàn)一個近實時的存儲系統(tǒng).實驗結果證明,該系統(tǒng)有良好的擴展性、存儲和查詢效率.
車聯(lián)網(wǎng):
基于HBase的車聯(lián)網(wǎng)傳感數(shù)據(jù)管理系統(tǒng)設計 :關系型數(shù)據(jù)庫由于面向行存儲以及無法擴展等原因,已很難滿足大規(guī)模車聯(lián)網(wǎng)傳感數(shù)據(jù)的存儲與查詢要求.針對該問題,設計了一個基于非關系型數(shù)據(jù)庫HBase存儲的車聯(lián)網(wǎng)傳感數(shù)據(jù)管理系統(tǒng).該系統(tǒng)采用Hadoop與HBase搭建分布式實驗平臺,采用C#語言開發(fā)Web網(wǎng)頁端.通過與傳統(tǒng)關系型數(shù)據(jù)庫SQL Server的存儲與查詢效率進行對比分析,表明HBase在處理大規(guī)模車聯(lián)網(wǎng)傳感數(shù)據(jù)方面具有明顯優(yōu)勢.
基于HBase的交通數(shù)據(jù)區(qū)域查詢方法 :隨著智能交通的發(fā)展,交通數(shù)據(jù)呈現(xiàn)出指數(shù)性增長.為了提升時空區(qū)域查詢性能,論文提出了一種基于HBase的交通數(shù)據(jù)區(qū)域查詢方法HRQ.該方法利用交通數(shù)據(jù)的三維時空特性,采用Geohash算法將交通數(shù)據(jù)的經(jīng)緯度信息轉為Geohash編碼,然后與時間組合作為HBase行鍵,并設計了相應的查詢算法.實驗結果表明,與直接組合經(jīng)緯度和時間作為行鍵的方法相比,在基于時間范圍的區(qū)域查詢上HRQ方法的性能要高30%以上,在基于區(qū)域范圍的區(qū)域查詢上HRQ的性能優(yōu)勢隨著查詢區(qū)域的增大而增加.
交通
基于HBase的交通流數(shù)據(jù)實時存儲系統(tǒng) :交通流數(shù)據(jù)具有多來源、高速率、體量大等特征,傳統(tǒng)數(shù)據(jù)存儲方法和系統(tǒng)暴露出擴展性弱和存儲實時性低等問題.針對上述問題,設計并實現(xiàn)了一套基于HBase交通流數(shù)據(jù)實時存儲系統(tǒng).該系統(tǒng)采用分布式存儲架構,通過前端的預處理操作對數(shù)據(jù)進行規(guī)范化整理,利用多源緩沖區(qū)結構對不同類型的流數(shù)據(jù)進行隊列劃分,并結合一致性哈希算法、多線程技術、行鍵優(yōu)化設計等策略將數(shù)據(jù)并行存儲到HBase集群服務器中.實驗結果表明:該系統(tǒng)與基于Oracle的實時存儲系統(tǒng)相比,其存儲性能提升了3~5倍;與原生的HBase方法相比,其存儲性能提升了2~3倍,并且具有良好的擴展性能.
電力
HBase 在智能電網(wǎng)異構數(shù)據(jù)同步中的應用:未來的智能電網(wǎng)在運行中將會產生海量的多態(tài)、異構數(shù)據(jù),對這些數(shù)據(jù)的可靠獲取、實時分析、同步及處理會給電網(wǎng)信息系統(tǒng)帶來前所未有的壓力。因此,把電網(wǎng)大數(shù)據(jù)遷移到云端—數(shù)據(jù)中心,來實現(xiàn)異構數(shù)據(jù)的精準、實時同步則顯得尤為必要。以解決未來智能電網(wǎng)大數(shù)據(jù)處理問題為出發(fā)點,通過對電網(wǎng)數(shù)據(jù)中心相關功能需求進行細致分析,對比傳統(tǒng)的關系型數(shù)據(jù)庫建模基礎,提出了基于Hbase架構的智能電網(wǎng)數(shù)據(jù)中心的解決方案。最后通過對比 MySQL 性能進行模擬測試,得出所提出的設計方案能夠很好地適用于未來智能電網(wǎng)數(shù)據(jù)中心的構建以及異構數(shù)據(jù)的同步,達到電網(wǎng)大數(shù)據(jù)的實時共享、監(jiān)測及準確分析、處理的目的,在未來智能電網(wǎng)信息管理系統(tǒng)中具有廣闊的應用前景。
金融
基于HBase的金融時序數(shù)據(jù)存儲系統(tǒng) : 設計并實現(xiàn)了1個基于HBase的金融時序數(shù)據(jù)的存儲系統(tǒng)。設計了基于金融時序數(shù)據(jù)的HBase預分區(qū)策略,可解決HBase存儲熱點的問題;采用了行鍵優(yōu)化策略和基于時序數(shù)據(jù)的表設計策略,可解決數(shù)據(jù)存儲分散的問題;使用了提供異步處理機制的事件驅動的Netty框架所編寫的中間件接收采集器發(fā)送的請求,可解決高并發(fā)事務的處理問題。實驗結果表明,與HBase原生方法相比,該系統(tǒng)的性能在處理高并發(fā)事務時更好。
航空
基于HBase的民用航空發(fā)動機大數(shù)據(jù)管理系統(tǒng) : 為克服傳統(tǒng)關系型數(shù)據(jù)庫存儲管理海量航空發(fā)動機狀態(tài)監(jiān)控數(shù)據(jù)的不足,本研究提出了基于HBase的民用航空發(fā)動機大數(shù)據(jù)管理系統(tǒng).首先分析了該系統(tǒng)的功能需求,給出了系統(tǒng)整體架構與模塊設計,并對關鍵技術進行了闡述.最后設計試驗對比HBase與Oracle的搜索效率.試驗結果表明檢索結果集較大時HBase的搜索效率明顯高于Oracle.本研究中提出的航空發(fā)動機大數(shù)據(jù)管理系統(tǒng)為發(fā)動機海量數(shù)據(jù)的存儲管理提供了一種解決方案.
小文件存儲(圖片視頻等)
一種基于HBase的海量圖片存儲技術 針對海量圖片存儲,已有若干個基于Hadoop的方案被設計出來.這些方案在系統(tǒng)層小文件合并、全局名字空間以及通用性方面存在不足.本文基于HBase提出了一種海量圖片存儲技術,成功解決了上述問題.本文將介紹基于HBase海量圖片存儲技術方案,分析其原理及優(yōu)勢,該方案在城市交通監(jiān)控中得到應用驗證.
基于 HBase 的小文件高效存儲方法 :基于 Hadoop 平臺的相關系統(tǒng)得到了廣泛應用。Hadoop 分布式文件系統(tǒng)(Hadoop distributed file system, HDFS)通過分布式的工作方式,負責處理海量文件數(shù)據(jù)。對 HDFS 而言,海量數(shù)據(jù)中的小文件存儲問題制約著系統(tǒng)高效工作的能力。針對海量數(shù)據(jù)中小文件讀寫效率低的情況,提出一種基于 HBase(Hadoop database)的海量小文件高效存儲方法,利用 HBase 的存儲優(yōu)勢,將小文件直接存儲于 HBase,從而有效減少元數(shù)據(jù)節(jié)點服務器(Name-Node)的負載,并對上層應用系統(tǒng)提供透明的訪問接口。實驗結果表明,該方法可以實現(xiàn)海量小文件的高效存儲,提高 HDFS 環(huán)境下小文件的讀寫效率。