123,123

一种MySQL到HBase的迁移策略的研究与实现

2016年微型机与应用第13期

宋春红1，王佳斌2，郑力新1

（1. 华侨大学工学院，福建泉州 362021； 2. 华侨大学工业智能化技术与系统福建省高校工程研究中心，福建泉州 362000）

摘要： 随着Web2.0的到来，互联网数据快速增长。大规模数据的采集和处理及应用直接影响着用户体验，决定着企业的发展。比较传统关系型数据库和分布式非关系型数据库两者处理大数据的性能，将本地数据迁移到分布式数据库势在必行。文章分析了现有迁移工具的利弊，基于HBase数据库提出了一种有效的数据迁移策略，并依据提出的策略实现了一种半自动化迁移工具。以美国城市和方言系统CityDetail数据库数据为例，阐述了该迁移工具的工作原理并对迁移后的数据进行多次查询比较，证明了使用该工具进行数据迁移的高效性。

關(guān)鍵詞： 关系型数据库 HBase 迁移工具

Abstract：

Key words :

　　宋春紅1，王佳斌2，鄭力新1

　?。?. 華僑大學工學院，福建泉州 362021； 2. 華僑大學工業(yè)智能化技術(shù)與系統(tǒng)福建省高校工程研究中心，福建泉州 362000）

　　摘要：隨著Web2.0的到來，互聯(lián)網(wǎng)數(shù)據(jù)快速增長。大規(guī)模數(shù)據(jù)的采集和處理及應(yīng)用直接影響著用戶體驗，決定著企業(yè)的發(fā)展。比較傳統(tǒng)關(guān)系型數(shù)據(jù)庫和分布式非關(guān)系型數(shù)據(jù)庫兩者處理大數(shù)據(jù)的性能，將本地數(shù)據(jù)遷移到分布式數(shù)據(jù)庫勢在必行。文章分析了現(xiàn)有遷移工具的利弊，基于HBase數(shù)據(jù)庫提出了一種有效的數(shù)據(jù)遷移策略，并依據(jù)提出的策略實現(xiàn)了一種半自動化遷移工具。以美國城市和方言系統(tǒng)CityDetail數(shù)據(jù)庫數(shù)據(jù)為例，闡述了該遷移工具的工作原理并對遷移后的數(shù)據(jù)進行多次查詢比較，證明了使用該工具進行數(shù)據(jù)遷移的高效性。

　　關(guān)鍵詞：關(guān)系型數(shù)據(jù)庫；HBase；遷移工具

0引言

　　Web2.0時代，網(wǎng)絡(luò)技術(shù)飛速發(fā)展，個人與企業(yè)都在不斷地創(chuàng)造海量數(shù)據(jù)，在新的掘金大潮中，如何利用數(shù)據(jù)以及將數(shù)據(jù)轉(zhuǎn)化為有價值信息的速度，越來越成為企業(yè)成功與否的決定性因素。實現(xiàn)數(shù)據(jù)的快速分析，并做出指導(dǎo)，對數(shù)據(jù)存儲提出了更大的挑戰(zhàn)。雖然傳統(tǒng)數(shù)據(jù)庫已經(jīng)發(fā)展了很多年，在企業(yè)應(yīng)用方面也形成了很大的使用規(guī)模，但是其在處理大數(shù)據(jù)應(yīng)用方面仍然存在不足［1］。首先，傳統(tǒng)關(guān)系型數(shù)據(jù)庫無法完成大規(guī)模水平拓展，盡管網(wǎng)絡(luò)解決方案在一定程度上解決了這個問題，但網(wǎng)絡(luò)中仍無法動態(tài)地創(chuàng)建集群；其次，關(guān)系型數(shù)據(jù)庫無法有效存儲Web2.0時代的半結(jié)構(gòu)及非結(jié)構(gòu)化數(shù)據(jù)；此外傳統(tǒng)的關(guān)系型數(shù)據(jù)庫也無法滿足大數(shù)據(jù)時代對海量數(shù)據(jù)高效查詢的需求。

　　非關(guān)系型數(shù)據(jù)庫的出現(xiàn)彌補了傳統(tǒng)關(guān)系型數(shù)據(jù)庫在處理大規(guī)模數(shù)據(jù)中的不足。非關(guān)系型數(shù)據(jù)庫是對Cassandra、MongoDB和HBase等眾多支持非關(guān)系化以及弱關(guān)系化數(shù)據(jù)存儲的數(shù)據(jù)庫的統(tǒng)稱。非關(guān)系型數(shù)據(jù)庫中的表主要采用聚合的存儲結(jié)構(gòu)，這就使得數(shù)據(jù)管理更為方便［2］；通過預(yù)分配空間機制輕松實現(xiàn)了海量數(shù)據(jù)存儲；可通過連續(xù)添加服務(wù)節(jié)點來實現(xiàn)擴展，不需要停機維護和數(shù)據(jù)遷移。此外，眾多的非關(guān)系型數(shù)據(jù)庫有著強大的業(yè)務(wù)針對性，在應(yīng)用性能上較傳統(tǒng)關(guān)系型數(shù)據(jù)庫有著顛覆性的提升。其中HBase憑借著與Hadoop的無縫集成和強大的高擴展性以及擁有巨大的多元化社區(qū)的優(yōu)勢［3］，被各大互聯(lián)網(wǎng)企業(yè)爭相應(yīng)用。

　　HBase的廣泛應(yīng)用，使得存儲在傳統(tǒng)關(guān)系型數(shù)據(jù)庫中的歷史數(shù)據(jù)向HBase的遷移成為當下研究熱點。

1國內(nèi)外研究現(xiàn)狀

　　針對傳統(tǒng)關(guān)系型數(shù)據(jù)向HBase遷移的研究，目前，業(yè)界只提出了一些數(shù)據(jù)遷移的方法，卻很少有比較權(quán)威的數(shù)據(jù)遷移工具，更沒有可以遷移原有表模式或者自動化的遷移工具。

　　現(xiàn)有的遷移工具如Hadoop的官方工具Sqoop只支持單表的增量加載，無法完成數(shù)據(jù)庫系統(tǒng)中眾多表模式的遷移；HBase的Importtsv工具只支持TSV等指定文件的遷移；Put方法雖然簡單直接但也只是完成數(shù)據(jù)的遷移且遷移效率不佳。此外國內(nèi)外的大型互聯(lián)網(wǎng)公司如微軟、華為等也都爭相開發(fā)自己的遷移工具，但多是基于自身的商業(yè)應(yīng)用［4］。

　　綜上所述，實現(xiàn)一個自動化或半自動化的數(shù)據(jù)遷移工具很有必要。這樣可以更大限度地利用業(yè)務(wù)存儲在原有關(guān)系型數(shù)據(jù)庫中的歷史數(shù)據(jù)，減少數(shù)據(jù)之間關(guān)系等珍貴資源的浪費，此外，也將避免人工再次錄入。本文針對關(guān)系型數(shù)據(jù)庫MySQL和非關(guān)系型數(shù)據(jù)庫HBase的存儲原理和表結(jié)構(gòu)進行了深入研究，并以CityDetail系統(tǒng)為例闡述了傳統(tǒng)關(guān)系型數(shù)據(jù)庫向HBase遷移的思想，并設(shè)計實現(xiàn)了遷移工具。最終，驗證了通過此方法進行數(shù)據(jù)遷移后，對數(shù)據(jù)庫查詢的高效性。

2數(shù)據(jù)庫的存儲原理分析

　　2.1關(guān)系型數(shù)據(jù)庫存儲原理

　　關(guān)系型數(shù)據(jù)庫［5］是一種建立在關(guān)系模型基礎(chǔ)上的數(shù)據(jù)庫。關(guān)系型數(shù)據(jù)庫中用一張二維表代表現(xiàn)實世界中的實體，用表中的字段代表實體的屬性，用外鍵等聯(lián)合操作代表實體之間的關(guān)系。表中的一行即一個記錄代表了一個實體，一個或多個這樣的表以及表之間的關(guān)系組成了一個關(guān)系型數(shù)據(jù)庫。

　　關(guān)系型數(shù)據(jù)庫MySQL中默認安裝INFORMATION_SCHEMA數(shù)據(jù)庫。INFORMATION_SCHEMA數(shù)據(jù)庫中存儲著MySQL中所有數(shù)據(jù)庫的表名、列名、記錄條數(shù)、主鍵、外鍵以及過程和方法等信息。這些存儲在INFORMATION_SCHEMA中的數(shù)據(jù)就叫做數(shù)據(jù)庫系統(tǒng)的元數(shù)據(jù)。如圖１所示。

　　元數(shù)據(jù)是用來描述數(shù)據(jù)的數(shù)據(jù)［6］，用來支持如數(shù)據(jù)的存儲位置、歷史數(shù)據(jù)、資源查找等功能。元數(shù)據(jù)可以視為一種電子目錄，用來協(xié)助數(shù)據(jù)檢索。在關(guān)系型數(shù)據(jù)庫中利用DESCRIB等SQL語句進行檢索時就是查詢的數(shù)據(jù)庫中的這些元數(shù)據(jù)。因此，在數(shù)據(jù)遷移的過程中，可以利用對關(guān)系型數(shù)據(jù)庫中元數(shù)據(jù)表的查詢快速獲取關(guān)系型數(shù)據(jù)庫中各個表的模式和各表之間的關(guān)系，然后進行遷移。

　　2.2HBase的存儲原理

　　非關(guān)系型數(shù)據(jù)庫HBase是對Google的BigTable數(shù)據(jù)庫的開源實現(xiàn)。它經(jīng)常被描述為是一種稀疏的、分布式的、持久化的多為映射［7］。HBase中的邏輯視圖如圖2所示。

　　由圖2可以看出HBase的表是一個稀疏矩陣。HBase與傳統(tǒng)關(guān)系型數(shù)據(jù)庫表所不同的是：它可以存儲半結(jié)構(gòu)化數(shù)據(jù)，即HBase中的表在設(shè)計上沒有嚴格的限制［8］，數(shù)據(jù)記錄可能包含不一致的列、不確定大小等。此外，與關(guān)系型數(shù)據(jù)庫不同，HBase在存儲上基于列而非行，因此對同列中的數(shù)據(jù)具有較好的查詢性能。HBase表可以有數(shù)百萬列和數(shù)十億行，因此可以用來存儲大規(guī)模數(shù)據(jù)。HBase中實際上定義了如下的思維數(shù)據(jù)模型［7］，分別為：

　　（1）表。HBase用表來組織數(shù)據(jù)，表名為字符串。

　　（2）行鍵。HBase表中，數(shù)據(jù)按行存儲。行由行鍵唯一標志，行鍵沒有數(shù)據(jù)類型，總是被視為字節(jié)數(shù)組。

　?。?）列族。表中的數(shù)據(jù)在行中被組織成列族，列族也影響到HBase數(shù)據(jù)的物理存放。系統(tǒng)會把列族存儲在HBase自己的數(shù)據(jù)庫中，所以列族要在建表時定義好并且不能輕易修改。此外，HBase中每行有相同的列族，相同列族下可以擁有不同的列限定符。

　　（4）列限定符。列族里的數(shù)據(jù)通過列限定符或列來定位。與列族不同，列限定符可以不必事前定義。列限定符也不必在不同行之間保持一致。列限定符沒有數(shù)據(jù)類型，總是視為字節(jié)數(shù)組。

　　（5）單元。行鍵、列族和列限定符一起確定了一個單元。存儲在單元里的數(shù)據(jù)稱為單元值。值沒有數(shù)據(jù)類型，視為字節(jié)數(shù)組byte［］。

　?。?）時間版本。HBase中用版本來存儲單元值在不同時間的值，默認存儲3個版本。時間版本用時間戳來標識。

　　在物理上，HBase的數(shù)據(jù)存儲在HDFS中，能夠很好地利用HDFS的分布式處理模式，并從Hadoop的MapReduce程序模型中獲益。HBase邏輯上的表在行的方向上分割成多個HRegion,HRegion按大小分割，每張表開始只有一個Region,隨著記錄數(shù)的不斷增加，Region不斷增大，當增大到一定程度時，HRegion會被等分成兩個新的HRegion。HRegion是HBase中分布式存儲和負載均衡的最小單元，但卻不是存儲的最小單元。HRegion由一個或者多個Store組成，每個Store保存了表中的一個列族。每個Store又由一個Memstore和0至多個StoreFile(HFile)組成,StoreFile用來存儲數(shù)據(jù)并以HFile的形式保存在HDFS上［9］。

3遷移工具的主要模塊

　　本遷移系統(tǒng)的主要組成模塊為如下幾個部分。

　　3.1提取源數(shù)據(jù)庫中的表模式

　　通過對傳統(tǒng)關(guān)系型數(shù)據(jù)庫中存儲結(jié)構(gòu)的分析可知，INFORMATION_SCHEMA數(shù)據(jù)庫存儲了MySQL中所有數(shù)據(jù)表的元數(shù)據(jù)，因此可以通過對這些元數(shù)據(jù)的訪問，快速提取到要遷移的MySQL數(shù)據(jù)庫中所有源數(shù)據(jù)的表模式。

　　INFORMATION_SCHEMA數(shù)據(jù)庫中的SCHEMATA表提供了當前MySQL實例中所有數(shù)據(jù)庫的信息，SQL查詢語言show datatables的結(jié)果就是出自此表。TABLES表提供了關(guān)于數(shù)據(jù)庫中的表信息，詳細描述了某個表屬于哪個SCHEMA以及表類型、表名稱、每個表的記錄數(shù)以及創(chuàng)建時間等信息。COLUMNS表提供了表中的列信息，詳細表述了某張表的所有列以及每個列的信息。STATISTICS表提供了表中所有的索引信息，此外還有描述表的用戶權(quán)限等的元數(shù)據(jù)。通過對這些表的聯(lián)合訪問，可以快速提取源數(shù)據(jù)庫模式，避免因?qū)?shù)據(jù)庫中的數(shù)據(jù)表的訪問而延長響應(yīng)時間。

　　3.2表模式的轉(zhuǎn)換

　　通過對HBase數(shù)據(jù)庫存儲結(jié)構(gòu)的研究可知，HBase數(shù)據(jù)庫中表的結(jié)構(gòu)與傳統(tǒng)關(guān)系型數(shù)據(jù)庫有所不同。HBase中的各表之間不存在關(guān)聯(lián)關(guān)系，也不存在關(guān)系型數(shù)據(jù)庫中的Join連接查詢等操作。要進行表模式的遷移就必須將傳統(tǒng)關(guān)系型數(shù)據(jù)庫中存在相互聯(lián)系的數(shù)據(jù)遷移到HBase中的同一行中。考慮到HBase數(shù)據(jù)庫的特殊表結(jié)構(gòu)和存儲結(jié)構(gòu)，為了使遷移后的數(shù)據(jù)盡量不影響業(yè)務(wù)功能，對數(shù)據(jù)的表模式做以下轉(zhuǎn)換［10］:

　?。?）基本表的轉(zhuǎn)換

　　對CityDetail系統(tǒng)中的所有表進行基本轉(zhuǎn)換就是直接將源數(shù)據(jù)表遷移到HBase端。把源數(shù)據(jù)表的表名作為HBase表的表名，主鍵作為行鍵，表名和列名的組合作為HBase端表中的列限定符，版本設(shè)置為1。

　?。?）內(nèi)嵌轉(zhuǎn)換

　　在CityDetail系統(tǒng)中存在Country表與City表之間的關(guān)聯(lián)關(guān)系，同時存在Country表與CountryLanguage表之間的關(guān)聯(lián)關(guān)系。HBase中的物理存儲結(jié)構(gòu)決定了HBase表的不同列族存儲在不同的Store文件中，又因為源數(shù)據(jù)中對不同表的連接查詢操作要遠遠少于單表的操作，因此將City表和CountryLanguage表分別作為Country表的一個列族進行存儲即可。所以，要實現(xiàn)這類表的遷移就要保留Country的表模式，然后對City表和CountryLanguage表進行分割，作為Country表的一個列族添加在Country表中。

　?。?）遞歸轉(zhuǎn)換

　　在CityDetail系統(tǒng)中除存在Country表與City表之間的關(guān)聯(lián)關(guān)系外，還存在著下一級如Detail表和City表之間的關(guān)聯(lián)關(guān)系。要完成這一類型表的遷移，就要在Country表和City表進行內(nèi)嵌轉(zhuǎn)換的基礎(chǔ)上，對City表和Detail表也進行深一級的內(nèi)嵌變換。根據(jù)遞歸原理，先將Detail表進行分割，作為City表相應(yīng)行中的一個列族，然后再對City表進行分割，作為Country表的一個列族進行遷移。

　?。?）分割轉(zhuǎn)換

　　根據(jù)關(guān)系型數(shù)據(jù)庫的關(guān)系范式［11］可知，表之間還可能存在同一個表Describe是另外三個表Country、City和CountryLanguage的子表的情況，針對這類關(guān)系的轉(zhuǎn)換可以通過對Describe表進行分割，并分別添加到三個表對應(yīng)的列族下的方法來完成。

　　通過以上四種轉(zhuǎn)換方式的整合應(yīng)用，最終完成CityDetail系統(tǒng)的所有表模式的遷移。

4設(shè)計實現(xiàn)

　　本文設(shè)計的遷移系統(tǒng)流程圖如圖3所示。

　?。?)連接關(guān)系型數(shù)據(jù)庫MySQL

　　首先在Java程序中使用Class.forName()語句加載MySQL的JDBC驅(qū)動程序，然后用語句“Connection conn = DriverManager.getConnection(url, user, password)”創(chuàng)建一個新的連接,進而訪問數(shù)據(jù)庫的元數(shù)據(jù)，獲取表模式。

　?。?)模式轉(zhuǎn)換

　　遍歷（1)中獲取的所有表模式，利用前文提到的四種轉(zhuǎn)換方式轉(zhuǎn)換得到遷移后的HBase中的表模式。

　?。?)連接HBase數(shù)據(jù)庫

　　通過語句“Configuration conf=HBaseConfigurAtion.create()”獲取HBase數(shù)據(jù)庫中的配置信息，然后用語句“table=new HTable(conf,tablename)”在HBase中創(chuàng)建新表，根據(jù)（2)中轉(zhuǎn)換得到的表模式,用語句“byte［］ family=Bytes.toBytes("n")”指定各列族的名稱。至此，遷移系統(tǒng)的表模式遷移完畢。

　?。?)數(shù)據(jù)遷移

　　在數(shù)據(jù)遷移模塊中要分別連接兩個數(shù)據(jù)庫。首先，連接MySQL數(shù)據(jù)庫，創(chuàng)建一個MySQL Object用于訪問MySQL中指定的數(shù)據(jù)庫，用SQL查詢語句循環(huán)遍歷數(shù)據(jù)，獲取數(shù)據(jù)庫中的記錄，然后連接創(chuàng)建的HBase數(shù)據(jù)表，生成HBase Object，用Put方法依次將SELECT查詢獲取的數(shù)據(jù)記錄插入到HBase的表中，最終關(guān)閉數(shù)據(jù)對象，完成數(shù)據(jù)遷移。

5測試與結(jié)論

　　實驗測試在Hadoop集群上進行，集群包括4臺主機，每臺主機都安裝了Hadoop、HBase和Zookeeper,集群信息如表1所示。

　　本試驗分別用本文所提數(shù)據(jù)遷移工具與Apache為Hadoop配置的官方數(shù)據(jù)遷移工具Sqoop對CityDetail系統(tǒng)進行遷移，并使用不同大小的數(shù)據(jù)集對兩種工具的遷移過程和結(jié)果進行了對比。

　　首先，在遷移過程的繁簡方面，Sqoop工具是在終端上通過指定參數(shù)包括連接數(shù)據(jù)庫的語句、遷移前后的數(shù)據(jù)表名、屬性名等來完成數(shù)據(jù)的遷移。在參數(shù)指定上比較繁瑣，不容易操作。而本文遷移工具從獲取表模式到建立HBase數(shù)據(jù)表和遷移數(shù)據(jù)均由系統(tǒng)自動完成，比較而言，自動化程度較高。

　　其次，在查詢性能上，由于本文遷移工具完成了表模型的轉(zhuǎn)換和遷移，而Sqoop只是機械化地遷移了特定表中的數(shù)據(jù)，并沒有進行表模式的遷移，兩者比較，前者遷移結(jié)果存在很大的優(yōu)勢。以典型的SQL查詢語句：“SELECT Name,Language where Country.CountryCode=Language.CountryCode” 為例，兩者的查詢結(jié)果如圖4。

　　從圖4可以看出，本文遷移工具較Sqoop在查詢性能上有了很大的改善。因為本文遷移工具通過對表模式的轉(zhuǎn)換，將屬于同一條記錄的信息存儲在了一個HRegion中，同一表中的數(shù)據(jù)存儲在了同一個Store文件中，查詢時，減少了多次尋址的過程，從而降低了系統(tǒng)響應(yīng)時間。

6結(jié)論

　　本文通過對CityDetail系統(tǒng)從MySQL數(shù)據(jù)庫到HBase數(shù)據(jù)庫的遷移案例分析，研究了MySQL數(shù)據(jù)庫和HBase數(shù)據(jù)庫存儲數(shù)據(jù)的原理，提出通過訪問MySQL數(shù)據(jù)庫元數(shù)據(jù)快速提取表模式并轉(zhuǎn)換遷移的方法，解決了以往遷移工具不能遷移表模式的問題。在盡量保證數(shù)據(jù)完整性的前提下，提高了遷移速度、自動化程度和遷移后數(shù)據(jù)的查詢性能。但是，由于HBase中存在唯一索引，在多條件查詢上的查詢性能肯定會較MySQL有較大的下降，因此關(guān)于索引的優(yōu)化還有待學習和研究。

參考文獻

　　［1］莫扎特.大數(shù)據(jù)和NoSQL：關(guān)系型數(shù)據(jù)庫的不足之處［EB/OL］.（20140811）［20160310］.http://www.36dsj.com/archives/11078.

　?。?］邱勝海，高成沖，王云霞，等.大數(shù)據(jù)時代非關(guān)系型數(shù)據(jù)庫教學與實驗改革探索［J］.電腦知識與技術(shù)，2013(31)：70467048.

　?。?］唐長城,楊峰，代棟，等.一種基于HBase的數(shù)據(jù)持久性和可用性研究［J］.計算機系統(tǒng)應(yīng)用,2013，22(10):175178.

　?。?］蔣燚峰.HBase管理指南［M］.北京：人民郵電出版社，2013.

　?。?］黎明.昆明學院信息系統(tǒng)分析與設(shè)計［D］.昆明：云南大學，2013.

　　［6］趙慶峰，鞠英杰.國內(nèi)元數(shù)據(jù)研究綜述［J］.現(xiàn)代情報,2003,23(11):4245.

　　［7］ DIMIDUK N, KAURANA A.HBase實戰(zhàn)［M］.謝磊,譯.北京:人民郵電出版社,2013.

　　［8］平利強.基于云計算的海量時空數(shù)據(jù)存儲及挖掘方法的研究和應(yīng)用［D］.杭州:杭州電子科技大學,2014.

　?。?］郝樹魁. 分布式存儲系統(tǒng)HBase原理解析［EB/OL］.(20101216)［20160310］.http://www.paper.edu.cn/releasepaper/content/201012591.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容