《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 通信與網(wǎng)絡(luò) > 業(yè)界動態(tài) > 云存儲將受制于驅(qū)動器可靠性和帶寬

云存儲將受制于驅(qū)動器可靠性和帶寬

2010-05-25
作者:來源:存儲時代

 最近我們聽到了很多關(guān)于云的新聞,現(xiàn)在你需要考慮,你是否會采用云模式作為你存儲網(wǎng)絡(luò)架構(gòu)的一部分?
     
  云是數(shù)據(jù)存儲架構(gòu)規(guī)劃中的一部分,正如可能會用到云的應(yīng)用一樣,例如Hadoop。數(shù)據(jù)復(fù)制的標準云方法就是使用低成本硬件。原理就是,你通過在發(fā)生故障的情況下復(fù)制數(shù)據(jù)來獲得數(shù)據(jù)可靠性。由于我大部分的工作都是在大型存儲環(huán)境下進行的,而且根據(jù)我對驅(qū)動器故障率的了解,我對使用這種方法來管理數(shù)PB要求高可靠性的數(shù)據(jù)抱有巨大的疑慮。
     
  因此,我想做的就是,帶你一步步地分析用于大多數(shù)云中的低成本硬件。我不會談到刀片的故障率,只有存儲。作為分析的一部分,我查看了所有主流磁盤制造商的網(wǎng)站,采用了所有廠商之間的最佳值,因此很多分析都是最理想的情況,可能你會有不同測量結(jié)果。讓我們一步步地來看。

      每遷移1PB數(shù)據(jù)的硬錯誤
     
   硬錯誤率(或稱為比特誤碼率,BER)對可靠性有很大的影響。我所查看的所有磁盤廠商都規(guī)定了1個扇區(qū)每讀取10EXX比特所發(fā)生的不可恢復(fù)讀取錯誤的誤碼率。

   
  我發(fā)現(xiàn),在云架構(gòu)或者Hadoop中,由于考慮到企業(yè)級SAS和SATA驅(qū)動器之間巨大的成本差距,沒有人會采用企業(yè)級SAS驅(qū)動器,大多數(shù)都使用了最廉價的硬件。
      讀取一個2TB驅(qū)動器的時間
                                
      下文中你將看到為什么這很重要的原因?,F(xiàn)在,先看一看讀取驅(qū)動器上的數(shù)據(jù)需要的時間:
      占滿一個通道的驅(qū)動器數(shù)量
     
  了解占滿不同速度SONET通道所需的驅(qū)動器數(shù)量是很重要的。我在去掉TCP/IP和其他封包及重試延遲對通道的影響之后估計通道的性能,在以這樣的速度雙向運行于全雙工時通道的速率約為90%。
      顯然,占滿有故障的磁盤驅(qū)動器的網(wǎng)絡(luò)帶寬并不需要大量的驅(qū)動器。
   每年的磁盤驅(qū)動器故障
     
  磁盤驅(qū)動器故障公式分為兩個部分。第一個部分是基于硬錯誤率。如果你遷移111TB的數(shù)據(jù),你可以假設(shè)一個磁盤無法讀取寫入到消費級SATA驅(qū)動器中的數(shù)據(jù)。企業(yè)級SATA驅(qū)動器的數(shù)量是1.1TB。另一個部分是年故障率(AFR)。這是每年故障驅(qū)動器占驅(qū)動器總量的比例,是驅(qū)動器廠商自己提供的一個估算值。應(yīng)該注意的是,很少有驅(qū)動器廠商會提供消費級SATA驅(qū)動器的AFR數(shù)據(jù)。下表顯示的是使用2TB  SATA用于不同存儲的驅(qū)動器數(shù)量,以及每年故障驅(qū)動器的估算量。
      另一方面是基于BER的故障,因為這是基于數(shù)據(jù)遷移的,所以我再次選擇了一個保守的數(shù)量,并推測驅(qū)動器占全年總帶寬的5%。
         
      為了確定總故障數(shù)量,你需要向AFR數(shù)量中增加BER(5%):
         
      如果你使用5%這個值并除以365,那么你將得出每天的故障數(shù)量:
         
      將總帶寬利用率小幅提高到7.5%的話,將得到每天每個存儲卷的故障數(shù):
          
  遷移數(shù)據(jù)總量的故障
     
  下面得出的結(jié)論:當使用率為5%、存儲容量為10PB的時候,每天平均你會有15個消費級SATA驅(qū)動器發(fā)生故障。在最好情況下,你大約需要24390秒通過網(wǎng)絡(luò)進行讀取或者寫入每個驅(qū)動器。你最多可以獲得3.37個驅(qū)動器的全部帶寬,24小時獲得總共276 MB/s的帶寬。因此,簡單計算一下,276 MB/sec×3600×24得出每天的總MB/s。對于每個驅(qū)動器,你需要82 MB/s×24390×15個驅(qū)動器故障。以下是不同情況的計算結(jié)果:
      任何負數(shù)意味著驅(qū)動器復(fù)制的要求超過了通道帶寬。例如,在10PB、OC-48和5%驅(qū)動器使用率的情況下,帶寬相當于6167659 MB(這超過了通道帶寬)或者24小時內(nèi)71 MB/s。顯然,隨著時間的推移,這個問題越來越明顯,因為你復(fù)制數(shù)據(jù)的速度還趕不上丟失的速度。從統(tǒng)計概率上說,如果你有10PB的話,最終你將丟掉數(shù)據(jù),而且不會用太長時間。唯一的架構(gòu)選擇就是保留數(shù)據(jù)的第三個副本,而這么做的成本很高。對于一個OC-48通道、使用率為5%的存儲系統(tǒng)來說,拐點發(fā)生在5 PB~10 PB之間,在5 PB、使用率為7.5%的情況下,你只有42 MB/s的多余帶寬(3652149,3600×24)。這時候就需要更高速的網(wǎng)絡(luò)(付出更多成本)或者更可靠的存儲(成本也不低)。
     
  我相信云公司每天都在權(quán)衡著這些成本因素,找出什么是優(yōu)化成本的最佳方法。有沒有可能其中一些人并不了解基本的硬件問題?我當然希望不會是這種情況。顯然,云存儲適用于5PB、OC-48通達和消費級SATA存儲?,F(xiàn)在,有多少云是超過這個存儲容量的?我不之道,但肯定是存在的,對于大型存儲用戶來說,多達10~20 PB的歸檔是很常見的。
     
  云架構(gòu)要比本地存儲架構(gòu)復(fù)雜得多。云存儲可以設(shè)計成一個RAID后端,消除了很多問題,但是我所了解的大多數(shù)云由于成本因素而沒有使用RAID??偟膩碚f,云架構(gòu)和云設(shè)計并不簡單,對于大型數(shù)據(jù)卷來說,我看不出云比本地存儲便宜多少。
     
  驅(qū)動器可靠性和帶寬將限制云的采用,而且這是一個可能永遠也得不到解決的問題。帶寬將越來越便宜,但是驅(qū)動器可靠性并沒有多大改善,數(shù)據(jù)的增長速度仍將超過帶寬。也許基于網(wǎng)絡(luò)的重復(fù)數(shù)據(jù)刪除功能會起到一些幫助作用——如果數(shù)據(jù)可以被重復(fù)數(shù)據(jù)刪除的話。但是就目前來看,對于非常大型的數(shù)據(jù)存儲來說,還沒有一個比老式數(shù)據(jù)中心更好的選擇。
本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。