摘 要: Linux SCSI體系結(jié)構(gòu)及API數(shù)據(jù)結(jié)構(gòu)的操作原理和相關(guān)的系統(tǒng)調(diào)用,運用SCSI API實現(xiàn)了有關(guān)的數(shù)據(jù)存儲。
關(guān)鍵詞: SCSI通用驅(qū)動器 SCSI接口 數(shù)據(jù)存儲
隨著計算機網(wǎng)絡(luò)技術(shù)和計算機圖形圖像處理技術(shù)的飛速發(fā)展,影視行業(yè)對計算機技術(shù)的依賴程度越來越大。影視數(shù)字化編輯播出系統(tǒng)是一個信息量巨大、精度高、實時性強的高速復(fù)雜的分布式多媒體網(wǎng)絡(luò)信息系統(tǒng)。它所需要的網(wǎng)絡(luò)服務(wù)器的規(guī)模很大,因此對服務(wù)器存儲技術(shù)要求非常高。目前服務(wù)器的存儲技術(shù)主要分為二大類:直接連接存儲技術(shù)DAS(Direct-Attached Storage)和附網(wǎng)存儲技術(shù)NAS(Network-Attached Storage)。當(dāng)前DAS的主流技術(shù)是Ultra 3 SCSI和RAID。由于受IDE設(shè)備擴展性的限制及IDE設(shè)備缺乏可替換技術(shù)的支持,目前IDE RAID的應(yīng)用還不多。因此服務(wù)器的DAS技術(shù)一直和SCSI技術(shù)的發(fā)展緊密關(guān)聯(lián),而且在市場上SCSI技術(shù)的影響也很廣泛。
為了建立影視數(shù)字化與空間數(shù)據(jù)組織及管理的原型實驗室,作為其先期的工作,需要對SCSI技術(shù)有深入的研究與分析,以期實現(xiàn)大容量數(shù)據(jù)的高效分布式存儲及調(diào)度。本文對SCSI接口和Linux下的SCSI API進行了詳細的分析,并運用此API作了與數(shù)據(jù)存儲相關(guān)的實現(xiàn)。
1 SCSI接口
SCSI指小型計算機系統(tǒng)接口(Small Computer System Interface),最早研制于1979年,原是為小型機研制出的一種接口技術(shù)。但隨著電腦技術(shù)的發(fā)展,現(xiàn)在它已被完全移植到了普通微機上,如硬盤、光驅(qū)、打印機、光盤刻錄機等設(shè)備。
SCSI接口從技術(shù)和性能上始終擁有頂級設(shè)備的特征。SCSI接口與IDE接口相比具有以下特點:(1)適應(yīng)面廣。使用IDE接口時,會受到系統(tǒng)IRQ(中斷號)及IDE通道的限制,一般情況下每個IDE通道使用一個IRQ,所接的IDE設(shè)備最多不能超過15個。而使用SCSI時,所接的設(shè)備可以超過15個,且所有這些設(shè)備只占用一個IRQ。(2)多任務(wù)。SCSI允許在對一個設(shè)備傳輸數(shù)據(jù)的同時對另一個設(shè)備進行數(shù)據(jù)查找,這對于服務(wù)器來說是非常重要的。因為服務(wù)器常常需要同時處理幾個進程,并且對服務(wù)器硬盤的操作也經(jīng)常是既有讀數(shù)據(jù),又有寫數(shù)據(jù)。(3)寬帶寬。理論上,目前最快的SCSI總線帶寬為160Mbps,這意味著硬盤的傳輸速率最高可達160Mbps(這是理論值,實際應(yīng)用中會降低)。而目前最快的IDE接口硬盤的外部速度為100Mbps(即ATA-100,這也是理論值),而且由于各方面的限制,現(xiàn)在所能用的最高速度只有33Mbps。(4)較少的CPU占用率。使用傳統(tǒng)IDE接口時,CPU需要全程控制數(shù)據(jù)的傳輸操作,所以在IDE傳輸數(shù)據(jù)的過程中,CPU不能執(zhí)行任何操作,直到傳輸結(jié)束才可執(zhí)行后續(xù)的指令。而SCSI在進行數(shù)據(jù)傳輸時,CPU在將傳輸指令傳給SCSI后就可立即處理后續(xù)的指令,傳輸?shù)墓ぷ鲃t交給SCSI卡上的處理芯片自行負責(zé),直到SCSI處理完畢、發(fā)出信號通知CPU后,CPU再進行后續(xù)處理,因此占用CPU資源較少。
2 Linux下的SCSI API
由于SCSI具有多任務(wù)的特點,因此它在多任務(wù)操作系統(tǒng)(如Linux、Windows NT)中可以獲得更高的性能。為了能夠更好地對Linux的SCSI子系統(tǒng)進行管理,本文先對SCSI體系結(jié)構(gòu)和與系統(tǒng)相關(guān)的應(yīng)用接口進行分析,然后再運用API對數(shù)據(jù)存儲相關(guān)方面進行實現(xiàn)。
2.1 SCSI體系結(jié)構(gòu)
從圖1中可以看出,上層支持用戶-內(nèi)核接口,SD屬于磁盤類,SR屬于CD-ROM子系統(tǒng),它們都有一個中斷設(shè)備接口。ST是用來讀寫磁帶的字符驅(qū)動器,SG是用一個字符設(shè)備接口連接設(shè)備的命令,它們都有一個字符設(shè)備接口。SCSI中間層定義了內(nèi)部接口,為上層和下層驅(qū)動器提供服務(wù)。
通過SG驅(qū)動器的請求可以分為三個階段:(1)從用戶接受請求,預(yù)留所需要的資源。如果需要,在用戶區(qū)的數(shù)據(jù)先被傳送到內(nèi)核緩沖區(qū),然后將請求提交給SCSI中間層(然后給適配器)去執(zhí)行。(2)假設(shè)SCSI適配器支持中斷,當(dāng)請求完成時中斷就被接收。當(dāng)中斷到達時,數(shù)據(jù)傳輸即完成。也就是說,如果SCSI命令是READ發(fā)的,則數(shù)據(jù)就在內(nèi)核緩沖區(qū)或者在用戶緩沖區(qū)。(3)用戶通過一個調(diào)用取出請求的結(jié)果。如果需要,內(nèi)核緩沖區(qū)中的數(shù)據(jù)會被傳送到用戶層,此時與這個請求相關(guān)的內(nèi)核資源被釋放。通常write()調(diào)用就是第一階段的發(fā)送請求,之后read()調(diào)用取得數(shù)據(jù)或者出錯信息。另外SCSI中間層自動維護一個隊列以支持多個用戶請求。
2.2 主要數(shù)據(jù)結(jié)構(gòu)
當(dāng)前通用SCSI-3驅(qū)動器的最主要數(shù)據(jù)結(jié)構(gòu)是struct sg_io_hdr。其余的一些數(shù)據(jù)結(jié)構(gòu)是關(guān)于特定驅(qū)動器信息(如struct sg_scsi_id,struct sg_req_info等)的。另外,老版本的SCSI接口struct sg_header是SCSI-2的主要控制結(jié)構(gòu)。
sg_io_hdr中的主要成員有:interface_id,一般情況下它被置為‘S’,標(biāo)志接口的版本;dxfer_direction標(biāo)志數(shù)據(jù)的傳輸模式;SG_SXFER_NONE標(biāo)記測試設(shè)備是否就緒;SG_SXFER_TO_DEV標(biāo)記一個寫命令;SG_SXFER_FROM_DEV標(biāo)記一個讀命令;SG_SXFER_UNKNOWN用在當(dāng)前應(yīng)用程序不清楚具體傳輸模式的情況下;cmdp指向一個SCSI命令的指針;cmd_len代表了命令的長度;dxferp表示用戶內(nèi)存緩沖空間,存放被傳輸數(shù)據(jù);dxfer_len表示緩沖空間的大小;sbp表示錯誤信息的存放地點。其余一些數(shù)據(jù)成員是輔助性的成員,本文不再介紹。此外,有關(guān)命令操作碼可以參看scsi.h文件。
2.3 系統(tǒng)調(diào)用
成功地打開一個sg設(shè)備文件名,就在文件描述符和連接的SCSI設(shè)備間建立了一個連接。sg設(shè)備保存著在SCSI設(shè)備和文件描述符層(如保留緩沖區(qū))中的狀態(tài)信息和資源。即使SCSI設(shè)備被拔掉,一個應(yīng)用仍然可以擁有該設(shè)備的文件描述符。如USB這樣的熱拔插設(shè)備就可以被拔掉,但它的文件描述符仍然存在。此時大多數(shù)試圖訪問該設(shè)備的系統(tǒng)調(diào)用會生成ENODEV錯誤,poll()調(diào)用會產(chǎn)生一個POLLHUP錯誤,但close()調(diào)用會正常完成。如對這個文件進行open()操作,則也會產(chǎn)生一個ENODEV錯誤。
(1)open()調(diào)用
調(diào)用的形式為open(const char*filename,int flags)。
filename為sg設(shè)備文件名。flags為以下標(biāo)記或者為以下標(biāo)記的組合:
O_RDONLY:只能用于read()和ioclt()操作中。
O_RDWR:允許所有的系統(tǒng)調(diào)用執(zhí)行。
O_EXCL:在處理之前等待與SCSI設(shè)備相關(guān)的其他打開關(guān)閉。當(dāng)其他人打開了一個SCSI設(shè)備,如果設(shè)置了O_NONBLOCK就會產(chǎn)生EBUSY。該標(biāo)記不允許和O_RDONLY、O_EXCL一起用。
O_NONBLOCK:設(shè)置non_blocking模式。這個標(biāo)記被ioclt(SG_IO)忽略。
在以上的標(biāo)記中,O_RDONLY和O_RDWR必需設(shè)置,其他標(biāo)記可以任選。
(2)write()調(diào)用
調(diào)用形式為write(int sg_fd,const void*buffer,size_t count)。
buffer應(yīng)該指向數(shù)據(jù)類型為sg_io_hdr_t的對象,count為(sg_io_hdr_t)的大小。如果write()調(diào)用成功,count就作為結(jié)果返回,命令請求就被發(fā)送給SCSI設(shè)備。
(3)read()調(diào)用
調(diào)用形式為read(int sg_d,void*buffer,size_t count)。
buffer應(yīng)該指向數(shù)據(jù)類型為sg_io_hdr_t的對象,count為(sg_io_hdr_t)的大小。如果read()調(diào)用成功,則count作為結(jié)果返回。通常read()返回的是最早被完成的命令請求。
(4)poll()調(diào)用
調(diào)用的形式為poll(struct pollfd*ufds,unsigned int nfds,int timeout)。這個調(diào)用用于測試sg文件的當(dāng)前狀態(tài)。POLLIN說明可以進行read()調(diào)用,POLLOUT則代表可以發(fā)送write()命令,POLLHUP意味一個設(shè)備被分離需要進行清理工作,POLLERR則表示出錯。
(5)close()調(diào)用
調(diào)用的形式為close(int sg_fd)。close()調(diào)用應(yīng)該在所有write()及read()調(diào)用完成之后進行。返回0代表成功,-1表示錯誤。
3 SCSI API在數(shù)據(jù)存儲中的應(yīng)用
在一臺雙CPU HP服務(wù)器(512MB)上掛載了二個Ultra3 Lvd SCSI硬盤,系統(tǒng)平臺為RedHat Linux 7.3,其內(nèi)核為Linux2.4.18。往內(nèi)存中隨機寫入200MB數(shù)據(jù),然后按一定的策略將其分布儲存到二個SCSI硬盤,其算法流程見圖2。
讀操作所涉及到函數(shù)是int sg_read(int sg_fd,unsigned char*buff,int blocks,int from_block,int bs,int*diop)。其中sg_fd代表數(shù)據(jù)源所在設(shè)備的句柄,buff是獲得數(shù)據(jù)的存儲區(qū),這個函數(shù)從sg_fd的from_block處開始讀取blocks*bs大小的數(shù)據(jù)到buff中去。diop標(biāo)志是否使用DMA方式。下面是用C語言編寫的讀操源程序的主要部分,略去了一些完整性控制。
按照上述的算法,將200MB的數(shù)據(jù)分布地寫到二個SCSI硬盤上,同時也將200MB的數(shù)據(jù)寫到一個SCSI硬盤上進行對比測試。測試時使用Linux系統(tǒng)下的time函數(shù)獲得運行時間,圖3的縱坐標(biāo)表示傳輸200MB數(shù)據(jù)所需要的總時間。從圖3中可以得到單硬盤傳輸200MB數(shù)據(jù)所需要的平均時間為12.4112s,平均的傳輸速率為16.115Mbps,這和系統(tǒng)提供的拷貝命令的傳輸速率差不多。按上述算法存儲200MB數(shù)據(jù)所花的平均時間為8.8314s,平均的傳輸速率是22.647Mbps。不難發(fā)現(xiàn)分布儲存的效率比一個硬盤儲存要高40.5%,具體數(shù)據(jù)參見圖3。