《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 設計應用 > Linux下SCSI API研究及應用
Linux下SCSI API研究及應用
許先斌 彭潤年 王慧星
摘要: Linux SCSI體系結構及API數(shù)據(jù)結構的操作原理和相關的系統(tǒng)調(diào)用,運用SCSI API實現(xiàn)了有關的數(shù)據(jù)存儲。
Abstract:
Key words :

  摘  要: Linux SCSI體系結構及API數(shù)據(jù)結構的操作原理和相關的系統(tǒng)調(diào)用,運用SCSI API實現(xiàn)了有關的數(shù)據(jù)存儲。

  關鍵詞: SCSI通用驅(qū)動器  SCSI接口  數(shù)據(jù)存儲

 

  隨著計算機網(wǎng)絡技術和計算機圖形圖像處理技術的飛速發(fā)展,影視行業(yè)對計算機技術的依賴程度越來越大。影視數(shù)字化編輯播出系統(tǒng)是一個信息量巨大、精度高、實時性強的高速復雜的分布式多媒體網(wǎng)絡信息系統(tǒng)。它所需要的網(wǎng)絡服務器的規(guī)模很大,因此對服務器存儲技術要求非常高。目前服務器的存儲技術主要分為二大類:直接連接存儲技術DAS(Direct-Attached Storage)和附網(wǎng)存儲技術NAS(Network-Attached Storage)。當前DAS的主流技術是Ultra 3 SCSI和RAID。由于受IDE設備擴展性的限制及IDE設備缺乏可替換技術的支持,目前IDE RAID的應用還不多。因此服務器的DAS技術一直和SCSI技術的發(fā)展緊密關聯(lián),而且在市場上SCSI技術的影響也很廣泛。

  為了建立影視數(shù)字化與空間數(shù)據(jù)組織及管理的原型實驗室,作為其先期的工作,需要對SCSI技術有深入的研究與分析,以期實現(xiàn)大容量數(shù)據(jù)的高效分布式存儲及調(diào)度。本文對SCSI接口和Linux下的SCSI API進行了詳細的分析,并運用此API作了與數(shù)據(jù)存儲相關的實現(xiàn)。

1  SCSI接口

  SCSI指小型計算機系統(tǒng)接口(Small Computer System Interface),最早研制于1979年,原是為小型機研制出的一種接口技術。但隨著電腦技術的發(fā)展,現(xiàn)在它已被完全移植到了普通微機上,如硬盤、光驅(qū)、打印機、光盤刻錄機等設備。

  SCSI接口從技術和性能上始終擁有頂級設備的特征。SCSI接口與IDE接口相比具有以下特點:(1)適應面廣。使用IDE接口時,會受到系統(tǒng)IRQ(中斷號)及IDE通道的限制,一般情況下每個IDE通道使用一個IRQ,所接的IDE設備最多不能超過15個。而使用SCSI時,所接的設備可以超過15個,且所有這些設備只占用一個IRQ。(2)多任務。SCSI允許在對一個設備傳輸數(shù)據(jù)的同時對另一個設備進行數(shù)據(jù)查找,這對于服務器來說是非常重要的。因為服務器常常需要同時處理幾個進程,并且對服務器硬盤的操作也經(jīng)常是既有讀數(shù)據(jù),又有寫數(shù)據(jù)。(3)寬帶寬。理論上,目前最快的SCSI總線帶寬為160Mbps,這意味著硬盤的傳輸速率最高可達160Mbps(這是理論值,實際應用中會降低)。而目前最快的IDE接口硬盤的外部速度為100Mbps(即ATA-100,這也是理論值),而且由于各方面的限制,現(xiàn)在所能用的最高速度只有33Mbps。(4)較少的CPU占用率。使用傳統(tǒng)IDE接口時,CPU需要全程控制數(shù)據(jù)的傳輸操作,所以在IDE傳輸數(shù)據(jù)的過程中,CPU不能執(zhí)行任何操作,直到傳輸結束才可執(zhí)行后續(xù)的指令。而SCSI在進行數(shù)據(jù)傳輸時,CPU在將傳輸指令傳給SCSI后就可立即處理后續(xù)的指令,傳輸?shù)墓ぷ鲃t交給SCSI卡上的處理芯片自行負責,直到SCSI處理完畢、發(fā)出信號通知CPU后,CPU再進行后續(xù)處理,因此占用CPU資源較少。

2 Linux下的SCSI API

  由于SCSI具有多任務的特點,因此它在多任務操作系統(tǒng)(如Linux、Windows NT)中可以獲得更高的性能。為了能夠更好地對Linux的SCSI子系統(tǒng)進行管理,本文先對SCSI體系結構和與系統(tǒng)相關的應用接口進行分析,然后再運用API對數(shù)據(jù)存儲相關方面進行實現(xiàn)。

2.1 SCSI體系結構

  從圖1中可以看出,上層支持用戶-內(nèi)核接口,SD屬于磁盤類,SR屬于CD-ROM子系統(tǒng),它們都有一個中斷設備接口。ST是用來讀寫磁帶的字符驅(qū)動器,SG是用一個字符設備接口連接設備的命令,它們都有一個字符設備接口。SCSI中間層定義了內(nèi)部接口,為上層和下層驅(qū)動器提供服務。

 

  通過SG驅(qū)動器的請求可以分為三個階段:(1)從用戶接受請求,預留所需要的資源。如果需要,在用戶區(qū)的數(shù)據(jù)先被傳送到內(nèi)核緩沖區(qū),然后將請求提交給SCSI中間層(然后給適配器)去執(zhí)行。(2)假設SCSI適配器支持中斷,當請求完成時中斷就被接收。當中斷到達時,數(shù)據(jù)傳輸即完成。也就是說,如果SCSI命令是READ發(fā)的,則數(shù)據(jù)就在內(nèi)核緩沖區(qū)或者在用戶緩沖區(qū)。(3)用戶通過一個調(diào)用取出請求的結果。如果需要,內(nèi)核緩沖區(qū)中的數(shù)據(jù)會被傳送到用戶層,此時與這個請求相關的內(nèi)核資源被釋放。通常write()調(diào)用就是第一階段的發(fā)送請求,之后read()調(diào)用取得數(shù)據(jù)或者出錯信息。另外SCSI中間層自動維護一個隊列以支持多個用戶請求。

2.2 主要數(shù)據(jù)結構

  當前通用SCSI-3驅(qū)動器的最主要數(shù)據(jù)結構是struct sg_io_hdr。其余的一些數(shù)據(jù)結構是關于特定驅(qū)動器信息(如struct sg_scsi_id,struct sg_req_info等)的。另外,老版本的SCSI接口struct sg_header是SCSI-2的主要控制結構。

  sg_io_hdr中的主要成員有:interface_id,一般情況下它被置為‘S’,標志接口的版本;dxfer_direction標志數(shù)據(jù)的傳輸模式;SG_SXFER_NONE標記測試設備是否就緒;SG_SXFER_TO_DEV標記一個寫命令;SG_SXFER_FROM_DEV標記一個讀命令;SG_SXFER_UNKNOWN用在當前應用程序不清楚具體傳輸模式的情況下;cmdp指向一個SCSI命令的指針;cmd_len代表了命令的長度;dxferp表示用戶內(nèi)存緩沖空間,存放被傳輸數(shù)據(jù);dxfer_len表示緩沖空間的大小;sbp表示錯誤信息的存放地點。其余一些數(shù)據(jù)成員是輔助性的成員,本文不再介紹。此外,有關命令操作碼可以參看scsi.h文件。

2.3 系統(tǒng)調(diào)用

  成功地打開一個sg設備文件名,就在文件描述符和連接的SCSI設備間建立了一個連接。sg設備保存著在SCSI設備和文件描述符層(如保留緩沖區(qū))中的狀態(tài)信息和資源。即使SCSI設備被拔掉,一個應用仍然可以擁有該設備的文件描述符。如USB這樣的熱拔插設備就可以被拔掉,但它的文件描述符仍然存在。此時大多數(shù)試圖訪問該設備的系統(tǒng)調(diào)用會生成ENODEV錯誤,poll()調(diào)用會產(chǎn)生一個POLLHUP錯誤,但close()調(diào)用會正常完成。如對這個文件進行open()操作,則也會產(chǎn)生一個ENODEV錯誤。

  (1)open()調(diào)用

  調(diào)用的形式為open(const char*filename,int flags)。

  filename為sg設備文件名。flags為以下標記或者為以下標記的組合:

  O_RDONLY:只能用于read()和ioclt()操作中。

  O_RDWR:允許所有的系統(tǒng)調(diào)用執(zhí)行。

  O_EXCL:在處理之前等待與SCSI設備相關的其他打開關閉。當其他人打開了一個SCSI設備,如果設置了O_NONBLOCK就會產(chǎn)生EBUSY。該標記不允許和O_RDONLY、O_EXCL一起用。

  O_NONBLOCK:設置non_blocking模式。這個標記被ioclt(SG_IO)忽略。

  在以上的標記中,O_RDONLY和O_RDWR必需設置,其他標記可以任選。

  (2)write()調(diào)用

  調(diào)用形式為write(int sg_fd,const void*buffer,size_t count)。

buffer應該指向數(shù)據(jù)類型為sg_io_hdr_t的對象,count為(sg_io_hdr_t)的大小。如果write()調(diào)用成功,count就作為結果返回,命令請求就被發(fā)送給SCSI設備。

  (3)read()調(diào)用

  調(diào)用形式為read(int sg_d,void*buffer,size_t count)。

  buffer應該指向數(shù)據(jù)類型為sg_io_hdr_t的對象,count為(sg_io_hdr_t)的大小。如果read()調(diào)用成功,則count作為結果返回。通常read()返回的是最早被完成的命令請求。

  (4)poll()調(diào)用

  調(diào)用的形式為poll(struct pollfd*ufds,unsigned int nfds,int timeout)。這個調(diào)用用于測試sg文件的當前狀態(tài)。POLLIN說明可以進行read()調(diào)用,POLLOUT則代表可以發(fā)送write()命令,POLLHUP意味一個設備被分離需要進行清理工作,POLLERR則表示出錯。

  (5)close()調(diào)用

  調(diào)用的形式為close(int sg_fd)。close()調(diào)用應該在所有write()及read()調(diào)用完成之后進行。返回0代表成功,-1表示錯誤。

3  SCSI API在數(shù)據(jù)存儲中的應用

  在一臺雙CPU HP服務器(512MB)上掛載了二個Ultra3 Lvd SCSI硬盤,系統(tǒng)平臺為RedHat Linux 7.3,其內(nèi)核為Linux2.4.18。往內(nèi)存中隨機寫入200MB數(shù)據(jù),然后按一定的策略將其分布儲存到二個SCSI硬盤,其算法流程見圖2。

讀操作所涉及到函數(shù)是int sg_read(int sg_fd,unsigned char*buff,int blocks,int from_block,int bs,int*diop)。其中sg_fd代表數(shù)據(jù)源所在設備的句柄,buff是獲得數(shù)據(jù)的存儲區(qū),這個函數(shù)從sg_fd的from_block處開始讀取blocks*bs大小的數(shù)據(jù)到buff中去。diop標志是否使用DMA方式。下面是用C語言編寫的讀操源程序的主要部分,略去了一些完整性控制。

 

  

 

  按照上述的算法,將200MB的數(shù)據(jù)分布地寫到二個SCSI硬盤上,同時也將200MB的數(shù)據(jù)寫到一個SCSI硬盤上進行對比測試。測試時使用Linux系統(tǒng)下的time函數(shù)獲得運行時間,圖3的縱坐標表示傳輸200MB數(shù)據(jù)所需要的總時間。從圖3中可以得到單硬盤傳輸200MB數(shù)據(jù)所需要的平均時間為12.4112s,平均的傳輸速率為16.115Mbps,這和系統(tǒng)提供的拷貝命令的傳輸速率差不多。按上述算法存儲200MB數(shù)據(jù)所花的平均時間為8.8314s,平均的傳輸速率是22.647Mbps。不難發(fā)現(xiàn)分布儲存的效率比一個硬盤儲存要高40.5%,具體數(shù)據(jù)參見圖3。

 

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權禁止轉(zhuǎn)載。