《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 通信與網(wǎng)絡(luò) > 業(yè)界動態(tài) > 一種高速數(shù)據(jù)包捕獲系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

一種高速數(shù)據(jù)包捕獲系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

2008-03-20
作者:饒 超,黃 建,頓新平

  摘 要: 提出一種針對高速光網(wǎng)絡(luò)環(huán)境的數(shù)據(jù)包捕獲平臺的設(shè)計(jì)方案。采用軟硬件結(jié)合" title="軟硬件結(jié)合">軟硬件結(jié)合的設(shè)計(jì)思想,由系統(tǒng)硬件完成數(shù)據(jù)包的解析和過濾,軟件根據(jù)硬件解析結(jié)果將數(shù)據(jù)直接向應(yīng)用進(jìn)程分發(fā)。驅(qū)動部分借鑒了零拷貝和循環(huán)緩沖區(qū)技術(shù),并進(jìn)行了中斷優(yōu)化以降低數(shù)據(jù)采集的CPU占用率。
  關(guān)鍵詞: 軟硬件結(jié)合 規(guī)則? 包捕獲? 64位PCI? OC48接口

?

  隨著網(wǎng)絡(luò)的普及,安全問題正威脅著每個(gè)網(wǎng)絡(luò)用戶。因此對計(jì)算機(jī)的網(wǎng)絡(luò)監(jiān)控十分必要,而其中對網(wǎng)絡(luò)數(shù)據(jù)包的捕獲和分析尤為重要。隨著網(wǎng)絡(luò)帶寬不斷增加,監(jiān)控高速網(wǎng)絡(luò)數(shù)據(jù)流的需求越來越明顯,各種數(shù)據(jù)包捕獲技術(shù)在大規(guī)模寬帶網(wǎng)絡(luò)的入侵檢測系統(tǒng)[1]、大流量網(wǎng)絡(luò)數(shù)據(jù)情況下的網(wǎng)絡(luò)協(xié)議分析、寬帶網(wǎng)絡(luò)防火墻和高性能路由器等領(lǐng)域中,都具有廣泛的應(yīng)用前景。
1 傳統(tǒng)方案
  傳統(tǒng)的數(shù)據(jù)包捕獲方案一般是基于普通的網(wǎng)卡,通過應(yīng)用程序和支持庫把網(wǎng)卡設(shè)置成混雜模式[2],從而繞開網(wǎng)卡通常的工作程序,使之能夠接受目標(biāo)地址而不是自己MAC地址的數(shù)據(jù)包,再經(jīng)過過濾、解析實(shí)現(xiàn)監(jiān)控。
  目前實(shí)現(xiàn)包捕獲功能的軟件有很多。支持Linux操作系統(tǒng)的Libpcap[3]庫就是基于BPF模型一個(gè)典型數(shù)據(jù)包捕獲平臺。Libpcap 實(shí)質(zhì)上是一個(gè)系統(tǒng)獨(dú)立的 API 函數(shù)接口,用于用戶層次的數(shù)據(jù)包截獲工作。它為底層網(wǎng)絡(luò)監(jiān)控編程提供了易于移植的應(yīng)用框架。利用Libpcap庫開發(fā)的網(wǎng)絡(luò)監(jiān)控的工具如Tcpdump[3]等,大多有效地利用了庫中的接口實(shí)現(xiàn)了按需捕獲功能。但是總體上來看,這些工具由于設(shè)計(jì)上的限制,即使工作在非常強(qiáng)大的硬件平臺上,在面對現(xiàn)代高速網(wǎng)絡(luò)時(shí)也越來越難以應(yīng)付,特別是在快于千兆的光網(wǎng)絡(luò)環(huán)境中,常常因?yàn)閬聿患疤幚韺?dǎo)致丟包相當(dāng)嚴(yán)重。
2 改進(jìn)方案概述
  這是一種采用軟硬件結(jié)合的高速數(shù)據(jù)包捕獲實(shí)現(xiàn)方案。為了能適用于高速光網(wǎng)絡(luò)環(huán)境,硬件部分完成了對實(shí)時(shí)性要求高的數(shù)據(jù)包的預(yù)處理工作,軟件部分在后期能夠?qū)?shù)據(jù)包進(jìn)行再次的深度處理。整個(gè)系統(tǒng)硬件的關(guān)鍵在包解析處理模塊" title="處理模塊">處理模塊和規(guī)則管理模塊。包解析處理模塊實(shí)現(xiàn)了數(shù)據(jù)包的預(yù)處理;規(guī)則管理模塊則用于規(guī)則存儲和查找,包解析處理模塊對數(shù)據(jù)包的過濾有賴于查找的結(jié)果。基于硬件配置的靈活性,可以在前期就將未匹配成功、校驗(yàn)出錯(cuò)、太短或太長等不符合要求的數(shù)據(jù)包丟棄,后期處理階段可以專注于對有處理需求的數(shù)據(jù)包進(jìn)行解析,極大地提高了整個(gè)系統(tǒng)的性能。另外,由于目前大部分寬帶IP網(wǎng)的地市級出口基本上都是由2.5Gbps POS(Packet Over SONET)鏈路組成,每個(gè)設(shè)備采用了兩路2.5Gbps OC48 POS接口作為數(shù)據(jù)輸入;而輸出端采用了64 bit 66MHz的PCI總線設(shè)計(jì),從而在主機(jī)一側(cè)保證帶寬。為了適應(yīng)更高的采樣需求,驅(qū)動在設(shè)計(jì)上支持多設(shè)備協(xié)同工作。
  系統(tǒng)軟件部分基于Linux操作系統(tǒng)平臺,由驅(qū)動程序和自定義的庫函數(shù)組成。驅(qū)動程序?qū)崿F(xiàn)了系統(tǒng)各芯片的初始化,響應(yīng)上層對規(guī)則和硬件配置的要求和維護(hù)數(shù)據(jù)緩沖區(qū)等功能。庫函數(shù)介于應(yīng)用程序與驅(qū)動程序之間,起到一個(gè)橋梁中介作用,主要向上層提供類似Libpcap的API,從而把復(fù)雜的處理函數(shù)封裝起來,給用戶一個(gè)簡潔通用的接口。
  考慮到傳統(tǒng)方案主要在網(wǎng)卡中斷、內(nèi)存操作、用戶態(tài)和內(nèi)核態(tài)間的拷貝等方面存在瓶頸,軟件中做了幾項(xiàng)改進(jìn):(1)改進(jìn)了中斷方式,以數(shù)據(jù)塊" title="數(shù)據(jù)塊">數(shù)據(jù)塊而不是以單個(gè)數(shù)據(jù)包觸發(fā)中斷,減少了中斷的頻率;(2)借鑒零拷貝的思想,避免了不必要的內(nèi)存拷貝;(3)利用循環(huán)緩沖區(qū)(ring buffer)存儲用戶數(shù)據(jù), 提高了內(nèi)存利用率。
3 系統(tǒng)設(shè)計(jì)及實(shí)現(xiàn)
3.1 系統(tǒng)硬件實(shí)現(xiàn)
  系統(tǒng)利用硬件代替Linux內(nèi)核實(shí)現(xiàn)了數(shù)據(jù)包的差錯(cuò)校驗(yàn)和協(xié)議棧的初步解析。一定格式的過濾規(guī)則按照優(yōu)先級存儲于規(guī)則管理模塊中,規(guī)則管理模塊將包解析模塊從數(shù)據(jù)包的一些控制字段中抽取出關(guān)鍵字同預(yù)設(shè)的所有規(guī)則進(jìn)行比較,選出優(yōu)先級最高的匹配規(guī)則,匹配的結(jié)果反饋給包處理模塊,而沒有匹配到任何規(guī)則的數(shù)據(jù)包會被丟棄。符合要求的數(shù)據(jù)包被加上一個(gè)叫做internal head的自定義頭部。這個(gè)自定義頭部包含了這個(gè)數(shù)據(jù)包的長度、協(xié)議類型、時(shí)間戳和cookie等信息,這里cookie字段是數(shù)據(jù)包分發(fā)的依據(jù)。此后驅(qū)動程序惟一需要解析的包頭只有自定義頭部,從而降低了軟件處理部分的復(fù)雜度。
  經(jīng)過過濾后,符合要求的數(shù)據(jù)包會被暫存在硬件外部高速存儲器中,同時(shí)包處理模塊以中斷的方式通知驅(qū)動新數(shù)據(jù)的到來。為避免頻繁中斷帶來的額外的系統(tǒng)開銷,在設(shè)計(jì)上采用了以數(shù)據(jù)塊而不是以數(shù)據(jù)包的方式來觸發(fā)中斷:暫存在硬件外部高速存儲器中的數(shù)據(jù)達(dá)到規(guī)定大小時(shí)觸發(fā)中斷, 數(shù)據(jù)借助這次中斷通過DMA方式送往主機(jī)側(cè)。當(dāng)然,為防止收取不到規(guī)定大小的數(shù)據(jù)塊而造成的死鎖,也就是如果收取的數(shù)據(jù)在一定時(shí)間仍沒有辦法達(dá)到這個(gè)大小,則采用超時(shí)機(jī)制強(qiáng)行發(fā)出中斷請求,送出剩余的數(shù)據(jù)。
系統(tǒng)硬件數(shù)據(jù)處理的整個(gè)過程如圖1所示。


3.2 系統(tǒng)軟件實(shí)現(xiàn)
  本系統(tǒng)在Linux操作系統(tǒng)中被注冊為一個(gè)字符設(shè)備并共用一個(gè)設(shè)備號。為了提供對多設(shè)備的支持,這里設(shè)計(jì)了一個(gè)全局的私有結(jié)構(gòu)來區(qū)分它們,每個(gè)結(jié)構(gòu)被用一個(gè)單向鏈表管理起來:每當(dāng)驅(qū)動程序找到一個(gè)新設(shè)備,就給它分配一個(gè)新的結(jié)構(gòu)并掛在鏈表上。另外這個(gè)結(jié)構(gòu)的另一個(gè)用途是作為中斷處理" title="中斷處理">中斷處理函數(shù)的dev_id參數(shù),在中斷來時(shí)中斷處理函數(shù)能夠以此區(qū)分不同的設(shè)備。
  從驅(qū)動程序代理用戶進(jìn)程設(shè)置過濾規(guī)則到硬件觸發(fā)中斷通知驅(qū)動程序收取數(shù)據(jù)包,驅(qū)動程序代表整個(gè)系統(tǒng)進(jìn)行一些必要的工作。
  整個(gè)系統(tǒng)的軟件結(jié)構(gòu)如圖2所示。


3.2.1 用戶規(guī)則設(shè)置
  每個(gè)用戶進(jìn)程在創(chuàng)建初期會在內(nèi)核中獲取一塊或多塊連續(xù)內(nèi)存塊用來存儲自己所需的數(shù)據(jù)??紤]到用戶進(jìn)程可能在數(shù)量上會很多,系統(tǒng)初始化時(shí)就已經(jīng)申請好一定數(shù)量固定大小的內(nèi)存塊,并打上id標(biāo)記等待進(jìn)程來申請。為了提高內(nèi)存的利用率,這里利用了循環(huán)緩沖區(qū)結(jié)構(gòu)來管理每個(gè)內(nèi)存塊。循環(huán)緩沖區(qū)可以讓驅(qū)動程序?qū)P倪M(jìn)行數(shù)據(jù)接收而不用考慮讀進(jìn)程,同時(shí)內(nèi)存也不會被浪費(fèi)。為避免頻繁的數(shù)據(jù)拷貝,借鑒了零拷貝[4](zero-copy)的思想。零拷貝基本思想是:數(shù)據(jù)包從網(wǎng)絡(luò)設(shè)備到用戶程序空間傳遞的過程中,減少數(shù)據(jù)拷貝次數(shù),減少系統(tǒng)調(diào)用,在一定程度上實(shí)現(xiàn)CPU的零參與。實(shí)現(xiàn)零拷貝采用的最主要技術(shù)是DMA數(shù)據(jù)傳輸技術(shù)和內(nèi)存區(qū)域映射技術(shù)。傳統(tǒng)的網(wǎng)絡(luò)數(shù)據(jù)包過濾處理,需要進(jìn)行多次數(shù)據(jù)拷貝,整個(gè)過程需要用戶進(jìn)程向系統(tǒng)發(fā)出的系統(tǒng)調(diào)用,其中涉及到操作系統(tǒng)大量的上下文切換和CPU的始終參與。零拷貝技術(shù)首先利用DMA技術(shù)將網(wǎng)絡(luò)數(shù)據(jù)包通過DMA通道直接推入系統(tǒng)內(nèi)核中一個(gè)公共緩沖區(qū),其過程可與主機(jī)并行操作,然后由公共緩沖區(qū)分發(fā)給相應(yīng)用戶緩沖區(qū)。由于位于內(nèi)核空間的用戶緩沖區(qū)是受保護(hù)的,應(yīng)用進(jìn)程在用戶態(tài)無法直接訪問。排除低效率的系統(tǒng)調(diào)用方法,這里采用了Linux的一種高效的內(nèi)存映射機(jī)制mmap將內(nèi)核空間映射到虛地址空間,用戶通過這個(gè)空間內(nèi)的虛地址就能訪問到相應(yīng)的用戶緩沖區(qū)了。
  創(chuàng)建用戶進(jìn)程的同時(shí),過濾規(guī)則也按一定語法被設(shè)置。規(guī)則通過庫函數(shù)和系統(tǒng)調(diào)用被按一定優(yōu)先級(這里稱規(guī)則索引)存儲于規(guī)則管理模塊中,此時(shí)該規(guī)則開始生效。為了方便驅(qū)動管理規(guī)則,同樣的規(guī)則以鏈表的方式保存于系統(tǒng)內(nèi)存中。軟件中的規(guī)則是硬件中的規(guī)則的抽象,兩者每時(shí)每刻都保持著同步。
  用戶的緩沖區(qū)和用戶設(shè)置的規(guī)則被前文所述的內(nèi)存塊id標(biāo)記聯(lián)系起來。這個(gè)標(biāo)記的值會賦予以規(guī)則索引為下標(biāo)的數(shù)組從而完成關(guān)聯(lián)。


  一個(gè)進(jìn)程添加新規(guī)則的過程如圖3所示。虛線箭頭表示控制流。用戶進(jìn)程發(fā)出系統(tǒng)調(diào)用在內(nèi)存中創(chuàng)建新規(guī)則及其規(guī)則索引,驅(qū)動程序代替它查詢用戶緩沖區(qū)得到一個(gè)空閑內(nèi)存塊的id標(biāo)記號,然后這個(gè)id號關(guān)聯(lián)到新規(guī)則,也從而使用戶緩沖區(qū)的內(nèi)存塊、規(guī)則和用戶進(jìn)程三者對應(yīng)起來,最后規(guī)則被添加進(jìn)入硬件。值得注意的是,如果驅(qū)動程序發(fā)現(xiàn)內(nèi)存中已存在同樣的規(guī)則,它僅會把這個(gè)進(jìn)程申請到的id號放在舊規(guī)則索引的數(shù)組最后。
  在做好其他相應(yīng)的設(shè)置以后,應(yīng)用進(jìn)程會到自己的用戶緩沖區(qū)中查看是否有新的數(shù)據(jù)到來。這里沒有采用常用的輪詢方法來檢查緩沖區(qū)。雖然輪詢不需要硬件特別的支持,但隨之帶來的問題也是明顯的。頻率過高的輪詢會大量地消耗CPU的時(shí)鐘周期;時(shí)間間隔過大則會帶來數(shù)據(jù)包時(shí)間戳不準(zhǔn)確,錯(cuò)過收取數(shù)據(jù)的時(shí)機(jī)導(dǎo)致丟包等問題。取而代之采用了一種中斷驅(qū)動的方法:用戶進(jìn)程察看自己的緩沖區(qū)內(nèi)有沒有新數(shù)據(jù)的到來,如沒有則把自己掛到等待隊(duì)列開始睡眠;中斷來時(shí),中斷處理函數(shù)收取數(shù)據(jù)包并發(fā)信號喚醒睡眠進(jìn)程做讀操作。


3.2.2 中斷處理過程
  中斷的處理流程如圖4所示。中斷來時(shí),中斷處理函數(shù)首先根據(jù)內(nèi)核傳入的私有結(jié)構(gòu)dev_id[5]判斷到底是哪個(gè)設(shè)備產(chǎn)生中斷,然后檢查相應(yīng)設(shè)備的中斷狀態(tài)寄存器,根據(jù)寄存器判斷中斷發(fā)生的不同原因決定是否進(jìn)行DMA操作。DMA操作會在無需操作系統(tǒng)干預(yù)的情況下把數(shù)據(jù)塊從硬件外部高速存儲器搬到內(nèi)核公共緩沖區(qū)。公共緩沖區(qū)數(shù)據(jù)包自定義包頭經(jīng)過解析后得到cookie值,它對應(yīng)著前文所述的規(guī)則索引。驅(qū)動程序會根據(jù)規(guī)則索引把數(shù)據(jù)從公共緩沖區(qū)分發(fā)到相應(yīng)進(jìn)程的用戶緩沖區(qū)并喚醒等待隊(duì)列上的進(jìn)程做讀取包和深度解析的工作。
  在中斷處理過程中對于非搶占的Linux內(nèi)核涉及系統(tǒng)同步的問題。為保護(hù)共享數(shù)據(jù)可能被非同步操作,整個(gè)中斷處理過程通過關(guān)中斷的方式來保護(hù)。但對于擁有對稱多處理器(SMP)或加入搶占機(jī)制的系統(tǒng),需要做一些額外的處理:為了不影響其他處理器上的中斷處理,避免使用全局關(guān)中斷函數(shù),只禁用當(dāng)前處理器的中斷,并利用不會睡眠的鎖如自旋鎖對所有可能引發(fā)同步問題的臨界區(qū)進(jìn)行保護(hù)。在多設(shè)備的環(huán)境下,系統(tǒng)中的每個(gè)設(shè)備DMA操作前都必須擁有自己的鎖;為了避免數(shù)據(jù)混亂,每個(gè)設(shè)備都擁有各自的公共緩沖區(qū),而且從各自的公共緩沖區(qū)向用戶緩沖區(qū)寫數(shù)據(jù)前必須獲得一個(gè)全局鎖,從而實(shí)現(xiàn)寫操作的串行化。


4 性能測試
  實(shí)驗(yàn)使用SmartBits測試儀模擬真實(shí)的網(wǎng)絡(luò)環(huán)境對本系統(tǒng)進(jìn)行了測試。測試硬件平臺為Intel P4 2.4GHz的處理器,1GB內(nèi)存,64位PCI總線;軟件平臺為Fedra core3。測試結(jié)果" title="測試結(jié)果">測試結(jié)果顯示傳統(tǒng)的Libpcap在400Mbps左右就已經(jīng)出現(xiàn)嚴(yán)重的丟包現(xiàn)象,而且受包長影響很大。而本系統(tǒng)在單設(shè)備雙輸入的情況下,當(dāng)包速率超過1 800Mbps才出現(xiàn)丟包現(xiàn)象,并基本不受包長變化影響。另外測試結(jié)果表明本系統(tǒng)在Linux操作系統(tǒng)平臺下有較低的系統(tǒng)占用,如圖5所示本系統(tǒng)在不同包長的情況下處理器占用率均比Intel 光網(wǎng)卡 PRO/1000F要低得多。
  本文在參考傳統(tǒng)網(wǎng)絡(luò)數(shù)據(jù)包捕獲方法的同時(shí),針對傳統(tǒng)方法的一些弱點(diǎn),提出一種軟硬件結(jié)合的包捕獲方案。該方案由硬件完成數(shù)據(jù)包過濾的任務(wù),并對軟件部分作了優(yōu)化,測試結(jié)果表明,該方案能滿足大多數(shù)高速網(wǎng)絡(luò)數(shù)據(jù)包捕獲任務(wù)的需要,具有廣泛的應(yīng)用前景。

參考文獻(xiàn)
1 White G B,Pooch U W.Cooperating security managers:Distributed intrusion detection systems.Computers & Security,1996;15(5):441~450
2 唐正軍,劉代志.網(wǎng)絡(luò)嗅探器Sniffer軟件源代碼淺3:采用Labpcap庫的通用設(shè)計(jì).計(jì)算機(jī)工程,2002;28(2)
3 Jacobson V,Leres C,McCanne S.The tcpdump manual page. Lawrence Berkeley Laboratory,Berkeley,CA,1997
4 Kurmann C,Rauch F,Stricker T.Speculative defragmentation-leading gigabit ethernet to true Zero-Copy communication. Cluster Computing,2001;4(1):7~18
5 Rubini A,Corbet J著,魏永明,駱 剛,姜 君譯.Linux設(shè)備驅(qū)動程序(第二版).北京:中國電力出版社,2004:275~276

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時(shí)通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。