傳統(tǒng)SoC總線架構(gòu)已不能滿足新的聯(lián)網(wǎng)嵌入式設(shè)計對高帶寬數(shù)據(jù)流進(jìn)行實時控制的需求, NetSilicon開發(fā)的可編程總線帶寬控制系統(tǒng)可以使多個資源同時訪問總線,使其既滿足應(yīng)用要求又不會影響其他重要操作的性能。本文將對該系統(tǒng)的可編程總線帶寬分配方案進(jìn)行探討。
32位嵌入式設(shè)計越來越要求對網(wǎng)絡(luò)上高帶寬數(shù)據(jù)流進(jìn)行實時控制,特別是在系統(tǒng)級芯片(SoC)層面,以確定性和無爭議的方式傳輸數(shù)據(jù)和控制信息變得非常重要。各種操作直接處于系統(tǒng)開發(fā)者既定的控制之下也很重要,而這在基于總線的SoC設(shè)計中并不總是能夠?qū)崿F(xiàn)。
設(shè)計者和芯片供應(yīng)商常常借鑒板級及系統(tǒng)級架構(gòu)技術(shù),以便在最短的設(shè)計時間內(nèi)以最低的開發(fā)成本進(jìn)行SoC設(shè)計。由于手機(jī)和PDA等設(shè)備對確定性的實時響應(yīng)需求很少,所以傳統(tǒng)解決方案在此類應(yīng)用中表現(xiàn)還不錯。
但在許多新的聯(lián)網(wǎng)嵌入式設(shè)計中,傳統(tǒng)總線架構(gòu)不能滿足共享總線對高帶寬及高密度數(shù)據(jù)流的需求,在下列應(yīng)用中尤其如此,如工業(yè)用人機(jī)界面(HMI)網(wǎng)絡(luò)顯示、 POS終端設(shè)備,具有不同數(shù)據(jù)帶寬需求的彩色打印機(jī)、網(wǎng)絡(luò)投影儀和監(jiān)視攝像機(jī),以及網(wǎng)絡(luò)打印機(jī)、數(shù)字復(fù)印機(jī)、多功能一體機(jī)、傳真機(jī)和掃描儀等。
許多基于片上串行互連的替代方案正在研發(fā)中,這些替代方案類似于串行結(jié)構(gòu)、交叉交換(crossbar switch)和基于數(shù)據(jù)包的總線。在這些新方案得以完善之前,鑒于時間和成本壓力,必須找到能修改從板級設(shè)計借鑒過來的共享總線架構(gòu)的方法,以滿足新的 32位嵌入式聯(lián)網(wǎng)設(shè)計對確定性和實時性的要求。
傳統(tǒng)SoC總線的優(yōu)缺點
SoC開發(fā)者不愿意放棄這種通用共享總線,因為它可以減少設(shè)計周期中的規(guī)范制定及驗證工作,能使SoC的高層次集成如同將擴(kuò)展卡插到背板上一樣簡單。通過采用通用總線,開發(fā)者可以集中精力投入到更高層次的決策中。
圖1:NS9xxx的帶寬控制系統(tǒng)。
ARM公司在高級微控制器總線架構(gòu)(AMBA)中采用通用總線,允許獲得許可的使用者專注于自己的應(yīng)用開發(fā),從而快速將產(chǎn)品推向市場。
微處理器、 DMA控制器、存儲器控制器及其它更高性能的模塊通過AHB連接。性能較低的模塊,比如UART、通用輸入/輸出(GPIO)及定時器等,則通過APB連接。
但是,基于ARM的SoC所瞄準(zhǔn)的許多高端嵌入式應(yīng)用,要求它們在處理這些應(yīng)用的確定性與實時性需求的同時,還可以訪問高帶寬網(wǎng)絡(luò)環(huán)境。
這些應(yīng)用要求SoC能夠發(fā)出控制信號、采集數(shù)據(jù)并在網(wǎng)絡(luò)上實時傳輸數(shù)據(jù)。基于不同的網(wǎng)絡(luò)特性及其帶寬要求,現(xiàn)有SoC總線架構(gòu)的性能將會得到盡可能的提升,例如,高端聯(lián)網(wǎng)嵌入式應(yīng)用可能要處理通過以太網(wǎng)連接從照相機(jī)傳輸?shù)酱蛴C(jī)的視頻數(shù)據(jù)位流,或從服務(wù)器傳輸?shù)酱蛴C(jī)的圖像,與此同時還可能根據(jù)與掃描、刷新和更新周期有關(guān)的確切要求對本地 LCD顯示進(jìn)行更新。使用外部LCD時,LCD控制器必須知道通過該總線傳輸?shù)木唧w字節(jié)數(shù)量、數(shù)據(jù)發(fā)送順序以及數(shù)據(jù)在顯示器上顯示的特定時隙和順序,同時也很必要將信息不斷地饋送給LCD用于更新。
圖2: NS9750原理框圖。
共享總線的概念并不能滿足SoC中的這些要求。在典型的AHB設(shè)計中,總線主控是總線上全部的主要資源,也就是說,當(dāng)總線空閑時,它們可向總線請求完成一個任務(wù)所需要的時間。但在基于ARM的SoC中,程序設(shè)計者不能直接控制當(dāng)它們掌管總線時可得到多少總線資源。
共享總線架構(gòu)用多種方式來區(qū)分這些操作的優(yōu)先次序,包括:菊花鏈仲裁、集中式并行仲裁、基于自選或沖突監(jiān)測的分布式仲裁以及帶多個總線請求的總線仲裁。但當(dāng)指定的主控接管總線后,其他操作就會擱置在一邊。目前還沒有一種機(jī)制能夠讓多個資源同時訪問總線,使其既滿足應(yīng)用要求,又不會影響其他重要操作提供確定性及實時性響應(yīng)的能力。
在AMBA環(huán)境中處理這類情況的一種通用方法是使用仲裁通道。如果有六個總線主控,總線便設(shè)計成有六個仲裁通道。但是,片上仲裁邏輯根據(jù)請求訪問該總線的主控數(shù)目來分配這些通道,而不是把每個通道指定給某個特定的主控。如果有四個主控請求訪問總線,則這六個通道會在這四個主控之間進(jìn)行分配,確保每個主控有平等的機(jī)會訪問該總線。
然而,這并不能解決如何分配足夠的總線帶寬以完成某一特定任務(wù)這一基本問題。若其中一個操作需要三個通道,而其它操作總共只需要兩個通道,則每一種操作將會分配到相同數(shù)量的可用通道空間。其結(jié)果是,有的通道沒有充分利用 (甚至根本沒用到),而有的則超負(fù)荷使用,影響SoC在極低延遲內(nèi)對事件進(jìn)行確定性響應(yīng)的能力。
可編程總線帶寬控制系統(tǒng)
因此,需要一種可編程的總線帶寬分配方案,在某一特定時刻為某一特定的主控分配其所需的總線配置,并將剩余的總線空間分配給其它可能要求訪問該總線的主控。由于這種方案可能隨時間改變,因此需要一種機(jī)制以便按照常規(guī)原理重新分配總線資源。
NetSilicon 公司已開發(fā)一種新的帶寬控制系統(tǒng)來取代采用AMBA架構(gòu)的帶寬控制系統(tǒng)。該系統(tǒng)采用一個16槽位旋轉(zhuǎn)優(yōu)先級總線仲裁器(見圖1),這種仲裁器包含一套可編程偽隨機(jī)或旋轉(zhuǎn)優(yōu)先級緩存替換算法。例如,在NetSilicon的 NS9750(見圖2)中,AHB上的六個通道不是通過競爭進(jìn)行分配,而是根據(jù)16槽位總線分配方案由六個總線主控分享。通過系統(tǒng)控制模塊中的專用寄存器,系統(tǒng)開發(fā)者目前可采用三種方法在SoC中分配總線資源。
在最高層次,某特定總線主控每次發(fā)出的一個訪問請求,都會按請求順序得到響應(yīng),直到這六個主控全被輪詢。根據(jù)所需帶寬,每一個總線主控可分配到一定數(shù)目的槽位并獨(dú)占這些槽位。例如在NS9750中,四個槽位分配給CPU,四個槽位給以太網(wǎng),四個槽位給BBus橋,三個槽位給LCD,三個槽位給PCI/卡總線,但在系統(tǒng)運(yùn)行期間系統(tǒng)軟件會根據(jù)需要重新評估這一分配方案,這可用來確定AHB總線周期的數(shù)目。如果在下一個評估周期中情況沒有發(fā)生變化,則沿用以前的設(shè)置,如果情況有變,則協(xié)定新的總線主控槽位分配方案。
為對總線資源進(jìn)行更精確的控制,這種循環(huán)仲裁方案提供兩個附加層次的可編程性能:分配給ARM CPU的總線帶寬大小以及這16個槽位中每個槽位的帶寬利用率。
NS9750 的ARM926EJ-S內(nèi)核作為總線主控時不能控制所有總線資源,缺省情況下它只能控制50%的總線帶寬或16個槽位中的8個,這樣可確保其它五個總線主控可以一直占有至少50%的總線帶寬。不過,在程序設(shè)計者直接控制下,它可以按照指令將其部分帶寬釋放給另一個總線主控,或者,在該總線仲裁周期內(nèi)或程序設(shè)計者認(rèn)為必要的任何周期中控制另外的槽位。
程序設(shè)計者也可為每個槽位選擇帶寬利用系數(shù)——100%、75%、50%或25%。這一選擇是通過控制何時以及以怎樣的順序分配每個槽位的訪問來實現(xiàn)的,系數(shù)為25%,則這個槽位每四個周期只能被輪詢一次;系數(shù)為50%,則每兩個周期輪詢一次;75%,則每四個周期輪詢?nèi)巍?/p>
對旋轉(zhuǎn)總線仲裁器進(jìn)行編程
程序設(shè)計者可通過包含在系統(tǒng)控制模塊內(nèi)的幾個寄存器定義多種選項。第一個寄存器是16入口總線請求配置寄存器,它的每一個入口代表一個主控和一個準(zhǔn)許槽位的總線請求。每一個請求/準(zhǔn)許槽位每次只能分配給一個總線主控,但根據(jù)總線主控的帶寬要求,每個總線主控可同時連接多個請求/準(zhǔn)許槽位。當(dāng)多個通道分配給一個主控時,這些通道應(yīng)均勻分布在這16個通道當(dāng)中。
每個請求/準(zhǔn)許槽位都有一個兩位的帶寬壓縮字段(BRF),用以確定每個槽位能對系統(tǒng)總線進(jìn)行仲裁的頻率(100%、75%、 50%或25%)。BRC將總線請求信號輸出到第二個16入口總線請求寄存器(BRR),默認(rèn)情況下,BRC中未被分配的槽位將阻止用任何總線請求信號設(shè)置相應(yīng)的BRR入口。
第四個寄存器用于存儲哪個總線主控有數(shù)據(jù)在等待向AHB傳輸,而第五個寄存器則是程序設(shè)計者用來為每個總線請求和準(zhǔn)許槽位(分配給特定總線主控)分配權(quán)重值。
使用循環(huán)仲裁
圖3:NS9xxx的總線架構(gòu)。
在前面例子中,當(dāng)基于特定仲裁再分配調(diào)度方案的LCD請求額外的總線訪問時,程序設(shè)計者可根據(jù)LCD必須處理的數(shù)據(jù)流的性質(zhì)來指定分配給LCD的優(yōu)先級。如果程序設(shè)計者認(rèn)為需要分配10個槽位給LCD控制器,剩余的6個槽位會按最初仲裁方案分配給其它總線主控。這樣LCD控制器可獲得十倍于正常情況下可得到的帶寬,以及十倍于其它主控的帶寬來處理這種特定情形下的負(fù)載。
當(dāng)通過以太網(wǎng)連接傳送數(shù)據(jù)、同時LCD屏幕進(jìn)行刷新的時候,這種特性十分重要。LCD需要實時、準(zhǔn)確地進(jìn)行刷新,且不會被以太網(wǎng)請求中斷。
在典型的AMBA總線架構(gòu)中,如果LCD對總線提出請求,不論有怎樣的刷新需求,它都不得不等待直到以太網(wǎng)主控將總線釋放出來。采用新的循環(huán)可編程仲裁方案,程序設(shè)計者可降低以太網(wǎng)傳輸?shù)膬?yōu)先級,使數(shù)據(jù)以更低但可接受的速率傳輸,確保LCD得以適當(dāng)?shù)厮⑿露恢劣谑蛊聊怀霈F(xiàn)空白。
如果為保證活動畫面顯示對LCD延時和帶寬要求極高,則以太網(wǎng)協(xié)議需求還可進(jìn)一步降低傳輸速率。但停止數(shù)據(jù)流傳輸是不可以的。實際上,如果LCD主控控制了該總線并且只有當(dāng)刷新工作完成后才將總線釋放,則有可能停止數(shù)據(jù)流的傳輸。
在外圍總線中增加突發(fā)模式DMA
在基于AMBA的設(shè)計中,外圍總線的傳統(tǒng)設(shè)計方法是假定基于ARM內(nèi)核的嵌入式器件用于低端性能應(yīng)用。但現(xiàn)在的器件經(jīng)常需要在不切斷低帶寬外圍電路訪問總線資源的情況下,運(yùn)行一種或多種高帶寬應(yīng)用。在具有較多外圍電路的設(shè)計中,這種情況特別容易出問題。例如NS9750或NS9360,它們支持USB、 I2C,具有四個多功能串行模塊(可選用UART或SPI,同步模式下的速率可達(dá)11Mbps)、50個單獨(dú)的可編程GPIO引腳、一個IEEE1284 外圍端口以及16個通用定時器或計數(shù)器(每個都有自己的I/O引腳)。
在傳統(tǒng)的APB實現(xiàn)方案中,采用FIFO就足以應(yīng)付通信外設(shè)(如UART)的低速率傳輸,F(xiàn)IFO可以在處理器必須介入并訪問APB之前將數(shù)個字節(jié)傳送到接口。但在本文所描述的許多高端嵌入式應(yīng)用中,一個或多個這樣的外圍電路可能需要高帶寬傳輸,要求能通過APB/AHB橋快速訪問主要的高性能總線。
一種讓外圍總線工作于這種突發(fā)模式的方法,是僅用一條突發(fā)模式外圍總線(如NetSilicon的 BBUS)替代APB總線。這種突發(fā)模式外圍總線帶有四個支持突發(fā)模式的總線主控(見圖3):第一個總線主控是具有13個通道的DMA引擎,支持13個 USB端點;第二個總線主控是具有12個通道的DMA引擎,支持4個串行模塊(每個串行模塊有8個通道)和1284端口;第三個總線主控為BBUS- AHB橋,它包含一個DMA引擎,該引擎具有可訪問AHB系統(tǒng)總線的通道;第四個總線主控是一個USB宿主模塊。另外,這種DMA引擎有兩個獨(dú)立的專用 DMA通道,可支持連接到外部存儲總線的外部設(shè)備。為簡化突發(fā)模式狀態(tài),每一個內(nèi)部DMA通道以“飛越模式”(fly-by mode)在系統(tǒng)存儲器及BBUS外圍電路之間傳輸數(shù)據(jù),而兩個外部DMA通道則選擇存儲器到存儲器的傳輸模式。