文獻標識碼: A
文章編號: 0258-7998(2013)03-0040-04
在過去數(shù)十年中,摩爾定律下的電路集成密度按照指數(shù)率增長,目前的大型芯片已經(jīng)可以集成數(shù)十億個晶體管。但是,靠提高芯片主頻來增加處理器能力的方法會帶來日益增長的功耗,致使芯片無法克服散熱問題。研究表明,內存中數(shù)據(jù)的傳輸和ILP(指令級并行)[1]的復雜控制機制是造成芯片功耗過大的主要原因。而大的片上存儲和輕核處理器才是克服功耗過大的有效辦法,因此引發(fā)了新一輪的并行處理熱潮。本設計的處理器采用了特殊的指令集,線程管理器也不同于一般的輕核機器[2]。
1 輕核陣列機
本文設計了一種新型的多線程輕核處理器,該輕核并行處理器是一個陣列機,由多個處理單元簇(cluster)組成,每個簇是由處理單元(PE)組成的一個二維陣列(2D Array),是一種較常見的陣列結構。一個基本簇(base cluster)通常是16個處理單元組成的4×4陣列,如圖1所示。其特點是:采用近鄰連接的網(wǎng)絡拓撲結構;采用雙模式的指令集,高效實現(xiàn)并行處理所需的線程間通信;采用專用遠程數(shù)據(jù)傳輸指令和多播方式及相應的路由器,滿足了輸出數(shù)據(jù)的扇出需求和遠距離線程間的數(shù)據(jù)通信。
上述特點需要高性能的線程管理機制[3]來提高執(zhí)行速度和效率。使用軟件來進行線程調度無法滿足高性能并行計算的要求,因此設計了硬件的管理機制。一個處理單元由一個ALU、一個進程控制器(t-control)、一個路由器(RU)、4個鄰接共享存儲(MISI)、一個數(shù)據(jù)存儲(D-men)和一個指令存儲(I-men)組成,整體結構如圖2所示。
鄰居共享存儲M[S]分為4個部分:Me(東)、Mw(西)、Ms(南)和Mn(北),每部分用于與相鄰處理器通信。在設計中分別為寄存器R28、R29、R30、R31。共享存儲器的存取采用阻塞模式(線程間同步),每個共享存儲地址都有一位數(shù)據(jù)有效位。當讀取數(shù)據(jù)時,如果數(shù)據(jù)無效,則當前線程需要等待;如果數(shù)據(jù)有效,則讀取數(shù)據(jù),并將其置為無效。當寫入數(shù)據(jù)時,數(shù)據(jù)無效則直接寫入,數(shù)據(jù)有效則等待。路由器RU負責將數(shù)據(jù)傳輸?shù)竭h程處理器件,指令控制器(ICTL)模塊通過計算把指令寫入指令存儲(I-men)中,方便處理器對所需指令的讀取。
ALU中的指令讀取單元含有一個程序計數(shù)器(PC)和一個進程地址寄存器(Creg)。每個進程都分配一塊數(shù)據(jù)存儲,其基地址可以放在Creg中。T_control完成進程的調度、每個進程自身的狀態(tài)跳轉、每個進程信息的存儲,以及事件檢測(路由器遠程數(shù)據(jù)傳輸和相鄰的共享存儲器中數(shù)據(jù)的檢測)。t_control根據(jù)進程表實現(xiàn)一步到位的上下文轉換,發(fā)送相應的PC和Creg中的當前數(shù)值給ALU來調度處理器處理當前進程。
2 進程管理的硬件設計
總體設計中采用8個進程并發(fā)執(zhí)行。進程管理器由一個控制模塊(t_manager)、一個就緒隊列模塊(ready_list)、8個進程的狀態(tài)轉換模塊(t_state)、8個進程的寄存器模塊(regfile)和一個進程信息表模塊(t_table)構成[4],總體設計如圖3所示。各模塊功能如下:
(1)控制模塊(t_manager):首先創(chuàng)建進程,根據(jù)每個進程的狀態(tài)(初始態(tài)、就緒態(tài)、運行態(tài)、阻塞態(tài))創(chuàng)建就緒隊列;完成后開始采用輪詢的方法控制每個進程的調度[5];最后輸出ALU的控制信號。
(2)進程狀態(tài)轉換模塊(t_state):主要分為兩部分:其一是進程的自身4個狀態(tài)之間的跳轉控制部分;其二是進程阻塞后的檢測部分。一般是實現(xiàn)8個或者16個并發(fā)進程,圖3所示為8個進程的設計圖,每個進程需要有自己的t_state模塊,圖中可以看到8個進程狀態(tài)控制轉換模塊。
(3)寄存器模塊(regfile):每個進程擁有自己獨立的32個寄存器,寄存器R0~R27每個進程自己可以讀寫,但是鄰居處理器不可以讀寫;寄存器R28~R31是處理器與鄰居4個處理器共享的寄存器,本設計的Me(東)、Mw(西)、Ms(南)、Mn(北)4個寄存器分別指的是R28、R29、R30和R31。
(4)進程的相關參數(shù)的維護表(t_table):用來記錄每個進程的當前狀態(tài),并且維護進程阻塞和恢復時的數(shù)據(jù)。整個控制模塊根據(jù)這個進程表中的每個進程的當前狀態(tài)和處理器的忙閑來實現(xiàn)一步到位的上下文轉換。
2.1 進程的狀態(tài)參數(shù)表t_table設計
當創(chuàng)建一個進程時,就為進程建立了一個相應的狀態(tài)參數(shù)表,圖4所示為一個進程的狀態(tài)參數(shù)表。設計中為8個進程,需要8組如圖所示的參數(shù)表。狀態(tài)參數(shù)描述如下:
(1)QT:時間片,是指系統(tǒng)給每個進程所分配的執(zhí)行時間。一旦時間片用完,當前進程就掛起,等待下次的調度。
(2)PC:程序計數(shù)器,是指進程的程序在內存或者外存中的物理位置。進程掛起或者阻塞時,首先存儲當前程序執(zhí)行的PC到t_table中,再進行其他操作;進程需要執(zhí)行時,首先從t_table中讀取PC值,再進行程序的讀取和其他操作。
(3)STAMP:時間戳。每次從進程開始執(zhí)行進行計數(shù),如果STAMP==QT,則掛起進程;如果在STAMP!=QT時,進程發(fā)生阻塞,則保存當前的STAMP,待下次調度進程時,從保存的STAMP值開始計數(shù)并與時間片進行比較。
(4)STATE:狀態(tài)標志。每個進程都有4個狀態(tài),即:IDLE初始狀態(tài):00,READY就緒狀態(tài):01,RUNNING初始狀態(tài):10,WAITING阻塞狀態(tài):11。
(5)進程現(xiàn)場保護:AVAIL表示3個算子中是否有數(shù)據(jù);MASK表示3個算子是否有用;A0,A1,AD表示進程阻塞時候的3個算子的地址。
(6)ACT:表示進程是否有效。
2.2 控制模塊t_manager設計
每個進程都有自身4個狀態(tài)之間的跳轉控制,設計中8個進程采用輪詢的調度策略來控制進程的上下文轉換,并且產(chǎn)生與處理器之間的接口信號,狀態(tài)機如圖5所示。
狀態(tài)跳轉解釋如下:
(1)INIT:初始狀態(tài)。首先創(chuàng)建進程和進程的就緒隊列,就緒隊列完成后跳轉到P1狀態(tài)。
(2)P1:檢測就緒隊列的空滿。如果就緒隊列空,則說明沒有就緒狀態(tài)的進程,繼續(xù)等待就緒隊列的產(chǎn)生;如果不空則說明有就緒的進程,采用輪詢的調度方法調度進程,即從就緒隊列中讀取第一個進程號碼。
(3)P2:發(fā)送進程id號碼到進程狀態(tài)控制模塊t_state,并且發(fā)送進程處理信號id_enable為高電平給進程狀態(tài)控制模塊t_state,跳轉到P3狀態(tài)。
(4)P3:發(fā)送信號cpu_enable(高電平)、cpu_creg(進程id號碼)、pc(進程的程序地址)給處理器,等待處理器的處理。一旦信號t_enbale為高電平,表示當前進程掛起或者執(zhí)行完成了,則跳轉到P1狀態(tài),cpu_enable置低。
2.3 進程狀態(tài)轉換模塊t_state設計
進程狀態(tài)轉換模塊的設計分為兩部分介紹:一是進程自身4個狀態(tài)之間的跳轉控制部分的詳細設計;二是每個進程阻塞后的檢測部分的詳細設計。下面主要介紹單個進程的狀態(tài)控制。
每個進程都有4個狀態(tài),跳轉如圖6所示。各狀態(tài)說明如下:
(1)INIT:初始狀態(tài)。檢測進程的PCB表的act信息,一旦為高(表示進程是可用的),則跳轉到下一個狀態(tài)READY。
(2)READY:就緒狀態(tài),表示進程已經(jīng)具備了運行條件,但是處理器不一定是空閑的,如果不空閑,則暫時不能使用,需等待分配處理器。即檢測進程啟動信號id_enable,一旦為高(表示處理器空閑,進程可以執(zhí)行),則跳轉到RUNNING狀態(tài)。
(3)RUNNING:運行狀態(tài)。首先讀取t_table中對應進程號的QT(時間片)、PC(進程的程序的計數(shù)器)和STAMP(時間戳);處理器開始執(zhí)行該進程的程序后,時間戳與時間片相等了,表示該進程的時間片結束了,則跳轉到READY狀態(tài),并且保護現(xiàn)場,把當前的進程號寫入就緒隊列中,等待下次的調度;當處理過程中發(fā)生了阻塞,則跳轉到WAIT狀態(tài),把當前的PC(進程的程序的計數(shù)器)、STAMP(時間戳)、MASK(3個算子中有用的算子標志)、AVAIL(3個算子中有數(shù)據(jù)的標志)、A0,A1,AD(3個算子的地址)寫入t_table中,保護現(xiàn)場;當進程的程序處理完時,act置低,跳轉到INIT狀態(tài),不再被調度。
(4)WAIT:阻塞狀態(tài),即進程在運行過程中,因為等待某一事件(如等待一個輸入/輸出操作完成)而暫時不能運行的狀態(tài)。這種狀態(tài)下,發(fā)送t_enable高電平到進程控制模塊,同時啟動監(jiān)測模塊進行所需數(shù)據(jù)的監(jiān)測,如果t_flag為高電平,則表示監(jiān)測信號監(jiān)測到了相應的數(shù)據(jù),此時進程恢復READY狀態(tài),并且跳轉到READY狀態(tài),等待下一次進程的啟動。
3 驗證和分析
電路設計采用Verilog硬件描述語言,在Xinlinx公司的ISE環(huán)境下完成功能仿真和綜合。在陣列機的基礎上,采用指令集編寫簡單的算法完成了簡單功能測試。算法如3×3矩陣的加減法、多個數(shù)的最大公約數(shù)與最小公倍數(shù)的求解和奇偶算法。圖7所示是一個簡單的3×3陣列機,采用一個處理器和一個進程控制器組成一個pe,圖中的寄存器是相鄰處理器之間的共享寄存器。
3.1 輕核陣列機的功能測試
測試激勵為:pe0、pe1、pe2各自包括3個進程,3個進程分別執(zhí)行不同的3×3矩陣加法。圖7所示的pe之間的寄存器(即共享寄存器)中,R30/R28是pe與左右鄰之間的共享寄存器,R31/R29是pe與上下鄰之間的共享寄存器。
根據(jù)測試激勵,pe0會發(fā)生阻塞,pe1和pe3進程都是順序執(zhí)行。pe0的仿真結果圖如8所示,分析如下:
(1)首先執(zhí)行0號進程。從圖中cpu_creg為000(0號進程)的信號可以看出,當執(zhí)行完成以后沒有發(fā)現(xiàn)阻塞,進程0順利執(zhí)行完成,信號t_over為高。
(2)然后根據(jù)調度算法調度1號進程(cpu_creg為001)。信號cpu_flag為標志信號,其為1表示寄存器R8或者R31沒有數(shù)據(jù),此時發(fā)生阻塞,則掛起1號進程,同時啟用監(jiān)測模塊對1號進程沒有數(shù)據(jù)的寄存器R31進行監(jiān)測。
(3)在監(jiān)測的同時根據(jù)調度算法調度2號進程(cpu_
creg為010)。若2號進程也發(fā)生了阻塞(cpu_flag為1),則掛起2號進程,同時進行2號進程所需要的數(shù)據(jù)的監(jiān)測;在2號進程的執(zhí)行過程中1號進程就緒,這時2號進程一旦掛起則調度1號進程(cpu_creg為001)繼續(xù)執(zhí)行,直到1號進程執(zhí)行完成(t_over為1);重復以上操作,處理完所有的進程。
3.2 奇偶排序
基于奇偶原理和歸并—拆分模式[6-7],在線性陣列上實現(xiàn)并行排序,步驟如下:
(1)將6個數(shù)據(jù)分別存儲到6個pe的寄存器R0中。
(2)開始進行第一次偶排序,此時pe0、pe2、pe4分別讀取R30(CPU與右鄰的共享寄存器)的數(shù)據(jù),而pe1、pe3、pe5把數(shù)據(jù)從寄存器R0移到R28中,這樣3個pe并發(fā)地執(zhí)行第一次偶排序。
(3)開始進行第一次奇排序,此時pe1、pe3通過R30讀取右鄰的pe2、pe4中的數(shù)據(jù),pe2、pe4在上次的偶排序時已經(jīng)把數(shù)據(jù)存放到自身寄存器R28中,這樣2個pe并發(fā)地執(zhí)行第一次奇排序,pe0和pe5等待下次的偶排序。
(4)重復步驟(2)和步驟(3),最多執(zhí)行6/2=3次即可得到最后的結果。
多線程輕核陣列機是一個新提出的概念,目前所采用的進程管理器都是由軟件實現(xiàn),而對于輕核陣列機中的進程調度采用軟件的方式很難實現(xiàn)高效的上下文轉換,故本文采用硬件實現(xiàn)進程管理,對電路進行了模塊劃分和詳細設計,最后在Xilinx的ISE環(huán)境中完成了輕核陣列機的功能仿真和綜合。硬件設計使得進程的上下文轉換和監(jiān)測不占用處理器的處理時間,簡化了進程間的通信,從而明顯地提高了執(zhí)行效率。
參考文獻
[1] RAU B R,F(xiàn)ISHER J A.Instruction-level parallel processing:history,over view and perspective[J].Journal of Supercomputing,1993,7(1):24-31.
[2] 李濤.一種圖形處理器的輕核陣列機結構[J].西安郵電大學學報,2012,17(3):42-46.
[3] MAROWKA A,GAN R.Back to thin-core massively parallel processors[J].IEEE Computer,2011,44(12):49-54.
[4] STALLINGS W.Operating systems Internals and design principles[M].Seven Edition,Prentice Hall,2012:158-171.
[5] Liu Chunglang,LAYLAND J W.Scheduling algorithms for multiprogramming in a hard-real-time environment[J].Journal of the ACM,1973,20(1):46-61.
[6] 祁金才,張錦雄,黃毅,等.線性陣列上的奇偶歸拆排序并行算法的MPI實現(xiàn)[J].廣西大學學報(自然科學版),2005(S2):88-89.
[7] 官東.基于并行計算機的奇偶交換排序[J].荊門職業(yè)技術學院學報,1999,14(6):28-29.