文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.2016.02.001
中文引用格式: 李嵩,褚廷斌,袁正希. 一種軟硬件協(xié)同控制的片上緩存功耗優(yōu)化方法[J].電子技術(shù)應(yīng)用,2016,42(2):6-8,13.
英文引用格式: Li Song,Chu Tingbin,Yuan Zhengxi. A power optimization method of cache-on-chip with software-hardware co-control[J].Application of Electronic Technique,2016,42(2):6-8,13.
0 引言
近些年來,片上多核處理器已經(jīng)作為主流的硬件微型結(jié)構(gòu)被廣泛應(yīng)用在通信領(lǐng)域。隨著半導(dǎo)體深微技術(shù)的發(fā)展,晶體管的集成度越來越高,高速緩存占據(jù)片上多核處理器面積增加帶來的漏過能量的增加也愈加成為一個不可忽視的難題。
為了減小高速緩存漏過能量的消耗,許多采用控制高速緩存供電電壓的技術(shù)手段被相繼提出。門控電壓[1]和高速緩存衰變[2]作為其中極具代表性的技術(shù)手段得到了廣泛的應(yīng)用。門控電壓技術(shù)是采用在靜態(tài)隨機存儲器單元與地之間接入一個高閾值的控制晶體管的方式來開關(guān)控制高速緩存的供電電壓。當(dāng)靜態(tài)隨機存儲器單元不工作時,高速緩存的漏過能量就相應(yīng)被節(jié)省下來了。然而這種方式有一個很大的弊端,切斷供電電壓的同時容易造成數(shù)據(jù)的丟失,這和電腦突然斷電隨機存儲的數(shù)據(jù)容易丟失是一樣的原理。而文獻[3]提出了一種介于開關(guān)之間的一種工作模式(睡眠模式)完美地解決了這個問題,同時節(jié)省了50%-75%的能耗。另一種技術(shù)手段——高速緩存衰變技術(shù),其核心是在高速緩存的每一行設(shè)置一個時間監(jiān)控器,如果緩存行的訪問時間高于所設(shè)閾值時間,則認為該行將不會被再次訪問,因此可以采用門控電壓的方式將其關(guān)斷。
本文也采用門控電壓機制?;诟咚倬彺娴臄?shù)據(jù)部分訪問分為協(xié)議訪問和數(shù)據(jù)訪問的前提下,采用這種門控電壓的方式對高速緩存塊的供電電源進行控制,不僅可以獲得能耗上比較理想的優(yōu)化,同時采用這種方式也不會破壞高速緩存的一致性通信機制。
1 相關(guān)研究動態(tài)
高速緩存衰變技術(shù)是對高速緩存的每個塊使用門控電壓的硬件控制能源減少機制。文獻[2]中,死區(qū)時間被定義為一個塊最后訪問和驅(qū)逐之間的時間。高速緩存衰變決定是否一個塊是在死區(qū)時間是使用一個對相應(yīng)的數(shù)據(jù)塊駐留在緩存中的時鐘周期進行計數(shù)的計數(shù)器來進行判斷。訪問高速緩存的每一個數(shù)據(jù)塊時,計數(shù)器會被重置。如果計數(shù)器的值超過給出的衰變時間間隔,則緩存數(shù)據(jù)塊是在死區(qū)時間。那么就可以利用門控電壓的方式來切斷高速緩存數(shù)據(jù)塊的供電電源。
軟件自失效技術(shù)[4]可以有效減少漏過能耗。軟件自失效適用于門控電壓控制自失效技術(shù)[5-6]的概念。自失效技術(shù)是為維持在多處理器環(huán)境中的緩存一致性而設(shè)計的。上面提到的引用基于一個至關(guān)重要的事實那就是無效塊并沒有有效的數(shù)據(jù)。因此,可以從能耗角度關(guān)閉數(shù)據(jù)塊的供電電源。另一方面,基于預(yù)測的自失效技術(shù)置本地緩存副本于無效可以在無效消息接收到之前就能有效地切斷無效數(shù)據(jù)塊的供電電源從而保證高速緩存的一致性。
休眠高速緩存[3]提出了一種新的工作模式。 每次訪問緩存行時,緩存控制器通過檢測緩存休眠位來控制高速緩存的供電電壓。如果訪問的緩存行是在正常工作模式下,可以讀取緩存行的數(shù)據(jù)內(nèi)容而不會損失任何性能。其沒有性能處罰是因為通過檢測休眠位來檢查緩存行電源模式和讀取、比較標記位的行為是并行發(fā)生的行為。然而,如果內(nèi)存數(shù)組是在休眠的模式下,需要防止內(nèi)存數(shù)組的位線放電,因為它可能會讀出不正確的數(shù)據(jù)。為了解決這個問題,緩存行在下一個周期會自動喚醒,即緩存行工作在正常模式下。所以在喚醒期間可以訪問緩存行的數(shù)據(jù)。
前面提出的軟件自失效技術(shù)雖然可以有效地減少漏過能耗,但采用門控電壓的技術(shù)來開關(guān)數(shù)據(jù)塊的供電電源會導(dǎo)致數(shù)據(jù)的丟失,從而導(dǎo)致性能上的較大損失。然而采用文獻[3]中提出的技術(shù)手段可以很好地避免這個問題,同時也可以一定程度上減少漏過能耗。所以本文也采用這種技術(shù)手段來節(jié)省緩存的能耗。
2 研究動機
為了確定漏過能量的優(yōu)化空間,分別對協(xié)議訪問和數(shù)據(jù)訪問的訪問量作一個統(tǒng)計,統(tǒng)計結(jié)果如圖1所示。在統(tǒng)計過程中,通過對SimpleScalar 3.0[7]仿真器進行修改來獲得最后一級高速緩存中協(xié)議訪問和數(shù)據(jù)訪問的情況。其中具體的參數(shù)設(shè)置如表1所示。
通過6個PARSEC[8]的應(yīng)用程序和8個SPLASH2[9]的應(yīng)用程序來對仿真器進行測試。本次仿真的時間直到執(zhí)行完一億條指令才截止,仿真結(jié)果如圖1所示。
如圖1所示, 水平軸是14個不同的測試應(yīng)用程序,用于測試和驗證本文的假設(shè)。垂直軸是兩個不同的緩存數(shù)據(jù)塊被(協(xié)議塊和數(shù)據(jù)塊)訪問的比例。結(jié)果表明,協(xié)議訪問接近一半的緩存訪問。由于協(xié)議訪問不會進行數(shù)據(jù)的讀寫,若是協(xié)議訪問,那么可以通過切斷該數(shù)據(jù)塊供電電源來達到節(jié)省能耗的目的。但是會造成當(dāng)前保存在數(shù)據(jù)塊中的數(shù)據(jù)大量丟失,從而進一步導(dǎo)致應(yīng)用程序訪問最后一級緩存行時產(chǎn)生丟失。在此情況下,程序會訪問主存從而產(chǎn)生非常大的延遲。所以這種方法會對仿真器的性能造成很大的影響。然而,如果采用文獻[3]中提出的控制方案就不會出現(xiàn)這個問題。因此,本設(shè)計采用休眠的方式對數(shù)據(jù)塊進行控制。另一方面,數(shù)據(jù)塊從睡眠模式喚醒,只需要幾個周期的時間消耗[10]。這意味著,這種休眠方式并不會帶來性能上的較大損失。另一個原因僅僅睡眠數(shù)據(jù)塊而不是整個緩存行,那是由于程序每次訪問緩存行時都要并行比較緩存行的標記數(shù)組位,若休眠標志位將會引起頻繁的喚醒,從而帶來額外的性能損失。除此之外,標記數(shù)組位和數(shù)據(jù)塊相比只消耗輕微的能量,因此它可以工作在正常模式下。
3 軟硬件協(xié)同控制方案
3.1 硬件設(shè)計方案
為了控制最后一級高速緩存塊的供電電壓,使用 標記數(shù)組中的有效位(圖2中用V表示)來開關(guān)控制相應(yīng)的數(shù)據(jù)塊供電電源。該有效位能夠表示緩存行數(shù)據(jù)是否可用。如圖2所示,有效位直接連接到相應(yīng)的門控電壓。如果有效位是邏輯1,表示該數(shù)據(jù)快數(shù)據(jù)可以被訪問,因此相應(yīng)的數(shù)據(jù)塊供電電源被接通為關(guān)閉。如果它是邏輯0,表示數(shù)據(jù)塊中的數(shù)據(jù)不可用,此時數(shù)據(jù)塊被懸空。當(dāng)有效位為邏輯1時,此時緩存數(shù)據(jù)塊將分為兩部分(協(xié)議數(shù)據(jù)快和數(shù)據(jù)塊)來進行控制。兩部分數(shù)據(jù)塊將工作在圖3所示的兩種模式中,模式的切換由A位控制,A位標識數(shù)據(jù)塊訪問的類型。
如圖 3 所示,電壓切換是通過A位來實現(xiàn)的。如果只有協(xié)議數(shù)據(jù)訪問,就將A置為邏輯1或者邏輯 0。在本設(shè)計中置為邏輯0。
在硬件中執(zhí)行這種機制時,標記數(shù)組的工作電源既沒有被切斷也沒有在低電壓休眠模式,有兩個方面的考慮。其一是如果標記數(shù)組總是工作在正常的電壓,可以在多處理器環(huán)境中避免緩存相干問題,而且其能耗和數(shù)據(jù)塊相比是非常小的。其二是程序?qū)擞洈?shù)組的訪問更加頻繁,頻繁的喚醒和開關(guān)對系統(tǒng)的性能會有很大的影響。
3.2 軟件層控制方案
研究發(fā)現(xiàn),性能退化的主要原因是緩存數(shù)據(jù)塊頻繁從休眠模式中喚醒。因此提出一種改進的高速緩存衰退的方法在軟件控制層面優(yōu)化本設(shè)計從而達到減小性能損失的目的。在軟件層方面,測試程序的平均訪問時間間隔被設(shè)置為睡眠時間間隔。具體算法流程如圖4所示。如果前后兩次休眠的時間間隔比設(shè)置的休眠時間閾值小,認為喚醒代價太大,數(shù)據(jù)塊將工作在正常的電壓,反之喚醒的代價較小,此時它將在睡眠模式下工作。
4 仿真結(jié)果
通過修改Simple Scalar仿真器對提出的硬件設(shè)計方案做了性能上的仿真統(tǒng)計,仿真器相關(guān)配置參數(shù)如前表1所示。此外,使用惠普實驗室提出的能耗統(tǒng)計工具Cacti6.0[11]來獲得最后一級高速緩存的泄漏能耗。測試程序集為8個SPLASH2的測試程序和6個PARSEC的測試程序。對比對象均為未經(jīng)修改的仿真器。仿真結(jié)果如圖5~圖8所示,其中未加入軟件控制的系統(tǒng)能耗優(yōu)化和性能損失情況如圖5和圖6所示,加入軟件控制之后的仿真結(jié)果如圖7和圖8所示。
從以上仿真結(jié)果不難看出,單一的硬件控制方案可以很大程度上節(jié)約系統(tǒng)的能耗,然而性能上的損失是比較嚴重的,其中raytrace更是達到了5%以上。然而加入了軟件控制方案之后,系統(tǒng)的性能損失得到了很明顯的改善,均降低到了2%一下,同時系統(tǒng)的能耗優(yōu)化較之前只減少了2%,這個是可以接受的。
5 小結(jié)
在此研究中,目標是減少協(xié)議訪問情況下的漏過能量消耗。統(tǒng)計發(fā)現(xiàn)近一半是協(xié)議訪問,基于此提出了一種基于門控電壓技術(shù)的硬件設(shè)計。使用了14個測試程序集來對修改后的仿真器進行性能和功耗評估。統(tǒng)計結(jié)果表明,能耗比正常情況減少了76.78%,但不可忽略的是系統(tǒng)的性能損失非常嚴重。繼而提出了一種改善的高速緩存衰退策略的軟件層次控制算法。仿真結(jié)果表明,性能損失得到了很好的改善。未來的工作是要更加細化設(shè)定的休眠間隔閾值使性能損失更小,從而完善整個設(shè)計。
參考文獻
[1] POWELL M,YANG S H,F(xiàn)ALSAFI B,et al.Gated-Vdd:a circuit technique to reduce leakage in deep-submicron cache memories[C].Proc.of ISLPED,2000:90-95.
[2] KAXIRAS S,HU Z,MARTONOSI M.Cache decay:exploiting generational behavior to reduce cache leakage power[C].Proc.of 28th ISCA,2001:240-251.
[3] FLAUTNER K,KIM N S,MARTIN S,et al.Drowsy caches:simple techniques for reducing leakage power[C].Proc.of Computer Architecture 2002.Proceedings.29th Annual International Symposium on,2002:148-157.
[4] TANAKA K,F(xiàn)UJITA T.Leakage energy reduction in cache memory by software self-invalidation[C].Proc.of 12th Asia-Pacific Computer Systems Architecture Conference(AC-SAC),Springer,2007:163-174.
[5] LEBECK A R,WOOD D A.Dynamic self-invalidation:reducing coherence overhead in shared-memory multiprocessors[C].Proc. of ISCA,1995:48-59.
[6] LAI A C,F(xiàn)ALSAFI B.Selective,accurate and timely selfinvalidation using last-touch prediction[C].Proc.of ISCA,2000:139-l48.
[7] BURGER D,AUSTIN T,BENNETT S.Evaluating future microprocessors:the simplescalar toolset[R].Tech Report CSTR-96-1308,Univ.of Wisconsin,CS Dept.,1996.
[8] PRINCETON P.Princeton application reposity for sharedmemory computers(PARSEC)[EB/OL].http://parsec.cs.princeton.edu/.
[9] WOO S C,OHARA M,TORRIE E,et al.The SPLASH-2 programs:characterization and methodological considerations[C].In Proceedings of the 22nd International Symposium on Computer Architecture,1995:24-36.
[10] Wang Yue,ROY S,RANGANATHAN N.Run-time powergating in caches of GPUs for leakage energy savings[C].Proc.of Design,Automation & Test in Europe Conference & Exhibition,2012:300-303.
[11] MURALIMANOHAR N,BALASUBRAMONIAN R,JOUPPIN.CACTI 6.0:an intergrated cache timing power and area model[M].Hewlett Packard Labs,2009.