要點(diǎn):
1,雖然每個(gè)小組可以優(yōu)化局部功耗,但單個(gè)團(tuán)隊(duì)不可能創(chuàng)建出一個(gè)低功耗設(shè)計(jì)。反之,任何一個(gè)小組都可能摧毀這種努力。
2,功率估計(jì)是一種精確的科學(xué)。但是,只有當(dāng)你擁有了一個(gè)完整設(shè)計(jì)和一組正確的矢量后,這種概念才為真。
3,對(duì)任何問題而言,處理器通常是能效最低的方法,但因?yàn)樗鼈兙邆淞斯δ芏嘀匦?,一般可以用最小面積獲得實(shí)現(xiàn)。
4,電源分配網(wǎng)絡(luò)應(yīng)能夠在不損及電壓完整性的情況下,維持負(fù)載。
過去十年來,功率已經(jīng)成為一個(gè)關(guān)鍵的設(shè)計(jì)考慮,并在工程師設(shè)計(jì)與驗(yàn)證系統(tǒng)方面帶來了一些巨大的挑戰(zhàn)。物理學(xué)不再提供免費(fèi)便車。
功率是能量被消耗的速率,這在十年前還不是熱門,但今天已是一個(gè)重要的設(shè)計(jì)考量。系統(tǒng)的能耗會(huì)帶來熱量、耗盡電池、增加電能分配網(wǎng)絡(luò)的壓力,并且加大成本。移動(dòng)計(jì)算的發(fā)展最先推動(dòng)了對(duì)降低能耗的期望,但能耗的效應(yīng)現(xiàn)在已遠(yuǎn)遠(yuǎn)超出這個(gè)范圍,可能在業(yè)界帶來一些最大的結(jié)構(gòu)性變化。對(duì)于服務(wù)器農(nóng)場(chǎng)、云計(jì)算、汽車、芯片,以及依賴于能源獲取的泛在式傳感器網(wǎng)絡(luò),這都是一個(gè)關(guān)鍵性問題。
突然改變的原因是,物理學(xué)已把工藝技術(shù)帶到了90nm以下尺度。但是,隨著結(jié)點(diǎn)尺寸越來越小,電壓降低,從而造成功率的相應(yīng)下降。通常,即使開發(fā)人員增加了更多功能,功率預(yù)算也會(huì)保持不變。在更小尺度下,電壓的縮放更加困難,無法維持。當(dāng)電壓接近于閾值電壓時(shí),開關(guān)時(shí)間就會(huì)增加。為補(bǔ)償這一問題,設(shè)計(jì)人員會(huì)降低閾值電壓,但這樣做顯著增加了泄漏電流和開關(guān)電流。
設(shè)計(jì)流程中的每個(gè)階段都對(duì)功耗有影響,從軟件架構(gòu)到器件物理。雖然每個(gè)小組都可以做局部的功耗優(yōu)化工作,但沒有一個(gè)團(tuán)隊(duì)可以單獨(dú)創(chuàng)建出一個(gè)低功耗設(shè)計(jì)。反之,任何一個(gè)團(tuán)隊(duì)都可能摧毀低功耗的努力。這種狀況就產(chǎn)生了一種對(duì)協(xié)同與交叉學(xué)科工具的新需求。功率問題不再止于芯片。它們遍及互連結(jié)構(gòu)、電路板與系統(tǒng)設(shè)計(jì)、電源控制器等諸方面。當(dāng)前的EDA工具并非按功率概念而建立,這意味著設(shè)計(jì)人員要采用改進(jìn)型方法,而不是從頭開始的新方法。
物理原理的角色
一只芯片消耗的功率是開關(guān)(或動(dòng)態(tài))功率和無源(或泄漏)功率之和。功率的動(dòng)態(tài)成分源于設(shè)計(jì)的容性負(fù)載。當(dāng)某個(gè)線網(wǎng)從0轉(zhuǎn)換到1時(shí),這個(gè)成分通過一個(gè)PMOS晶體管充電。從電源獲得的能量等于容性負(fù)載與電壓平方的乘積。系統(tǒng)將這個(gè)能量的一半存儲(chǔ)在電容中;另一半則耗散在晶體管上。對(duì)于從1至0的轉(zhuǎn)換,不會(huì)從電源獲得更多能量,但電荷要耗散在NMOS晶體管上。假設(shè)結(jié)點(diǎn)以頻率F變化,則動(dòng)態(tài)功率為FCLVDD2,其中,CL是容性負(fù)載,VDD是電壓。雖然也存在其它形式的動(dòng)態(tài)功率,但它們要小得多。
由于電壓是平方項(xiàng),因此降低電壓有相當(dāng)顯著的效果。不幸的是,性能也與電壓相關(guān),因?yàn)樵黾与妷簳?huì)增加?xùn)艠O的驅(qū)動(dòng)VGS-VT,其中VGS是柵源電壓,VT是閾值電壓。使用較陳舊的技術(shù)時(shí),泄漏功率并不明顯。但隨著器件尺度的減小,很多區(qū)域中的泄漏變得更加顯著,包括柵極氧化物隧穿、亞閾值電壓、反偏結(jié)點(diǎn)、柵極導(dǎo)致的漏極泄漏,以及因熱載流子注入而產(chǎn)生的柵極電流等。
二氧化硅是常用的絕緣材料。在低厚度水平下, 電子可以隧穿它。這種關(guān)系是指數(shù)型的,意味著厚度減半,泄漏增至四倍,在晶體管尺度降到130nm以下之前,這還不是一個(gè)問題。用高k電介質(zhì)代替二氧化硅可以提供相近的器件性能,獲得更厚的柵級(jí)絕緣體,從而降低了這個(gè)電流。
晶體管有一個(gè)柵源閾值電壓,低于這個(gè)電壓時(shí),通過器件的亞閾值電流就會(huì)呈指數(shù)倍下降。當(dāng)降低電源電壓以減少動(dòng)態(tài)功耗時(shí),閾值電壓也減小,從而使柵極電壓擺幅低于器件關(guān)斷的閾值。亞閾值傳導(dǎo)會(huì)隨柵極電壓呈指數(shù)式變化。
在擴(kuò)散區(qū)和阱之間,或在阱與基材之間的一個(gè)反偏構(gòu)造,會(huì)產(chǎn)生小的反偏結(jié)泄漏。在MOS晶體管漏極結(jié)上的高電場(chǎng)效應(yīng)會(huì)產(chǎn)生柵極導(dǎo)致的漏極泄漏,這通常要用制造技術(shù)來處理。柵極電流泄漏的原因是短溝道器件的閾值電壓漂移,并與器件中的高電場(chǎng)有關(guān)。對(duì)這個(gè)效應(yīng)的控制主要也是靠制造技術(shù)。
設(shè)計(jì)人員要在動(dòng)態(tài)功耗和靜態(tài)功耗之間做一個(gè)折中。降低電壓會(huì)減小動(dòng)態(tài)功耗,但增加了靜態(tài)功耗。我們來看一只手機(jī)內(nèi)的典型芯片。當(dāng)器件工作時(shí),泄漏要占所消耗功率的大約10%;其它90%是動(dòng)態(tài)功耗。但當(dāng)手機(jī)處于待機(jī)模式時(shí)(可能占到總時(shí)間的90%),芯片中的動(dòng)態(tài)功耗就很少。因此,盡量減小兩種功耗有著相同的重要性。
各種器件的功耗方面在持續(xù)地改進(jìn)。例如,在相同頻率下,三星的28nm低功耗工藝比45nm低功耗工藝的動(dòng)態(tài)功耗與待機(jī)功耗都減少了35%,與采用45nm低功耗的系統(tǒng)單芯片設(shè)計(jì)相比,28nm工藝在相同頻率下的動(dòng)態(tài)功耗降低了60%。臺(tái)積電28nm高性能低功耗工藝的待機(jī)功耗要比其40nm低功耗工藝低40%以上。同時(shí)GlobalFoundries公司為其28nm結(jié)點(diǎn)提供了三種功率水平(圖1)。
圖1,臺(tái)積電的28-HPL工藝待機(jī)功耗較40-LP工藝低40%以上。而Global Foundries則為其28nm結(jié)點(diǎn)提供了三種功率水平
摩爾定律繼續(xù)有效,芯片在每個(gè)器件中封裝了更多功能。據(jù)Open-Silicon的營(yíng)銷總監(jiān)Colin Baldwin稱,客戶可以用近似的單位成本和兩倍的性能,設(shè)計(jì)出下一代器件,雖然總功耗會(huì)增加,但單只器件的功耗是下降的。時(shí)鐘頻率是另外一個(gè)緩慢上漲的變量,但在很多市場(chǎng)上增速都慢于工藝。Open-Silicon發(fā)現(xiàn),大多數(shù)用戶試圖在略微增加總體功耗的情況下,集成更多的功能。因此,要維持相同的總功耗,就要看設(shè)計(jì)流程的其它部分中可以節(jié)省的能耗。
優(yōu)化與比較
設(shè)計(jì)包含了估算與優(yōu)化。估算可以對(duì)多個(gè)可能的實(shí)現(xiàn)選擇做出比較。另外,優(yōu)化可以自動(dòng)完成,或者可以在各種抽象水平上,用工具輔助完成。Apache/Ansys應(yīng)用工程總監(jiān)Arvind Shanmugavel認(rèn)為,只有當(dāng)擁有了一個(gè)完整設(shè)計(jì)和一組正確的矢量時(shí),功率估算才是一種精確的科學(xué)。在未完成設(shè)計(jì)以前,根據(jù)定義,所有事物都是一種即將在設(shè)計(jì)中發(fā)生的估計(jì)。在設(shè)計(jì)早期的功率預(yù)算階段,應(yīng)著眼于大的和相對(duì)的變化,而不是絕對(duì)的值。Atrenta公司的工程總監(jiān)Venki Venkatesh認(rèn)為,可以預(yù)期在RTL(寄存器傳輸級(jí))到硅片之間有20%的偏差,而從門到硅片有10%的偏差。
如果某個(gè)工具表示, 一種可能的方案會(huì)較另一種方案消耗更少的總能量,則這種概述一定是正確的;否則,工具就可能促使選擇了次級(jí)的方案。與面積和性能不同,功率是矢量相關(guān)的,因此可能需要運(yùn)行多次仿真,來獲得有關(guān)設(shè)計(jì)活動(dòng)的一種典型性樣本。例如,考慮兩種選擇,一種是為音頻處理器加隨機(jī)數(shù)據(jù),一種是用更多的典型語音數(shù)據(jù)。圖2給出了一個(gè)有限脈沖響應(yīng)濾波器中幾個(gè)寄存器的轉(zhuǎn)換動(dòng)作(參考文獻(xiàn)1)。對(duì)于一個(gè)不會(huì)破壞數(shù)據(jù)相關(guān)性的架構(gòu),語音數(shù)據(jù)開關(guān)電容的次數(shù)要比隨機(jī)輸入數(shù)據(jù)少80%。由于這些臨時(shí)的相關(guān)性,運(yùn)行順序可能造成切換動(dòng)作的巨大差異。
圖2,對(duì)于一個(gè)不會(huì)破壞數(shù)據(jù)相關(guān)性的架構(gòu),語音數(shù)據(jù)開關(guān)電容的次數(shù)要比隨機(jī)輸入數(shù)據(jù)少80%。由于這些臨時(shí)的相關(guān)性,運(yùn)行順序可能造成切換動(dòng)作的巨大差異。
不過, 有些公司認(rèn)為可以用統(tǒng)計(jì)方法獲得近似值, 即采用來自計(jì)數(shù)器或其它可識(shí)別邏輯片的預(yù)期活動(dòng)?,F(xiàn)在, 功耗優(yōu)化有很多種方式,大多數(shù)為RTL或以下。Shanmugavel稱,時(shí)鐘門控是盡量減少動(dòng)態(tài)功耗的常見技術(shù)。切斷某個(gè)電路的時(shí)鐘,可阻止一個(gè)設(shè)計(jì)中時(shí)鐘或寄存器的切換動(dòng)作。另一種技術(shù)是采用電壓島,它降低了設(shè)計(jì)的工作電壓,從而使開關(guān)元件的動(dòng)態(tài)功耗前后比值為電壓前后比值的平方。設(shè)計(jì)者將電壓島用于芯片的某些區(qū)域,這些區(qū)域的性能與速度不是關(guān)鍵,這樣可以節(jié)省功耗。
DVFS(動(dòng)態(tài)電壓/頻率縮放)是迄今最為復(fù)雜的動(dòng)態(tài)功率控制技術(shù)。這種方法會(huì)根據(jù)負(fù)載的需求,改變有效工作電壓和頻率。在高負(fù)載情況下,電壓與頻率處于額定狀態(tài),芯片或設(shè)備為滿負(fù)荷工作。在低負(fù)載情況下,電壓或頻率縮減,以低速工作,從而獲得了較低的動(dòng)態(tài)功耗。設(shè)計(jì)者可通過軟硬件方案的組合,實(shí)現(xiàn)這種技術(shù)。
片芯上的穩(wěn)壓器滿足了對(duì)多種動(dòng)態(tài)與靜態(tài)功率的需求。各IC通常有片外的穩(wěn)壓模塊,可提供動(dòng)態(tài)狀態(tài)下需要的電壓與電流。但是,設(shè)計(jì)者越來越多地采用片芯上的穩(wěn)壓器,因?yàn)殡妷河虻臄?shù)量在增加,這些電壓域更快響應(yīng)需求的要求也在增加。
堆疊IC間的相互通信盡量減少了信號(hào)互連,它是低功耗設(shè)計(jì)中一種新興的趨勢(shì)。Apache的Shanmugavel認(rèn)為,制造商一般是將處理器和存儲(chǔ)器堆疊在一個(gè)硅插入層上, 用TSV(硅通孔)做連接。這些插入層提供了片芯之間的低電容信號(hào)互連,從而降低了I/O的動(dòng)態(tài)功耗。隨著3D IC的成本開始下降,以及設(shè)計(jì)者對(duì)于熱效應(yīng)有了更多的理解,整個(gè)行業(yè)都將出現(xiàn)一個(gè)向3D IC的遷移。
要盡量減少靜態(tài)功耗, 設(shè)計(jì)者可以采用電源門控方法,為一個(gè)待機(jī)狀態(tài)的設(shè)備節(jié)省最多的泄漏功耗。關(guān)閉功能單位的時(shí)鐘可降低動(dòng)態(tài)功耗,但單元仍然有泄漏功耗。設(shè)計(jì)者必須在設(shè)計(jì)實(shí)現(xiàn)以前,了解有關(guān)電源門控的幾個(gè)折中問題。
減少泄漏功耗的一種最古老技術(shù)是用高閾值電壓門代換標(biāo)稱閾值電壓的門。在CMOS中,亞閾值泄漏與閾值電壓成反比。較高閾值電壓器件的泄漏包絡(luò)低于較小閾值電壓的器件,但付出的代價(jià)是較大的延遲。設(shè)計(jì)者必須做一個(gè)仔細(xì)的權(quán)衡分析,才能用此技術(shù)獲得最佳的減少泄漏效果。
另外一種降低靜態(tài)功耗的方法是有源反偏,它是增加CMOS門中基材結(jié)點(diǎn)的偏置電壓,從而降低泄漏電流。這種偏置技術(shù)根本上是在待機(jī)模式期間增加一個(gè)單元或整個(gè)芯片的閾值電壓,從而減少泄漏功耗。為了感受一下這些技術(shù)的采納率,Synopsys通過自己的一個(gè)“全球用戶調(diào)查”,收集了用戶數(shù)據(jù)(圖3)。
圖3,為了感受一下這些技術(shù)的采納率,Synopsys通過自己的一個(gè)“全球用戶調(diào)查”,收集了用戶數(shù)據(jù)。例如,最左上方一欄表示10%的受訪者擁有數(shù)據(jù)中心和網(wǎng)絡(luò),作為采用反偏置或阱極偏置的主要應(yīng)用。注意百分比大于100,因?yàn)檎{(diào)查會(huì)收到多個(gè)答案。
除RTL優(yōu)化以外,設(shè)計(jì)者還在開發(fā)一些能在系統(tǒng)級(jí)上做估算和架構(gòu)研究的工具。功率是一個(gè)系統(tǒng)級(jí)的問題,有些設(shè)計(jì)者發(fā)現(xiàn),不能用今天做芯片組裝和驗(yàn)證的自下而上方法來看待功率問題。過去,設(shè)計(jì)者設(shè)計(jì)芯片是為了獲得最大的靈活性,以現(xiàn)在設(shè)計(jì)芯片的成本,這種靈活性仍是一個(gè)重要的考慮方面。但和其它所有方面一樣,靈活性也會(huì)帶來成本。對(duì)任何問題而言,處理器通常是能效最低的方法,但因?yàn)樗鼈兙邆淞斯δ芏嘀匦裕话憧梢杂米钚∶娣e獲得實(shí)現(xiàn)。
驗(yàn)證
功率還增加了另一層復(fù)雜性,這就是設(shè)計(jì)者必須做驗(yàn)證。它需要額外的工具支持,制造商們現(xiàn)在正匆忙地在市場(chǎng)上推出這些工具。功率會(huì)在設(shè)計(jì)中增加一些新的器件,如隔離邏輯、功率開關(guān)、電平轉(zhuǎn)換器以及保持單元等。
不過,Synopsys 小功率驗(yàn)證營(yíng)銷總監(jiān)Krishna Balachandran認(rèn)為, 功率優(yōu)化也可能牽涉到順序RTL轉(zhuǎn)換,必須用源RTL作驗(yàn)證。缺少這種驗(yàn)證可能導(dǎo)致芯片上的系統(tǒng)不工作,或泄漏高于預(yù)期值。仿真方法可能太慢,沒有性價(jià)比,且不徹底,從而不能對(duì)功率優(yōu)化做完全的驗(yàn)證覆蓋。傳統(tǒng)形式等效工具的目標(biāo)通常是組合式變換的驗(yàn)證,不適合于功率優(yōu)化所需要的那種改變。大多數(shù)商用的形式驗(yàn)證工具還受制于容量和性能的限制,必須克服這些限制,才能處理低功耗設(shè)計(jì)的復(fù)雜電源架構(gòu),以及數(shù)百種電源域。為滿足這些新的要求,必須發(fā)展一類具有大容量和高性能的全新形式等效工具,目標(biāo)是對(duì)順序變換的驗(yàn)證。
Eve - USA 的總經(jīng)理LauroRizzatti表示,功率優(yōu)化也給EDA供應(yīng)商帶來了挑戰(zhàn)。很多低功耗技術(shù)通常都不能取得與RTL仿真或模擬的一致,它抽象了電壓的任何概念。設(shè)計(jì)者必須改造這些數(shù)字工具,使其支持功率目標(biāo)以及低功耗優(yōu)化實(shí)現(xiàn)技術(shù)。
電源分配網(wǎng)絡(luò)
Silicon Frontline Technology公司營(yíng)銷副總裁Dermott Lynch認(rèn)為, 功率器件的典型運(yùn)行效率在70%~90%,從而有10%~30%的總系統(tǒng)損耗。而Rambus公司半導(dǎo)體業(yè)務(wù)部副總裁兼首席技術(shù)官Ely Tsern補(bǔ)充說,比較積極的功率模式轉(zhuǎn)換配合精細(xì)的電源域,會(huì)使局部供電電流有更快的轉(zhuǎn)換,從而給敏感的局部電路帶來更大的di/dt電源噪聲,尤其是那些模擬電路。
但Shanmugavel警告說,在任何情況下,電源分配網(wǎng)絡(luò)都應(yīng)能夠在不損及電壓完整性情況下,維持負(fù)載的供電。例如,當(dāng)一個(gè)全局時(shí)鐘轉(zhuǎn)換和一個(gè)功能單元上電去完成某項(xiàng)工作時(shí),就出現(xiàn)了一個(gè)瞬態(tài)電流的需求。這種瞬態(tài)電流可能是額定電流的3倍~5倍,具體要看功能模塊情況,這給電源分配網(wǎng)絡(luò)帶來了一個(gè)巨大的負(fù)荷,必須驗(yàn)證在這些情況下,網(wǎng)絡(luò)上的瞬態(tài)電壓噪聲。