最近,英國Ascot的Agere系統(tǒng)公司 ASIC設計中心從一個重要客戶處收到一份富有挑戰(zhàn)性的簡報:將8個 ARM966E-S r1p0 處理器子系統(tǒng)集成到單芯片上。
盡管這項任務很復雜,但是僅花了11個月就完成了4M-gate 5Mbit 的設計。目前,芯片已投入生產,并作為首次推出的基礎設施的一部分,于2002年在歐洲首次使用。整個芯片是第三方和Agere設計經驗的合作成果,Agere負責提供ARM子系統(tǒng)設計經驗和芯片集成知識,而第三方提供特定用途知識產權。
本文不僅概括了小組在開發(fā)設計過程中遇到的挑戰(zhàn),還提供了對所采用的解決方案的深刻見解。使用的技術有Agere的0.16um 6LM (金屬層) 1.5V/3.3V處理,且連線到456 PBGAM數據包,以及Agere的內部EDA工具集、用于合成的Synopsys的設計編譯器、用于靜態(tài)時序分析的Primetime、用于測試插入和矢量生成的DC-XP/Tetramax和用于功耗分析的Primepower。小組使用了Avanti Apollo/Saturn 的布局規(guī)劃和時鐘樹綜合(CTS)技術、Mentor Graphics的Modelsim RTL 仿真技術和Cadence的NCVerilog 功能門仿真技術。 Celerity是用于Spice仿真的解決方案,而AssuraSI是用于信號集成分析的解決方案。
ARM966E-S子系統(tǒng)
本設計是分等級的,它將ARM966E-S子系統(tǒng)排在最低級別。子系統(tǒng)的結構如圖所示。
每個ARM966E-S子系統(tǒng)在每段設計里可使用2次,并同時添加第三方IP。而該段在設計中被復制4次。在層次的上一級也包括了第三方IP,最后,包括Agere所有的IO和測試結構。該結構在圖2中有說明。使用該設計結構,Agere提出了SoC設計,即當設備中的最低核心電壓是1.32V,接合溫度達到125 攝氏度,且使用最慢處理特性時,這種設計最少能容納1280 MIPS,是基于每個ARM966E-S核心160 MIPS的一種測量方法。在這些條件下,限制MIP數目的因素不是ARM966E-S核心(在這種技術下能達到200MIPs),而是指令/數據緊密耦合內存 (TCM)的大小和形狀,以及AMBA 高速總線 (AHB)的物理長度。在Agere的最新技術(0.13um)里,已獲得不止兩倍的性能,同時使用AMBA 3.0 AXI協議,克服了AHB的局限性。
多核設備結構" border="0" height="369" hspace="0" src="http://files.chinaaet.com/images/20100812/d0f94d6e-d584-4e0b-a329-cd20203d133d.jpg" width="520" />
子系統(tǒng)設計工藝基礎是Agere的 "AHB Supercore macrocell"。 Agere利用子系統(tǒng)的開發(fā)經驗,使Supercore滿足了SoC設計的要求。這就要求更改TCM配置,包括將部分數據TCM內存映射變?yōu)殡p口RAM。而且,增加了一個雙向的外部存儲接口(EMI) 和一個定制的矢量中斷控制器(VIC)。
測試設計功能性
一旦完成ARM966E-S子系統(tǒng)的RTL設計,Agere的工程師就創(chuàng)建了一套系統(tǒng)測試,以證明設計的功能性。除了可以測試ARM提供的矢量外,還可以測試合成的ARM966E-S核心的有效性。用于測試子系統(tǒng)的測試基準使用了Synopsys LMC (邏輯模型化公司)軟內存模式仿真TCM。
該測試組件還用于檢驗各個步驟的分塊合成和構造。一旦子系統(tǒng)設計人員確定了整個設計的合成,就會在融合到整個SoC設計前,將單獨的驗證結果傳給SoC設計人員。為了遵守ARM許可協議,無需ARM966E-S門級連線表,而是與ARM966E-S DSM系統(tǒng)仿真的DSM(設計仿真模式)一并傳給第三方。
這是一個復雜的SoC設計,不僅需要測試性能,還需要相關的調試。將BIST、SCAN和邊界掃描結構包含在內,才有可能對整個設計的高故障覆蓋生產進行測試。如果需要調試,除了需要一個結構外,還需添加支持ICE在線仿真的ETM9 (內置的蹤跡模塊)。
尤其是掃描技術,它不同于以往一次性掃描整個芯片的方法。每個分層的掃描都是單獨進行的,然后合并起來進入上一級。這里主要的工作區(qū)將所有以前掃描過的子模塊當作黑盒子來處理,直至插入了掃描。之后在填寫設計連線表前,子模塊代替設計中的黑盒子,為上一級掃描和合并做準備。這個過程在4 種不同層次上都有重復。從設計開始,Synopsys已發(fā)布了新版的設計編譯器,Agere用它成功掃描和編譯了許多復雜的分級設計,而無需精心制作的腳本。
邊界掃描結構設計使所有IO計時在IO和電壓轉換結構中都是可預料的。這應當通過創(chuàng)建IO緩沖和邊界掃描物理布局宏單元獲得。這些宏單元與Agere的BCADu軟件相結合,建立最高級IO連接。每種接入接出宏單元都轉換為正確的電壓,并接收不同的掃描輸入和輸出。
這就意味著功能信號在核心內不會與掃描信號相混淆。從而,隨著設計的進行,實現從頂級透視預測整個時序。IO環(huán)設計的另一特性是將邊界掃描時鐘TCK發(fā)送給數據的另一端。這就消除了與TCK有關的任何保留時序問題,同時意味著不必擔心時序平衡和芯片外圍的TCK時鐘樹。
由于這種設備是基于ARM的,且具有ICE性能,與IO邊界共享JTAG端口,所以需要進行掃描。設計的TDO針需要在每兩個測試結構間復用。為了實現這一特性,將邊界掃描控制器(Agere開發(fā)的BCAD軟件部分)變?yōu)榭芍С诌吔鐠呙杌騃CE。
復雜設計需要足夠的調試性能
ICE和ETM性能都添加到SoCy設計中。在設計規(guī)格階段,為每個ARM966E-S提供一個獨立的ETM9,費用會很大,而且因為8 個ARM966E-S都具有同一功能,所以只需要其中的一個ARM966E-S。因此單個的ETM9放在核心最上層,并連接到單芯片的單ARM966E-S核心中,其它三個芯片的ETM接口未被連接。
SoC 設計的ICE性能需要依靠所有8個ARM966E-S核,能經由設備的JTAG端口,通過TDI/TDO信號進行通信。因為擁有多個JTAG端口的解決方案并不很實用,因而有必要利用ARM966E-S的菊花鏈通信性能。菊花鏈控制的說明見圖3。菊花鏈系列連接要求在每兩個ARM966E-S核間進行數據傳送,并意味著較低級別的TCK時鐘平衡變得重要了。為了使多ICE能以實用的調試速率運行,TCK時鐘樹必須首先在芯片間,然后在芯片內的ARM966E-S間達到平衡。
因為設備不包含只讀存儲器(ROM),所以在通電時,需要啟動系統(tǒng)將軟件下載到每個核。需通過主要外部接口,到達每個子系統(tǒng)的AHB基礎存儲器。然后處理器開始啟動,并將主程序傳輸到內核的指令TCM。
富有挑戰(zhàn)性的物理執(zhí)行
此Soc設計的物理執(zhí)行是使用Avanti的 Apollo 和Saturn來實現TDL(時序驅動布局)和CTS (時鐘樹整合)的。目前Synopsys Astro已經替代了這個流程。8個內核的設計,可能產生有趣的挑戰(zhàn)。設備的形狀由ARM966E-S子系統(tǒng)的大小和形狀規(guī)定,并受芯片形狀和大小的影響。通過這個設備的數據流主要是單向的,同時影響到平面布局圖。這就意味著唯一的可能就是在各自頂端堆疊芯片。于是要求制定長線(> 3mm)轉發(fā)器信號策略,同時,因為每個芯片與來自芯片四個方向的信號通信,所以要求大量的轉發(fā)器元。這就迫使Agere的設計小組在平面布局圖中采用轉發(fā)器區(qū)域,管理利用轉發(fā)器元的數量。隨著信號傳送距離變長(> 20mm),就會對計時產生影響,于是要求重新設計SoC的某些方面,以提供更多的管線級數,確保時序不受干擾。
如果這個設計很大(> 140mm^2),有大量的初級IO信號,同時大于數據中的125K觸發(fā)器,那么就應特別注意其功耗、IR壓降及IO和時鐘交換引起的噪音。通過精確的嵌入時延管理,確保每個芯片的計時,從而減少設備功耗、IR 壓降和時鐘噪音。芯片外的電路記錄對邊的時間,另外金屬的附加級也添加,僅用于功率路由。然而即使利用這些技術,設計人員仍認為電壓能降到1.32V(Agere0.16um 1.5V 庫中最小的典型電壓)。隨后計時分析和模擬這個更低的電壓特征,并產生設備計時分析和模擬的SDF(標準時延格式)。
對這一種類的設備,另一值得考慮的事項是地面反彈分析。需要考慮要求的VDD 和VSS板的數目,然后使用Celerity SPICE模擬器對芯片進行仿真,同時使用所有的輸出交換。相應地,測量輸出緩沖驅動容量,調整VDD/VSS板的數目和基調。然后再進行一個相似的仿真,評估內核電源板的需求。最后由于這是一種混合的電壓設計,我們?yōu)?.3V交換 IO 和1.5V內核電壓重新設計一個標準的數據基底,以合并電源層,從而減少連接到VDD 和VSS電源的感應。
Agere實現了布局內的時序閉合后,就會利用其信號集成分析工具方法,評估假信號問題,以及信號耦合引起的時序問題。圖4演示了Agere的SI流程。
當時,這個方法還是相對較新的。這些工具雖然已經十分先進了,但仍沒有現在的先進。于是導致了許多反復設計,在修復了潛在問題后,再進行進一步的信號集成分析,這樣才能完成整個設計。
這樣的設計以及許多同樣復雜的后續(xù)設計的結果是:Agere工具的信號集成能力得到很好的調整,以致于單個信元具有獨特的門限特征,產生了新的SI 加強型信元(hardened cell),以及用于更高精度模塊化的單網分析。這就使易受當前信號完整性問題影響的網絡數量大幅下降,從而讓我們能集中精力解決真正的問題。相應地,Agere現在利用了Synopsys Astro Cross-talk工具進行布局設計,并采用時鐘屏蔽作為標準,消除時鐘故障問題。同時,Agere 還采用了Cadence的Celtic工具代替圖4 SI 流程中的Assura工具。
總之,這是個十分苛刻的SoC設計,需要開發(fā)新的設計技術才能成功實現。這些技術已經逐漸被應用到Agere的其它設計中,而且到目前為止,位于英國Ascot 的Agere設計中心已完成了7種不同技術的基于ARM的設計,包括Agere最新的0.13um技術,而整個公司已經擁有了30種基于ARM的設計方案。