現(xiàn)在云計(jì)算、存儲(chǔ)和機(jī)器學(xué)習(xí)等領(lǐng)先應(yīng)用需要傳輸大量數(shù)據(jù),這要求開(kāi)發(fā)者以最小的延遲集成最新的高速接口,以滿足這些系統(tǒng)的帶寬需求。PCIe作為歷史上使用最廣泛、可擴(kuò)展最強(qiáng)的互連技術(shù),其創(chuàng)新的步伐正在加快,如今PCIe 6.0標(biāo)準(zhǔn)已然來(lái)臨。對(duì)于高性能計(jì)算、AI和存儲(chǔ)SoC開(kāi)發(fā)者來(lái)說(shuō),轉(zhuǎn)向PCIe 6.0為設(shè)計(jì)師提供了一系列關(guān)于IP、SoC和系統(tǒng)的考慮。及時(shí)理解并做好所需要的面對(duì)的關(guān)鍵變化,以及由此帶來(lái)的設(shè)計(jì)挑戰(zhàn),將有助于其順利過(guò)渡到PCIe 6.0時(shí)代。
PCIe 6.0的新變化
過(guò)去,PCIe的標(biāo)準(zhǔn)基本保持在3-4年一更迭的速度,但自PCle 3.0以來(lái),PCIe的標(biāo)準(zhǔn)正在快速演進(jìn),基本在2年一更新,到現(xiàn)在已經(jīng)到了PCIe 6.0的時(shí)代。PCle標(biāo)準(zhǔn)的加速也是數(shù)據(jù)爆炸的使然。
圖1:PCIe標(biāo)準(zhǔn)的演進(jìn)路線圖(來(lái)源:新思科技)
那么,PCIe 6.0有哪些新變化呢?首先是數(shù)據(jù)速率從32GT/s翻倍至64GT/s,吞吐量在大多數(shù)情況下超過(guò)兩倍;其次,保持其兼容性,PCIe 6.0向后支持所有PCIe的標(biāo)準(zhǔn);再者,PCle 6.0 PHY IP必須為所有PCle 6.0數(shù)據(jù)速率提供出色的性能,所以從NRZ編碼轉(zhuǎn)換到PAM-4編碼,以及由此帶來(lái)的糾錯(cuò)影響,PAM-4適用于新Gen6 64GT/s。
下圖就很好的解釋了為何PCIe 6.0會(huì)引入PAM-4。可以看出,當(dāng)數(shù)據(jù)速率從16GT/s加倍到32GT/s時(shí),奈奎斯特頻率也從8GHz加倍到16GHz,使得PCIe 5.0的頻率相關(guān)損耗比PCIe 4.0要嚴(yán)重得多。再加上電容耦合(噪聲和串?dāng)_)的增加,使得PCIe 5.0通道成為最難處理的NRZ通道。如果PCIe 6.0仍然保留NRZ信號(hào),則奈奎斯特頻率將增加到32GHz,通道損耗大于60dB,這對(duì)于實(shí)際系統(tǒng)而言太大了,因此需要從NRZ更改為PAM-4信號(hào)。這一變化意味著發(fā)射和接收的信號(hào)現(xiàn)在有四個(gè)不同的電壓電平,而不是兩個(gè)。
圖2:NRZ通道面臨的挑戰(zhàn)(來(lái)源:新思科技)
其他額外的變化是,PCIe 6.0采用了新的輕量級(jí)FEC,平均往返時(shí)延約為2ns;PCIe 6.0引入新的FLIT模式,采用了256B FLIT作為標(biāo)準(zhǔn)大小的數(shù)據(jù)傳輸單元;由于FEC要求,F(xiàn)LIT模式現(xiàn)在支持所有數(shù)據(jù)速率;PCIe 6.0引入了一種新的低功耗狀態(tài),稱為L(zhǎng)0p,允許PCIe 6.0鏈路在不中斷數(shù)據(jù)流的情況下擴(kuò)展帶寬利用率,從而降低功耗;為了在64GT/s下保持性能,PCIe 5.0的768個(gè)標(biāo)簽限制遠(yuǎn)遠(yuǎn)不足以支持大多數(shù)PCIe 6.0系統(tǒng)的性能,因此標(biāo)簽數(shù)量最大值急劇增加,變?yōu)榛?4位的15,360個(gè)標(biāo)簽。除此之外,單個(gè)應(yīng)用程序接口可能不再足夠,所以使用多個(gè)應(yīng)用接口來(lái)提高PCIe 6.0鏈路利用率。
下圖顯示了在相同比例的眼圖,圖1(a)顯示了使用NRZ信號(hào)的PCIe 5.0的眼圖,包含兩個(gè)電壓電平和單眼。圖(b)顯示了使用PAM-4信號(hào)的PCIe 6.0的眼圖,包含四個(gè)電壓電平和三眼。由于發(fā)射端(TX)的總體電壓擺幅沒(méi)有增加,因此PAM-4系統(tǒng)中每只眼的可用電壓僅為NRZ的1/3。因此,信號(hào)在TX和接收端(RX)之間遇到的任何噪聲都會(huì)對(duì)信號(hào)完整性造成更大的損害。這也是為什么需要在進(jìn)行PAM-4信號(hào)傳輸時(shí),需要額外的FEC支持的原因。
圖3:32G NRZ VS 64G PAM-4眼圖(來(lái)源:新思科技)
PHY IP該如何應(yīng)對(duì)?
要滿足PCIe 6.0的上述新變化,對(duì)PHY層來(lái)說(shuō)也有一定的需求變化。因?yàn)镻CIe 6.0需要支持64GT/s的帶寬,所以速率需要從原來(lái)的32G變?yōu)?4G。另外一點(diǎn)是不僅要支持PCIe 6.0 64G的PAM-4,還需要支持從低速的2.5G-32G的NRZ,向后兼容所有PCIe的標(biāo)準(zhǔn)。另外還需要引入輕量級(jí)的FEC,使得PHY BER能滿足<=1e-06的要求。輕量級(jí)FEC結(jié)合CRC和重試,以減少延遲影響。還需要支持新L0p的低功耗要求。在PCle 6.0速率下,支持32db的信道損耗。
大家都知道,新思科技在Serdes中已經(jīng)可以達(dá)到112G的Ethernet,但對(duì)于PCIe 6.0來(lái)說(shuō),并不是只通過(guò)降速就可以滿足其要求,還要考慮低延遲、SSC/SRIS的支持、更復(fù)雜的發(fā)射機(jī)、低功率狀態(tài)、100x更嚴(yán)格的誤碼率要求等等。所以對(duì)于PCIe 6.0,新思有單獨(dú)的支持64G速率的方案。
上面我們提到PHY的接收通路不僅要滿足NRZ,也要滿足PAM-4。所以PHY在接收端采用了特別的模擬+DSP的組合架構(gòu),可以滿足對(duì)于功耗和接收性能的兼顧。再者,發(fā)射通路也需要加以改進(jìn),如上圖3所示,PAM-4的信號(hào)眼圖相對(duì)NRZ會(huì)變得更為嚴(yán)格,所以對(duì)于發(fā)送通路的發(fā)送信號(hào)的質(zhì)量要求會(huì)更高。由于減少了PAM-4眼寬,所以需要更好的TX抖動(dòng)性能(~ 2x);而且與Gen5相比,F(xiàn)FE(前饋均衡)也需要加強(qiáng)。
圖4:為了同時(shí)滿足NRZ和PAM-4,需對(duì)接收端和發(fā)送端進(jìn)行改進(jìn)(來(lái)源:新思科技)
PCIe 6.0 FLIT模式的新L0p低功耗狀態(tài),能帶來(lái)真正的帶寬/功率縮放。L0p可以根據(jù)鏈路的數(shù)據(jù)吞吐量去動(dòng)態(tài)改變有效的車(chē)道(lane)的數(shù)量。比如說(shuō)在高吞吐量的需求情況下,可以將所有的車(chē)道都開(kāi)起來(lái),當(dāng)不需要那么高的吞吐量時(shí),可以關(guān)閉多余的車(chē)道,這樣就可以做到真正的節(jié)省功率。值得一提的是,這種調(diào)整是不需要做PHY層的訓(xùn)練等,這是PCIe 6.0新的L0p的低功耗Power State的功能。
圖5:新的L0p可以根據(jù)鏈路的數(shù)據(jù)吞吐量去動(dòng)態(tài)改變有效的車(chē)道(lane)的數(shù)量 (來(lái)源:新思科技)
但在數(shù)據(jù)結(jié)構(gòu)方面,PHY是有所區(qū)別的。前文我們提到PCIe 6.0采用了256B FLIT作為標(biāo)準(zhǔn)大小的數(shù)據(jù)傳輸單元。這就要求在FLIT模式下需要將可變數(shù)量的TLP重新封裝到256B固定長(zhǎng)度的FLIT數(shù)據(jù)結(jié)構(gòu)中。這是IP設(shè)計(jì)中需要引入的新的變化。此外,F(xiàn)LIT自帶完整性的校驗(yàn),所以在吞吐量和數(shù)據(jù)傳輸方面的開(kāi)銷(xiāo)對(duì)于TLP或者DLP會(huì)更有優(yōu)勢(shì),所以可以將TLP或DLP直接封裝到FLIT里面,F(xiàn)LIT的overhead比較小,所以對(duì)鏈路的性能是有提升的。
圖6:使用FEC需要固定大小的數(shù)據(jù)單位,而不是可變的TLP(來(lái)源:新思科技)
PCIe 6.0為了滿足高效的post數(shù)據(jù)傳輸,需要引入高比特tag的需求。如圖7所示,當(dāng)16個(gè)lane都工作的時(shí)候,要滿足高性能的要求需要將近7000多個(gè)tags的數(shù)量,意味著tag的位寬要達(dá)到14bit,所以進(jìn)行控制器設(shè)計(jì)的時(shí)候,需要能夠處理這么多的post的能力。
圖7:達(dá)到第4代到第6代鏈路的最大吞吐量所需的tag數(shù)量(來(lái)源:新思科技)
在應(yīng)用層接口方面,PCIe 6.0可以做到1024G這樣高的數(shù)據(jù)傳輸,如果在應(yīng)用層采用單獨(dú)的接口的話,鏈路利用率會(huì)比較低,所以PCIe 6.0將采用雙接口的方式。例如在32Byte的Payload下面,兩個(gè)接口相對(duì)于一個(gè)接口的話,其鏈路利用率將能達(dá)到80%的提升。
圖8:?jiǎn)谓涌诤碗p接口應(yīng)用程序接口的傳輸鏈路利用率和控制器數(shù)據(jù)路徑寬度(來(lái)源:新思科技)
對(duì)驗(yàn)證IP和系統(tǒng)層面的挑戰(zhàn)
PCie 6.0的到來(lái)也為驗(yàn)證和系統(tǒng)層面帶來(lái)的許多新的挑戰(zhàn)。首先,驗(yàn)證必須要充分涵蓋PAM-4、FEC、FLIT模式、Equalization的更新以及PIPE 6.0接口。再者,驗(yàn)證需要校驗(yàn)方案中有大量的協(xié)議檢查,降低PCle 5.0到PCle 6.0遷移的風(fēng)險(xiǎn)。需要增強(qiáng)對(duì)模擬誤碼率的功能檢測(cè),還需要完整的FLIT控制和操作的驗(yàn)證。
所以綜合來(lái)講,PCIe 6.0標(biāo)準(zhǔn)下的驗(yàn)證IP應(yīng)該能支持最新的PCle 6.0規(guī)范版本;要有一個(gè)全面的源代碼測(cè)試套件;同時(shí)使用分層控制實(shí)現(xiàn)廣泛的協(xié)議檢查,可以覆蓋到成千上百的應(yīng)用需求;支持分岔的多鏈路DUT,對(duì)內(nèi)置(控制器)和客戶(客戶自己)情況的魯棒錯(cuò)誤注入的支持,支持所有拓?fù)?,包括根?fù)雜,端點(diǎn),應(yīng)用程序?qū)?,主?dòng)/被動(dòng)監(jiān)控,也要覆蓋到廣泛的PHY驗(yàn)證。
在系統(tǒng)層面,如果PCIe 6.0和控制器能有綜合完整的解決方案,對(duì)于系統(tǒng)的吞吐量、兼容性和有效性來(lái)說(shuō)是非常有利的。另外,PCIe 6.0采用的是PIPE接口選項(xiàng),PIPE 5接口規(guī)范不支持PCIe 6.0,必須指定支持PCle 6.0的最新版本PIPE 6規(guī)范。再者,PCle 6.0的行業(yè)正在轉(zhuǎn)向SerDes架構(gòu),它簡(jiǎn)化了64GT /s PHY設(shè)計(jì),支持CXL 3.0對(duì)低時(shí)延的要求。
此外,還要考慮數(shù)據(jù)路徑和時(shí)間的問(wèn)題,只有2個(gè)可行的選擇,以權(quán)衡時(shí)間關(guān)閉和延遲。一個(gè)是在1 GHz定時(shí)關(guān)閉。要關(guān)閉1GHz PIPE接口的計(jì)時(shí),必須使用64b (80b) PIPE。對(duì)于x16鏈路,需要有16 * 64b = 1024的超寬的數(shù)據(jù)路寬。另一個(gè)是最小延遲選項(xiàng)。為了減少延遲,時(shí)鐘可以運(yùn)行在2GHz,將周期削減到0.5 ns/時(shí)鐘,時(shí)鐘必須在2GHz的管道接口關(guān)閉,對(duì)于x16鏈路,控制器數(shù)據(jù)路徑為512b。
圖9:數(shù)據(jù)路徑和時(shí)間考慮 (來(lái)源:新思科技)
對(duì)于封裝來(lái)說(shuō),64G的封裝設(shè)計(jì)需要新的考慮。因?yàn)樵谕瑯拥哪慰固叵?,從NRZ 轉(zhuǎn)換為 PAM-4,其信噪比更惡劣9.6dB。而且PCle 6.0的封裝從TX 到 RX 需要滿足- 60db (PCIe 5.0是50dB)到16Ghz的Xtalk Spec。除此之外,還有一些返回?fù)p耗和反射、插入損耗,和串?dāng)_控制的要求都很高。
首個(gè)PCIe 6.0 完整IP解決方案已出
在PCle 5.0方面,新思科技已經(jīng)擁有超過(guò)170個(gè)許可的應(yīng)用。在PCIe 6.0標(biāo)準(zhǔn)下,目前新思科技已推出業(yè)界首個(gè)PCI Express 6.0完整IP解決方案DesignWare IP ,包括控制器、PHY和驗(yàn)證 IP??蓪?shí)現(xiàn)PCIe 6.0 SoC設(shè)計(jì)的早期開(kāi)發(fā)。
DesignWare IP完全支持PCIe 6.0規(guī)范,其中包括64GT/s PAM-4信號(hào)傳輸、FLIT模式和L0p功耗狀態(tài)。新思科技的完整IP解決方案可滿足高性能計(jì)算、AI和存儲(chǔ)SoC在延遲、帶寬和功耗效率方面不斷提高的要求。
如前文所列出的諸多挑戰(zhàn),新思科技都做了很好的應(yīng)對(duì)。新思科技面向PCIe 6.0的DesignWare PHY IP在5納米工藝中的高性能PHY采用獨(dú)特的模擬和DSP技術(shù),可在芯片對(duì)芯片、轉(zhuǎn)接卡和背板接口上節(jié)省20%的功耗。面向PCIe 6.0的DesignWare PHY IP感知布局架構(gòu)可最大限度地減少封裝串?dāng)_,并支持針對(duì)x16鏈路的密集SoC集成。
DesignWare控制器采用了MultiStream架構(gòu),可提供相當(dāng)于Single-Stream設(shè)計(jì)2倍的性能。該控制器采用1024位架構(gòu),可讓開(kāi)發(fā)者在1GHz時(shí)序收斂的條件下實(shí)現(xiàn)64GT/s x 16的帶寬。此外,該控制器還可在處理多個(gè)數(shù)據(jù)源以及使用多個(gè)虛擬通道時(shí)提供最佳流量。
為了通過(guò)內(nèi)置驗(yàn)證計(jì)劃、序列和功能覆蓋來(lái)加快測(cè)試平臺(tái)的開(kāi)發(fā),面向PCIe的VC驗(yàn)證IP采用了本地SystemsVerilog/UVM架構(gòu),只需小量的工作即可完成集成、配置和定制。
DesignWare IP的推出將是設(shè)計(jì)者的一大福音,它能幫助開(kāi)發(fā)者很好的解決從PCIe 5.0過(guò)渡到PCIe 6.0的諸多難題,加速其在芯片領(lǐng)域的成功之路。