PCI總線最早是由英特爾于1992年推出,PCI-X則是IBM,惠普和Compaq于1998年創(chuàng)立的總線標(biāo)準(zhǔn)。PCI和PCI-X都是半雙工的,所有的設(shè)備都共享一個(gè)總線。PCI-SIG組織在2003年推出了PCI-Express,是PCI總線串行話,并采用了結(jié)點(diǎn)傳輸,每個(gè)設(shè)備可以獨(dú)立使用總線。
盡管PCI-Express已經(jīng)取得了成功,但我們被速度相對較慢的PCI-Express 2.0困了3年多。此后,又被PCI-Express 3.0困了7年。當(dāng)多核處理器正隨著內(nèi)核數(shù)量的不斷增加而進(jìn)入高速發(fā)展階段,當(dāng)以太網(wǎng)網(wǎng)絡(luò)開始回到摩爾定律的帶寬改進(jìn)的2年周期時(shí),PCI-Express總線陷入了泥潭,沒有為正在發(fā)展的各種異構(gòu)計(jì)算提供足夠的帶寬,PCI-Express總線已成為新的瓶頸。
系統(tǒng)內(nèi)部的總線狀況將在2019年變得更好。2017年推出的PCI-Express 4.0總線于當(dāng)年晚些時(shí)候首先出現(xiàn)在IBM基于Power9的Power Systems機(jī)器中,現(xiàn)在逐漸進(jìn)入X86和Arm處理器。通過此更新,懸掛在CPU封裝上的PCI-Express控制器的外圍設(shè)備可以使用16(x16)16Gb/sec通道(在編碼之前)提供31.5GB/sec的帶寬(在除去糾錯(cuò)編碼開銷之后)。該x16插槽通常用于驅(qū)動(dòng)高端GPU或FPGA加速器,并且是PCI-Express外設(shè)帶寬的最高點(diǎn)。無論如何,該P(yáng)CI-Express 4.0 x16插槽的帶寬幾乎是十年半以前提供的原始PCI-Express 1.0規(guī)范的八倍。
在PCI-Express 5.0規(guī)范上,PCI-SIG再次將原始通道速度提高了一倍,達(dá)到64Gb/s,這將允許x16鏈路在雙工串行鏈路上每條路的帶寬都略高于126Gb/s。因此,要特別感謝物理學(xué)家和化學(xué)家,因?yàn)樗麄兲岢隽嘶ミB中PHY通信電路中使用的新材料。
像最新一代的以太網(wǎng)交換機(jī)ASIC及其基于的標(biāo)準(zhǔn)一樣,PCI-Express 6.0標(biāo)準(zhǔn)將轉(zhuǎn)向脈沖幅度調(diào)制編碼(準(zhǔn)確地說是PAM4編碼),以將兩倍的比特塞入信號中。迄今已使用傳統(tǒng)的位編碼完成。即將發(fā)布的PCI-Express 6.0規(guī)范還將在協(xié)議中添加一個(gè)低延遲前向糾錯(cuò)層,隨著帶寬的增加和丟包幾率的增加,大多數(shù)互連都必須添加該層。FEC給所有互連協(xié)議增加了一點(diǎn)延遲,目前尚不清楚這將如何影響PCI-Express。PCI-SIG于6月份推出了最初的PCI-Express 6.0規(guī)范,而10月份發(fā)布了該規(guī)范的0.3版本。并準(zhǔn)備按計(jì)劃在2021年某個(gè)時(shí)候發(fā)布給硬件制造商。這可能意味著PCI-Express 6.0設(shè)備可能會(huì)在2021年下半年到2022年上半年之間投放市場。
憑借眾多依賴PCI-Express傳輸?shù)亩嘈酒軜?gòu)和異構(gòu)架構(gòu),并在PCI-Express硬件之上分層了其他協(xié)議,例如CXL,CAPI,CCIX和Gen-Z,我們認(rèn)為NVLink有很大的機(jī)會(huì)甚至OpenCAPI都可以與其中的某些協(xié)議(例如CXL)融合,以創(chuàng)建用于在PCI-Express上將計(jì)算和加速器彼此鏈接的單個(gè)協(xié)議,如我們所見,穩(wěn)定的帶寬增長對系統(tǒng)架構(gòu)至關(guān)重要。
這是一張有趣的圖表,PCI-SIG匯總了自1992年以來隨時(shí)間變化的PCI,PCI-X和PCI-Express總線的歷史帶寬趨勢。與我們上面討論的數(shù)字以及我們將在下面的圖表中繪制的數(shù)字不同稍后,PCI-SIG圖表會(huì)在全雙工鏈接(PCI-Express情況下為x16鏈接)中同時(shí)增加雙向帶寬。。
較淺的線顯示了如果每三年像時(shí)鐘頻率一樣增加一倍,外圍總線上的帶寬隨時(shí)間的變化將是什么。顯然,PCI-Express向串行雙工通道體系結(jié)構(gòu)的轉(zhuǎn)變大大提高了帶寬,超出了預(yù)期。重要的是,通過添加點(diǎn)對點(diǎn)鏈接,并未像PCI和PCI-X那樣采用共享總線。而對于PCI和PCI-X總線,在總線上添加第二張卡時(shí),它會(huì)占用某些帶寬,,將許多卡添加到系統(tǒng)會(huì)導(dǎo)致大量開銷。因此,在配置密集的系統(tǒng)中,PCI和PCI-X設(shè)備的相對性能可能會(huì)很低。
36個(gè)月的性能加倍節(jié)奏非常重要,因?yàn)樗蚨嗷蛏偈悄柖傻耐獠績?yōu)勢為至少某些處理器供應(yīng)商提供的。英特爾和IBM目前的發(fā)展速度為三年,距離英特爾聯(lián)合創(chuàng)始人戈登·摩爾最初所描述的18個(gè)月甚至是他在1980年代提出的修改的時(shí)間都相去甚遠(yuǎn)--他把晶體管成本減半延伸到24個(gè)月左右。
好消息是,這種加速的步伐正在加快,CPU的步伐正在放緩,網(wǎng)絡(luò)的步伐正在加快。因此,有可能使系統(tǒng)中的某些組件恢復(fù)平衡,并在未來幾年內(nèi)發(fā)展出真正的混合架構(gòu),因?yàn)樗鼈儾恍枰獙S械幕ミB來使組件之間能夠快速通信。
圖表:
上圖顯示了自1998年P(guān)CI- x協(xié)議問世以來,服務(wù)器的相對性能,與同期的以太網(wǎng)交換機(jī)端口帶寬大致相當(dāng),也與同期實(shí)際的PCI總線帶寬帶寬相當(dāng)。
我們根據(jù)基于X86服務(wù)器芯片的兩路服務(wù)器得出的相對服務(wù)器體積數(shù)據(jù)是一個(gè)非常粗糙的數(shù)字,因?yàn)槭袌龅钠溆嗖糠直举|(zhì)上是數(shù)據(jù)中的噪音,并且它考慮了每核的增加指令(IPC)以及每個(gè)插槽的核心數(shù),以得出長期的比較性能。
這三個(gè)向量在同一時(shí)間上一次出現(xiàn)急劇上升的最后一次是在2010年,此后,PCI-Express和以太網(wǎng)都以各自的PCI-Express 3.0和40Gb/sec的水平喘了口氣,并停了一會(huì)兒。即使需要18個(gè)月,24個(gè)月或現(xiàn)在接近36個(gè)月的時(shí)間才能使晶體管數(shù)量增加一倍,并使每個(gè)晶體管的成本降低一半,但處理器的年更新速度或多或少仍然受到IPC和工藝調(diào)整的影響。對于未來幾年以太網(wǎng)將如何從100Gb/sec躍升至200Gb/sec,從400Gb/sec躍升至800Gb/sec的情況,我們可能持樂觀態(tài)度,但這是主要商用芯片供應(yīng)商的路線圖和他們的轉(zhuǎn)換客戶。
看起來PCI-Express永遠(yuǎn)不會(huì)跟上CPU性能提高的步伐,但是至少在未來幾年中,它將保持同步。