123,123

芯耀辉软硬结合的智能DDR PHY训练技术

日期： 2021-07-09

來源：芯耀辉

關鍵詞： DDRPHY 芯耀辉

　　DDR接口速率越來越高，每一代產(chǎn)品都在挑戰(zhàn)工藝的極限，對DDR PHY的訓練要求也越來越嚴格。本文從新銳IP企業(yè)芯耀輝的角度，談談DDR PHY訓練所面臨的挑戰(zhàn)，介紹芯耀輝DDR PHY訓練的主要過程和優(yōu)勢，解釋了芯耀輝如何解決DDR PHY訓練中的問題。

　　DDR PHY訓練簡介

　　高可靠性是系統(tǒng)級芯片SoC重要的質(zhì)量和性能要求之一。SoC的復雜在于各個IP模塊都對其產(chǎn)生至關重要的影響。從芯耀輝長期服務客戶的經(jīng)驗來看，在客戶的SoC設計中，訪問DDR SDRAM是常見的需求，所以DDR PHY則成為了一個非常關鍵的IP，其能否穩(wěn)定可靠的工作決定了整個SoC芯片的質(zhì)量和可靠性。

　　制定DDR協(xié)議的固態(tài)技術協(xié)會（JEDEC）標準組織并沒有在規(guī)范中要求動態(tài)隨機存取存儲器（DRAM）需要具備調(diào)整輸入輸出信號延時的能力，于是通常DDR PHY就承擔起了輸入和輸出兩個方向的延時調(diào)整工作，這個調(diào)整的過程稱為訓練（training）。訓練是為了使DDR PHY輸出信號能符合固態(tài)技術協(xié)會標準的要求，DDR PHY通過調(diào)節(jié)發(fā)送端的延遲線（delay line），讓DRAM顆粒能在接收端順利地采樣到控制信號和數(shù)據(jù)信號；相對應的，在DDR PHY端，通過調(diào)整內(nèi)部接收端的延遲線，讓DDR PHY能順利地采樣到DRAM顆粒的輸出信號。從而在讀寫兩個方向，DDR接口都能穩(wěn)定可靠地工作。

圖1：DDR PHY承擔了輸入和輸出兩個方向的延時調(diào)整工作.jpg

　　圖1：DDR PHY承擔了輸入和輸出兩個方向的延時調(diào)整工作

　　然而，隨著DDR工作頻率提高，DDR PHY訓練的準確性和精度要求也隨之提高。訓練的準確性和精度決定了DDR系統(tǒng)能否穩(wěn)定可靠地工作在較高的頻率。

　　DDR PHY訓練所面臨的挑戰(zhàn)

　　DDR訓練的種類繁多，每個訓練的結果都不能出錯。同時固態(tài)技術協(xié)會定義的訓練序列都比較單一，如果只使用這些默認序列的話，訓練結果在實際工作中并不是一個最優(yōu)值。

　　目前絕大多數(shù)DDR PHY都采用硬件訓練的方式，如果硬件算法有問題，會導致訓練出錯，DDR無法正常穩(wěn)定地工作，導致整個SoC的失敗。同時，硬件訓練模式很難支持復雜的訓練序列和訓練算法，從而無法得到訓練結果的最優(yōu)解。

　　芯耀輝的DDR PHY采用軟硬件結合的固件（firmware）訓練方式跳出了上述DDR PHY訓練模式的固定思維。

　　芯耀輝DDR PHY在訓練上的優(yōu)勢

　　解決寫入均衡（write leveling）的難題

　　寫入均衡是為了計算出flyby結構下命令通路和數(shù)據(jù)通路的走線延遲的差值，在DDR PHY中把這個差值補償?shù)綌?shù)據(jù)通路上，從而最終讓數(shù)據(jù)通路和命令通路的延遲達到一致。

圖2：DDR flyby拓撲結構示意圖.jpg

　　圖2：DDR flyby拓撲結構示意圖

　　在實際的應用中，命令（command）路徑上的延時會超過數(shù)據(jù)（DQ）路徑的延時。假設路徑差值 = 命令路徑延時 - 數(shù)據(jù)路徑延時，一般路徑差值在0～5個時鐘周期之間。可以把路徑差值分為整數(shù)部分和小數(shù)部分（單位是0.5個時鐘周期）。

圖3：命令路徑延時、數(shù)據(jù)路徑延時和路徑差值.jpg

　　圖3：命令路徑延時、數(shù)據(jù)路徑延時和路徑差值

　　根據(jù)固態(tài)技術協(xié)會標準（如JESD79-4C）的寫入均衡的要求，DRAM在寫入均衡模式下會用DDR PHY發(fā)送過來的DQS沿去采樣CK，并把采樣的值通過DQ返回給DDR PHY。

圖4：寫入均衡模式下調(diào)整DQS時延的示意圖.jpg

　　圖4：寫入均衡模式下調(diào)整DQS時延的示意圖

　　通過該訓練，DDR PHY可以計算出命令與數(shù)據(jù)路徑延時差值的小數(shù)部分，卻沒有辦法訓練出命令與數(shù)據(jù)路徑延時差值的整數(shù)部分（把DQS多延遲一個時鐘周期或者少延遲一個時鐘周期，用DQS采樣CK的采樣值是相同的）。

　　為了解決這個問題，通常會根據(jù)版圖設計估算出大概的路徑差值，從而自行得到路徑差值的整數(shù)部分，直接配置到DDR PHY的寄存器中。這種做法在頻率比較低、量產(chǎn)一致性比較好的時候問題不大。但在大規(guī)模量產(chǎn)的時候，如果平臺之間的不一致性超過一個時鐘周期（LPDDR4最高頻下周期為468ps）的話，上述直接配置整數(shù)部分的方法就沒法進行工作了，必然會導致部分芯片無法正常工作。

　　芯耀輝采用固件的訓練方式，通過DDR寫操作時特殊調(diào)節(jié)方法，能夠幫助客戶計算出路徑差值整數(shù)加小數(shù)部分，無需客戶根據(jù)版圖設計估算路徑差值范圍。

圖5：路徑差值整數(shù)部分訓練和小數(shù)部分訓練.jpg

　　圖5：路徑差值整數(shù)部分訓練和小數(shù)部分訓練

　　過濾訓練時DQS的高阻態(tài)

　　讀操作時，DQS信號在前導（preamble）前是高阻態(tài)，同時DQS信號的前導部分也不能達到最穩(wěn)定的狀態(tài)，所以需要訓練出讀DQS的gate信號來過濾掉前面的高阻態(tài)和前導，恰好得到整個讀突發(fā)（Read Burst）操作的有效DQS，這就是讀DQS gate訓練。

　　芯耀輝采用特定的方法，在訓練的時候，排除不穩(wěn)定DQS的干擾，用讀DQS的gate信號得到讀突發(fā)數(shù)據(jù)對應的第一個DQS的上升沿位置，從而得到gate的位置。

圖6：讀DQS gate訓練.jpg

　　圖6：讀DQS gate訓練

　　延遲DQS提高讀DQ訓練的準確性

　　一般在DDR PHY中沒有這個訓練，因為該訓練不是固態(tài)技術協(xié)會標準要求的，可是在實際應用中，這個訓練卻有著比較重要的意義。

圖7：LPDDR4突發(fā)讀（來源固態(tài)技術協(xié)會標準JESD209-4B）.jpg

　　圖7：LPDDR4突發(fā)讀（來源固態(tài)技術協(xié)會標準JESD209-4B）

　　讀DQS和讀DQ之間的偏差為tDQSQ，這個值的范圍是0~0.18UI（在高頻下約為0~42ps）。讀訓練的時候，采用延遲DQS的方法，找到DQ的左右窗口，最后把DQS放在DQ窗口的中心點。由于DDR PHY內(nèi)部的DQS-DQ延遲偏差、封裝的pad延遲偏差、以及PCB走線偏差，雖然DRAM端輸出的tDQSQ為正數(shù)（DQ的延遲比DQS大），但在DDR PHY內(nèi)部看到的tDQSQ卻可能為負數(shù)（DDR PHY內(nèi)部DQS的延遲比DQ大），如圖8上半部分所示。

　　在這種情況下，即使DQS的延遲為0，DQS也落在DQ的窗口內(nèi)，PHY內(nèi)部會通過從0延遲開始增加DQS的延遲來搜索DQ的左右窗口，這樣必然導致最終搜索到的DQ的窗口比實際的窗口要小，讀訓練后的DQS的采樣點不在DQ的正中間，而在偏右的位置，最終讀余量（margin）變小。

　　芯耀輝通過特定的方法，能讓每個DQ的窗口都在DQS右邊，這樣做讀訓練的時候，可以搜索到DQ的完整窗口，提高了讀訓練的準確性，提升DDR的讀性能。

圖8：Read DQ skew training.jpg

　　圖8：Read DQ skew training

　　用固件的訓練方法獲取讀數(shù)據(jù)眼圖（Read data eye）的優(yōu)化值

　　讀數(shù)據(jù)眼圖訓練通過延遲讀DQS的方法，把讀DQS放在DQ窗口的中間。目前最大的問題是固態(tài)技術協(xié)會標準對讀數(shù)據(jù)眼圖的讀序列定義的比較簡單，比如對于DDR4，定義的序列是01010101的固定序列。因為高速信號的符號間干擾以及信號反射，在不同的讀序列的情況下DQ窗口是有差異的，所以采用簡單固定的序列并不能很好地覆蓋實際的使用場景，導致訓練結果在實際工作時并不是一個優(yōu)化值。

　　芯耀輝采用固件的訓練方法，可以設置不同的范式（pattern），如PRBS范式、特殊設計的掃頻范式等。顯然此類范式能更好地反映數(shù)據(jù)通道的特性，因為它包含了高頻、中頻、低頻信息，以及長0和長1帶來的碼間串擾等問題，可以獲得較優(yōu)的訓練結果，從而得到一個能覆蓋實際工作場景的可靠值。

　　二維訓練模式下優(yōu)化的參考電壓（Vref）電壓和地址線（CA）延遲

　　LPDDR3中引入了地址線訓練，DRAM把采樣到的地址信號通過數(shù)據(jù)通路反饋給DDR PHY，DDR PHY可以通過這個反饋去調(diào)節(jié)地址線的延遲。在LPDDR4中，還加入了地址線參考電壓的訓練，所以不僅需要調(diào)節(jié)地址線的延遲，還需要找到一個最優(yōu)的參考電壓值。傳統(tǒng)使用硬件訓練的方式在面對這種兩個維度的訓練時就會顯得捉襟見肘，同時硬件算法也沒法做得太復雜。

　　芯耀輝采用固件的二維訓練模式，可以繪制出完整的以地址線延遲為橫坐標和以參考電壓為縱坐標的二維圖像，從而得到較優(yōu)的參考電壓和對應的地址線延遲。

　　二維訓練模式下優(yōu)化的DQ參考電壓和DQ延遲

　　DDR4的固態(tài)技術協(xié)會標準中引入了DQ參考電壓，可是對于如何訓練并沒有給出說明和支持，所以大多數(shù)DDR PHY并不支持DDR4的DQ參考電壓訓練，只能配置一個固定參考電壓值。

　　LPDDR4的固態(tài)技術協(xié)會標準增加了寫DQS-DQ訓練（調(diào)整寫DQ相對于寫DQS的相位）和DQ參考電壓訓練協(xié)議上的支持。

　　芯耀輝采用固件的方式，不僅支持了DDR4的DQ參考電壓訓練，同時對于LPDDR4的寫DQS-DQ和DQ參考電壓訓練，也采用了固件的二維訓練模式，繪制出完整的以DQ延遲為橫坐標和以DQ參考電壓為縱坐標的二維圖像，在整個二維圖像中找到較優(yōu)的DQ參考電壓和對應的DQ延遲。

　　總結

　　隨著工藝節(jié)點的提升和DDR顆粒技術的演進，DDR的工作頻率越來越高，DDR顆粒的訓練要求也越來越高。同時對于DDR PHY來說，內(nèi)部的模擬電路（FFE，DFE等）隨著頻率的提升也需要做各種高精度的訓練。芯耀輝采用軟硬結合的智能訓練方法不僅可以支持DDR顆粒的各種必要的復雜訓練，也同時可以支持DDR PHY內(nèi)部模擬電路的各種訓練。通過不斷優(yōu)化訓練算法，持續(xù)挑戰(zhàn)每一代DDR產(chǎn)品的速率極限。

　　百尺竿頭，更進一步，芯耀輝人必將以提供高性能的接口類IP，高品質(zhì)的設計服務為己任，奮發(fā)圖強，攜手廣大芯片設計公司推出更優(yōu)秀的產(chǎn)品，助力中國芯片產(chǎn)業(yè)的發(fā)展。

微信圖片_20210517164139.jpg

版權聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權者。如涉及作品內(nèi)容、版權和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

芯耀辉软硬结合的智能DDR PHY训练技术

日期： 2021-07-09

來源：芯耀辉

相關內(nèi)容