層出不窮的智能應用不斷挑戰(zhàn)著人們想象力的極限,身邊鋪天蓋地的報道時時刻刻地提示著智能世界已經來臨。對,智能世界來了,隨之而來的還有奔騰而來的數(shù)據(jù)洪流:
到 2020年,
平均每位互聯(lián)網(wǎng)用戶:1.5 GB流量/天
自動駕駛汽車:4 TB 數(shù)據(jù)/天
聯(lián)網(wǎng)的飛機:5 TB 數(shù)據(jù)/天
智能工廠:1 PB 數(shù)據(jù)/天
云視頻提供商:750 PB視頻/天
……
“到 2020 年,將會有 500億個終端聯(lián)網(wǎng),遠遠超過目前的80億,IP 的流量也將達到 2300 EP/年,” 英特爾可編程解決方案事業(yè)部副總裁兼客戶體驗事業(yè)部總經理 Rina Raman 強調,數(shù)據(jù)中心與終端互連所形成的循環(huán),隨著物聯(lián)網(wǎng)的發(fā)展將會逐漸加速,因而網(wǎng)絡就必須以更高的速度處理更多的數(shù)據(jù),數(shù)據(jù)中心也需要做更為復雜的計算,以應對更為龐大的數(shù)據(jù)集,甚至嵌入式終端也需要做很多本地的計算。此外,數(shù)據(jù)中心還需應對一些更具挑戰(zhàn)性的工作負載: 如大數(shù)據(jù)分析、機器學習等等。由此,循環(huán)中瓶頸與挑戰(zhàn)一一出現(xiàn)。
數(shù)據(jù)洪流中的瓶頸與挑戰(zhàn)
上述所提及的挑戰(zhàn)與瓶頸,無論 5G 無線通訊、雷達與宇航、網(wǎng)絡,還是云計算、智能城市以及自動駕駛,都身在其中。
5G 網(wǎng)絡: 未來需要更大的帶寬、更復雜的數(shù)字信號處理能力。英特爾 FPGA 能夠幫助應對這些挑戰(zhàn),尤其在 5G 網(wǎng)絡應用中,F(xiàn)PGA 可以加速 MIMO 天線的計算和基帶的信號處理能力,解決安全及其他一些可能會制約發(fā)展的網(wǎng)絡功能。
雷達與宇航:雷達應用中,與安全相關的通訊,正在面臨著一系列的挑戰(zhàn):其中包括波速成形、FFT與過濾器以及機器學習等算法方面的挑戰(zhàn)。以往的解決方式是:通過更快的 CPU 或者更快的 DSP 芯片陣列 或者 ASIC 來應對,但是通過使用FPGA,設計人員可以加速數(shù)據(jù)處理、加速處理機器學習任務,讓整個架構更加簡單,同時開發(fā)環(huán)境也更加統(tǒng)一。
網(wǎng)絡方面:隨著數(shù)據(jù)中心與終端良性循環(huán)的加速、物聯(lián)網(wǎng)的不斷發(fā)展,網(wǎng)絡需要進行根本性的轉型,其中包含本地網(wǎng)、城域網(wǎng)、骨干網(wǎng)、甚至數(shù)據(jù)中心。而轉型的關鍵是:網(wǎng)絡功能虛擬化,即將一些關鍵的功能(如交換、安全性、檢測與報告等),從專用的硬件轉移到數(shù)據(jù)中心的軟硬件進行處理。正是在這樣一個充滿了不確定性和快速變化的環(huán)境中,F(xiàn)PGA 能夠加速一些關鍵數(shù)據(jù)包的交換、檢測以及安全任務的處理。
無人駕駛: 必然會對計算性能有更多的需求,算法的不確定性還可能會出現(xiàn)計算的孤島,每個孤島都可能有自己本身的硬件和開發(fā)環(huán)境,這對制造商而言是不可持續(xù)的。FPGA 在本地計算和深度學習的推算應用中,能夠發(fā)揮關鍵作用。同時,還可以通過 5G 連接,把汽車、其他車輛與高速公路基礎設施和云實現(xiàn)連接。
智慧城市:現(xiàn)代化的城市當中有很多計算孤島正在出現(xiàn),其中包括交通管理系統(tǒng)、照明管理系統(tǒng)、泊車管理系統(tǒng)和安全的攝像頭,這些眾多不同的系統(tǒng)由眾多不同的廠家來生產,每個系統(tǒng)都有不同的架構,不同的開發(fā)環(huán)境,而且彼此之間沒法實現(xiàn)數(shù)據(jù)共享。英特爾 CPU和 FPGA 就能取代這些專有的架構,提供本地計算、連接和分析的能力。
云計算:在云的環(huán)境中,工作負載及其構成都會出現(xiàn)動態(tài)的變化,甚至某些工作負載所需要的性能即使 CPU 在合理的功耗水平之下也是難以實現(xiàn)的,所以需要一些特別的芯片或者是配上 GPU,專門處理并行的運算,可以裝上網(wǎng)絡加速器,處理協(xié)議和安全的流量分流,還可以配備視頻解碼器或 ASIC 專用的集成電路,用于搜索的加速和深度學習。但是,服務器上往往沒有空間,也沒有足夠的功率支持放入所有芯片。所以,有一些云的服務提供商和數(shù)據(jù)中心的架構師就開始轉向使用英特爾 FPGA,F(xiàn)PGA 和 Xeon CPU連接,提供搜索、計算、加密、分組處理和機器學習的硬件加速。一旦發(fā)生變化,設計人員可以對FPGA進行重新的配置,滿足更新的需求。
FPGA : 對異構架構至關重要
處理大量數(shù)據(jù)的增長!
應對快速變化的新技術所帶來的計算環(huán)境的變化!
CPU 本身所具備的功耗!
僅僅依靠計算平臺同質的擴展,已遠遠沒法滿足上述的挑戰(zhàn)要求,因而不同的異構架構組合成為必然。當今的硬件平臺包括:CPU、FPGA 以及專用的加速器,其中 CPU 仍然是處理能力的核心引擎,再加上專用的加速器(ASSP和ASIC等),已然可以實現(xiàn)最好的計算效率。與此同時, FPGA 在其中也在越來越發(fā)揮著重要作用, 它就像一種先進的多功能的加速器,不僅能夠帶來最大的編程靈活性,支持高度差異化的產品,還可以在現(xiàn)場進行重新配置,虛擬加速任何數(shù)字的算法。FPGA也支持并行運算,其性能從吞吐量,實時速度到能耗,比 CPU 或 GPU 要優(yōu)上 10 倍。此外 FPGA 還可以以更低的時延處理更大的數(shù)據(jù),比傳統(tǒng)在硬件產品上跑的基于軟件的產品更快。也正因為 FPGA 既具有硬件性能,又具有軟件可編程的能力,在異構計算的環(huán)境中日益變得重要。
如下圖所示,旁路加速可以把一些重度計算的數(shù)據(jù)功能轉移到FPGA上面,這樣可以釋放處理器去處理其他運算。如果時延比較重要,還可以進行內建加速。這樣通過FPGA的多功能性,可以帶來更好的網(wǎng)絡的存儲和計算的加速。
Rina 以FPGA 提升數(shù)據(jù)中心效率為例,展示了FPGA 如何在生活中應對實際的挑戰(zhàn)的。
首先面對的是:數(shù)據(jù)庫的加速。SWARM64 可擴展數(shù)據(jù)加速器使用了英特爾最新的FPGA 大量處理一些并行的數(shù)據(jù),實現(xiàn)了很好的吞吐量、能耗和更高的性能,無論在云端,還是在現(xiàn)場,它都可以支持任何的配置??梢钥吹剑浩鋵崟r數(shù)據(jù)分析能力是以前的5倍,數(shù)據(jù)倉儲的能力是以前的2倍,存儲壓縮能力是以前的3倍。
接下來要解決的難題是:基因測序。眾所周知,基因測序的數(shù)據(jù)量大且復雜,如果分析能力跟不上,很多研究項目就會被迫推遲,因而影響整個醫(yī)療界的研究進展。英特爾和 Broad Institute 公司共同開發(fā)出了基因分析的軟件工具包——GATK,主要是用于分析大吞吐量測序的數(shù)據(jù)。據(jù)悉,研究人員現(xiàn)在可以在過去三分之一的時間能夠獲得5倍的數(shù)據(jù)量,相當于15倍的提升。Broad Institute 的 Pair-HMM 算法提高了50倍,總業(yè)務流提高了 1.2 倍。
另外一個實際難題是:存儲 NVME OVER FABRIC。Attala 希望利用英特爾 FPGA 重新設計和開發(fā)新一代的存儲和網(wǎng)絡的基礎設施。數(shù)據(jù)在硬件里通過FPGA來進行處理和加速,然后進入到網(wǎng)絡基礎設施,相比之前的方案,使用 FPGA 的方案在讀寫速度的時延方面降低57-72%。因而, Attala的解決方案不僅軟硬件結合的解決方案有很強的適應能力,而且也為云的服務提供商降低了運行成本。
為了更好地支持智能互聯(lián)世界的應用,英特爾提供的一系列的 FPGA 產品, 其中包括 Stratix 10 、Arria 10、Cyclone 10 和 Max 10。著眼于未來,Rina 透露英特爾下一代 FPGA的產品,英文名字叫 Falcon Mesa。這是使用了英特爾 10 納米的制程技術、基于 FinFET 制程、也是英特爾第二代使用 HyperFlex 架構的產品,還是第二代基于EMIB(英特爾接口的規(guī)范)的異構的SIP。據(jù)悉,F(xiàn)alcon Mesa 也是 Altera 并入英特爾以后第一代使用了英特爾10納米制程技術開發(fā)出來的產品。此外, 英特爾還提供了加速堆棧,用來助力開發(fā)人員輕松入門。
智能互聯(lián)世界的挑戰(zhàn)日趨復雜,英特爾 FPGA 愿意參與其中,助力加速計算,更好地應對今天以及未來的數(shù)據(jù)需求。