《電子技術應用》
您所在的位置:首頁 > 通信與網(wǎng)絡 > 業(yè)界動態(tài) > 如何構建和部署邊緣計算SoC?邊緣計算中的 AI 如何驅動 5G 和 IoT ?

如何構建和部署邊緣計算SoC?邊緣計算中的 AI 如何驅動 5G 和 IoT ?

2020-11-25
來源:EETOP
關鍵詞: 邊緣計算 SOC AI 5G IOT

  邊緣計算是指對位于應用附近的服務器中的數(shù)據(jù)進行處理和分析。這一概念日益普及,并為成熟的電信提供商、半導體初創(chuàng)公司和新的軟件生態(tài)系統(tǒng)打開了新的市場。在過去的幾十年里,物聯(lián)網(wǎng)產(chǎn)生了海量的數(shù)據(jù)。以大數(shù)據(jù)為起點,通過邊緣計算的科技融合,使得物聯(lián)網(wǎng)這一領域得以全新開啟,從咖啡杯到藥丸分配器、從煉油廠到造紙廠、從智能護目鏡到手表,為消費者帶來了無限的全新價值。

  然而許多人認為,物聯(lián)網(wǎng)在市場中并未發(fā)生預期的曲棍球棒效應。除了特定的利基市場,IoT 的連通性并沒有帶來足夠的消費者價值。但在過去 5 年里,人工智能 (AI) 的技術進步已開始徹底改變各行各業(yè),并改變連接能為消費者帶來多少價值的潛能。這是一個非常令人振奮的時期,因為市場可以看到大數(shù)據(jù)、IoT 和 AI 的組合帶來無限的潛力。不過我們才剛剛踏上這段漫長的旅程,有助于利用這種結合的一項最初進展,是邊緣計算的概念及其對未來技術路線圖的影響。

  邊緣計算的概念可能不是革命性的,但其實現(xiàn)將是革命性的。這些實現(xiàn)將解決許多日益嚴重的問題,包括降低大型數(shù)據(jù)中心的能耗,提高專用數(shù)據(jù)的安全性,實現(xiàn)故障安全解決方案,降低信息存儲量和通信成本,以及通過降低延遲能力來開創(chuàng)新應用。

  然而什么是邊緣計算?如何使用邊緣計算,以及它能為網(wǎng)絡帶來什么好處?要了解邊緣計算,我們需要了解推動其發(fā)展的因素,它的應用類型,以及如何構建和部署邊緣計算 SoC。

  1 邊緣計算,邊緣云,霧計算,企業(yè)版

  邊緣計算有很多術語,如“邊緣云計算”、“霧計算”等,它通常被描述為,在本地服務器上運行的應用,旨在將云進程移近終端設備。

  傳統(tǒng)的“企業(yè)計算”使用方式與邊緣計算類似,但更傾向于準確地描述網(wǎng)絡功能,而不一定描述計算的位置。Cisco 創(chuàng)造的霧計算與邊緣計算基本相同,盡管有許多人將霧計算定義為位于邊緣計算空間之上或之下的計算,甚至作為邊緣計算的一個子集來描述霧計算。不過作為參考,端點設備和端點通常被稱為“邊緣設備”,以免與邊緣計算相混淆,并且這種劃分對于我們的討論很重要。邊緣計算可以采用多種形式,包括小型聚合器、本地服務器或微型數(shù)據(jù)中心。 微型數(shù)據(jù)中心可以按區(qū)域分布在永久性甚或可移動的存儲容器中,這些存儲容器可以捆綁安裝在 18 輪卡車上。

  2 邊緣計算的價值

  傳統(tǒng)方式中,物聯(lián)網(wǎng)系統(tǒng)從傳感器、攝像頭、麥克風,以及一系列不同的 IoT 終端和移動設備上收集數(shù)據(jù),并將數(shù)據(jù)發(fā)送到集中式數(shù)據(jù)中心或云。

  據(jù)預測,到 2020 年,全世界會有超過 500 億臺智能設備實現(xiàn)連接。這些設備每年將產(chǎn)生以澤字節(jié) (ZB) 計算的數(shù)據(jù),到 2025 年將增長到 150 ZB 以上。互聯(lián)網(wǎng)的骨干網(wǎng)旨在可靠地將設備彼此連接并與云連接,從而有助于確保數(shù)據(jù)包到達目的地。但是,將所有這些數(shù)據(jù)發(fā)送到云端會帶來一些重大問題。

  首先,150ZB 的數(shù)據(jù)會造成容量問題。其次,就能源、帶寬和計算能力而言,將大量數(shù)據(jù)從其原始位置傳輸?shù)郊惺綌?shù)據(jù)中心代價高昂。據(jù)估計,目前只有 12% 的數(shù)據(jù)獲得其持有公司執(zhí)行分析,而且只有 3% 的數(shù)據(jù)有助于產(chǎn)生有意義的結果(對于我們“環(huán)境數(shù)學家”來說,有 97% 的數(shù)據(jù)在收集和傳輸之后,就被浪費了)。這些數(shù)據(jù)清楚地概括了需要處理的業(yè)務效率問題。第三,存儲、傳輸和分析數(shù)據(jù)能耗巨大,顯然需要找到一種有效的方法來降低成本和浪費。

  引入邊緣計算,可以在本地存儲數(shù)據(jù),從而降低傳輸成本。不過消除數(shù)據(jù)浪費需要有效率的技術,目前最主要的方法都寄希望于 AI 功能。因此,所有應用中的大多數(shù)本地服務器都增加了 AI 功能,現(xiàn)在正在安裝的主要基礎設施是新型的低功耗邊緣計算服務器 CPU,它們以 GPU 和 ASIC 或一系列芯片的形式連接到 AI 加速 SoC。

  除了解決容量、能源和成本問題外,邊緣計算還可以提高網(wǎng)絡可靠性,因為應用可以在發(fā)生普遍的網(wǎng)絡中斷期間繼續(xù)運行。通過清除某些威脅配置文件(例如全局數(shù)據(jù)中心拒絕服務 (DoS) 攻擊),可以提高安全性。

  最后,邊緣計算還有一個很重要的功能,即能夠為實時用例(例如虛擬現(xiàn)實商場和移動設備視頻緩存)提供低延遲的能力??s減延遲將產(chǎn)生新的服務,使設備能夠在自動駕駛汽車、游戲平臺或具有挑戰(zhàn)性的快節(jié)奏制造環(huán)境中提供許多創(chuàng)新應用。

  Michael Clegg | IoT 和嵌入式設備副總裁兼總經(jīng)理 Supermicro 表示:

  “在邊緣處理傳入的數(shù)據(jù)后,就會減少需要發(fā)送到云再返回的數(shù)據(jù)量。這也大大減少了處理延遲。一個很好的類比就是一家大眾披薩餐廳,它通常會在其他地區(qū)開設小型分支機構,因為在主要營業(yè)地點烤制的披薩在送往遠方客戶的路上會變冷。”

  3 推動拓展應用的邊緣計算

  5G 基礎架構是邊緣計算最具說服力的驅動力之一。5G 電信提供商發(fā)現(xiàn)了在其基礎架構之上提供服務的機會。除了傳統(tǒng)的數(shù)據(jù)和語音連接之外,5G 電信提供商還在構建生態(tài)系統(tǒng),以托管獨特的本地應用。通過將服務器置于所有基站旁邊,蜂窩流量提供商可以向第三方主機應用開放其網(wǎng)絡,從而改善帶寬和延遲。

  Netflix 等流媒體服務通過其 Netflix Open Connect 計劃,已經(jīng)與本地 ISP 合作多年,以將高流量內容托管在距離用戶更近的地方。借助 5G 的多接取邊緣計算 (MEC) 計劃,電信提供商發(fā)現(xiàn)了為流內容、游戲和未來的新應用提供類似服務的機會。電信提供商認為,他們可以以付費服務的方式,向所有人開放此功能,讓需要較低延遲的任何人都可以為在邊緣而非在云中定位應用支付額外的費用。

  Credence Research 認為,到 2026 年,整個邊緣計算市場的價值將為 96 億美元左右。相比之下,Research and Markets 分析認為,移動邊緣計算市場將從今天的幾億美元增長到 2026 年的超過 27.7 億美元。盡管電信行業(yè)是最具聲望且可能是發(fā)展最快的增長動力,但是據(jù)估計,它們僅會占據(jù)邊緣計算市場總量的三分之一。這是因為 web scale、工業(yè)和企業(yè)集團也將為其傳統(tǒng)市場提供邊緣計算硬件、軟件和服務,期望邊緣計算也將開創(chuàng)新的應用機遇。

  大眾快餐店正朝著更加自動化的廚房發(fā)展,以確保食品質量,減少員工培訓,提高運營效率并確??蛻趔w驗達到預期。Chick-fil-A 是一家連鎖快餐企業(yè),它成功地使用了本地服務器,將數(shù)百個傳感器和控制器與相對便宜的本地設備聚合在一起。這些本地設備在本地運行,以防止任何網(wǎng)絡中斷。2018 年, Chick-Fil-A 在博客上對此作了概括,宣稱:“通過提高廚房設備智能化,我們能夠收集更多數(shù)據(jù)。通過在我們的餐廳應用數(shù)據(jù),可以構建更多智能系統(tǒng)。通過構建更多智能系統(tǒng),我們能夠進一步拓展業(yè)務。” 這篇博客進一步概述,在邊緣計算的幫助下,許多餐廳現(xiàn)在可以處理的業(yè)務量相當于最初計劃的三倍。

  總體而言,成功的邊緣計算基礎架構需要結合本地服務器計算功能、AI 計算功能以及與移動/汽車/IoT 計算系統(tǒng)的連接(圖 1)。

微信圖片_20201125135414.jpg

  圖 1:邊緣計算通過使用微數(shù)據(jù)中心來分析和處理數(shù)據(jù),從而使云計算過程更靠近終端設備。

  CompTIA 首席技術推廣人James Stanger 博士認為:

  “隨著物聯(lián)網(wǎng) (IoT) 連接越來越多的設備,網(wǎng)絡正在從主要在高速公路和中央位置之間往返輸送,過渡到類似于互連、中間存儲和處理設備組成的蜘蛛網(wǎng)狀態(tài)。邊緣計算是一種在生成數(shù)據(jù)的客戶端附近而不是在集中式數(shù)據(jù)處理倉庫中捕獲、存儲、處理和分析數(shù)據(jù)的做法。因此,數(shù)據(jù)存儲在網(wǎng)絡”邊緣“的中間點,而不是始終存儲在中央服務器或數(shù)據(jù)中心?!?/p>

  4 邊緣計算用例——Microsoft HoloLens

  為了解使用邊緣計算帶來的延遲改善優(yōu)勢,羅格斯大學和 Inria 使用 Microsoft HoloLens 分析了邊緣計算(或稱“邊緣云”)的可擴展性和性能。

  在用例中,HoloLens 讀取條形碼掃描儀,然后使用建筑物中的場景分割功能將用戶導航到指定房間,并在 Hololens 上顯示箭頭。該過程同時使用了映射坐標的小數(shù)據(jù)包和連續(xù)視頻的較大數(shù)據(jù)包,以驗證邊緣計算相比傳統(tǒng)云計算帶來的延遲改善。HoloLens 最初讀取二維碼,然后將映射坐標數(shù)據(jù)發(fā)送到邊緣服務器。該服務器使用了 4 個字節(jié)加上標頭,花費了 1.2 毫秒 (ms)。服務器找到坐標,并通知用戶該位置,總共耗時 16.22 ms。如果將同樣的數(shù)據(jù)包發(fā)送到云,則大約需要 80 ms(圖 2)。

微信圖片_20201125135417.jpg

  圖 2:比較邊緣設備到云服務器與邊緣設備到邊緣云服務器的延遲。

  同樣,他們測試了在使用 OpenCV 進行場景分割以將 Hololens 的用戶導航到適當位置時的延遲。HoloLens 以 30 fps 的速度流傳輸視頻,并在邊緣計算服務器中以 3.33 GHz 的頻率在配備 15GB RAM 的 Intel i7 CPU 上處理圖像。將數(shù)據(jù)流傳輸?shù)竭吘売嬎惴掌餍枰?4.9 ms,處理 OpenCV 圖像額外花費了 37 ms,總計 47.7 ms。云服務器上的相同過程花費了將近 115 ms,清楚顯示了邊緣計算降低延遲的明顯優(yōu)勢。

  雖然該案例研究顯示了邊緣計算在降低延遲方面的顯著優(yōu)勢,但是有太多新技術可以在將來更好地實現(xiàn)低延遲。5G 概述了當今延遲少于 1ms 的用例(圖 3),而 6G 已經(jīng)在討論將其降低到 10 微秒 (?s) 的問題。5G 和 Wi-Fi 6 會增加連接帶寬。5G 打算將帶寬提高到 10Gbps,而 Wi-Fi 6 已經(jīng)支持 2Gbps 帶寬。AI 加速器聲稱場景分割的時間少于 20?s,這與上述示例技術論文中引用的 Intel i7 CPU 在大約 20ms 內處理每個幀的速度相比,有了顯著進步。

微信圖片_20201125135420.jpg

  圖 3:與圖 2 中 10s 和 100s 的 Msps 相比,從 Hololens 到路由器以及從路由器到邊緣服務器的帶寬改善高達 10Gbps,另有 AI 處理的改進(從 20ms 改善到 20us),往返延遲 < 1ms。

  顯然,如果邊緣計算表現(xiàn)出比云計算更具優(yōu)勢,那么將計算全都轉移到邊緣設備中不是最好的解決方案嗎?然而事實是,目前并不是所有的應用程序都是如此(圖 4)。在 HoloLens 案例研究中,數(shù)據(jù)使用的 SQL 數(shù)據(jù)庫太大,無法存儲在耳機中。今天的邊緣設備,特別是發(fā)生物理磨損的設備,沒有足夠的計算能力來處理大型數(shù)據(jù)集。除了計算能力之外,云或邊緣服務器上的軟件比邊緣設備上的軟件開發(fā)成本更低,因為云/邊緣軟件不需要壓縮到更小的內存資源和計算資源中。

微信圖片_20201125135421.jpg

  圖 4:比較云計算和邊緣計算與端點設備。

  由于某些應用程序可以根據(jù)我們基礎架構不同位置的計算能力、存儲能力、存儲器可用性和延遲能力來合理地運行,因此無論是在云中、在邊緣服務器還是在邊緣設備中,都有一種趨勢來支持未來的混合計算能力(圖 5)。邊緣計算是全球混合計算基礎架構的初步建立。

微信圖片_20201125135424.jpg

  圖 5:安裝在 Hololens、邊緣服務器和云中的 AI,使混合計算架構能夠根據(jù)應用需求優(yōu)化計算、存儲器和存儲資源。

  5 了解邊緣計算各部分

  邊緣計算是指位置比云更靠近應用的運算。但是,這是 300 英里,3 英里還是 300 英尺?在計算領域,云在理論上具有無限的內存和無限的計算能力。在設備上,理論上只需有足夠的計算和內存資源可以捕獲數(shù)據(jù)并將其發(fā)送到云即可。兩種理論均與事實稍有不符,但我們可以將其用作描述邊緣計算不同水平的方法。理論上,云計算資源越來越靠近端點設備或應用,因而存儲、內存和計算資源就會越來越少。這些資源消耗的功率也隨之降低了。靠近的好處不僅是可以降低功耗,而且可以降低延遲并提高效率。

  在該空間中開始出現(xiàn)三種基本的邊緣計算架構(圖 6)。首先,最接近傳統(tǒng)數(shù)據(jù)中心的是區(qū)域數(shù)據(jù)中心,這些數(shù)據(jù)中心是戰(zhàn)略性放置的云計算服務器群的微型版本,旨在減少延遲,同時卻維護所需的計算、存儲和內存。許多企業(yè)和初創(chuàng)公司都在解決這個問題,但是專門為解決區(qū)域數(shù)據(jù)中心而設計的 SoC,與當今著重解決高性能計算 (HPC) 的傳統(tǒng)云計算解決方案幾乎沒有什么區(qū)別。

  本地服務器和內部服務器(第二個邊緣計算部分),是許多 SoC 解決方案用于解決邊緣計算的功耗和連接性需求的地方。如今,軟件也有大規(guī)模的商業(yè)化開發(fā),尤其是采用了更靈活的平臺,能夠支持 Dockers 和 Kubernetes 之類的容器。前文描述的 Chick-Fil-A 示例就使用了 Kubernetes。對于半導體廠商而言,內部服務器部分中最有趣的部分是在服務器 SoC 附近引入一種芯片組來處理所需的 AI 加速。顯然,傳統(tǒng)的 AI 加速器位于云計算場中,而略有不同的一類用于邊緣服務器 的AI 加速器已經(jīng)被構建出來,因為這是市場有望增長的地方,并且有機會在這一有前途的領域立足。

  邊緣計算的第三部分包括旨在執(zhí)行有限功能的聚合器和網(wǎng)關,它們可能僅以最小的延遲和最低的功耗運行一個或幾個應用。

  這三個部分中的每一個都已定義為支持實際應用。例如,麥肯錫在邊緣計算分析中已經(jīng)確定了 107 個用例。ETSI 通過其分組規(guī)范 MES 002 v.2.1.1 ,為 5G MEC 定義了超過 35 個用例,包括游戲、服務級別協(xié)議、視頻緩存、虛擬現(xiàn)實、流量重復數(shù)據(jù)刪除等。這些應用中的每一個都有一些預定義的延遲要求,具體取決于邊緣服務器在基礎架構中可能存在的位置。OpenStack Foundation 是另一個將邊緣計算納入其工作的組織,期望改善端局重構為數(shù)據(jù)中心 (Central Office ReArchitected as a Data Center, CORD) 延遲,分布在整個網(wǎng)絡中的傳統(tǒng)電信端局現(xiàn)在負責托管邊緣云服務器。

  5G 市場期望實現(xiàn)從邊緣設備到邊緣服務器再回到邊緣設備,往返時間延遲低至 1ms 的用例。實現(xiàn)這一目標的唯一方法是通過本地網(wǎng)關或聚合器,因為到達云全程通常需要 100 ms。2019 年秋天推出的 6G 計劃宣布了 10s ?S 延遲的目標。

  每個邊緣計算系統(tǒng)都支持類似的 SoC 架構,其中包括一個網(wǎng)絡 SoC、一些存儲、一個服務器 SoC,以及現(xiàn)在的一個 AI 加速器或 AI 加速器陣列。每種類型的系統(tǒng)都有自己的延遲、功耗和性能水平。這些系統(tǒng)的一般準則在圖6 中進行了描述。市場在變化,這些數(shù)字可能會隨著技術的進步而迅速變化。

微信圖片_20201125135427.jpg

  圖 6:比較邊緣計算的三種主要 SoC 架構:區(qū)域數(shù)據(jù)中心/邊緣云;內部服務器/本地服務器;和聚合器/網(wǎng)關/接入口。

  6 邊緣計算對服務器系統(tǒng) SoC 有何影響?

  許多邊緣計算應用的主要目標是圍繞與較低延遲相關的新服務。為了支持較低的延遲,許多新系統(tǒng)都采用了一些最新的行業(yè)接口標準,包括 PCIe 5.0、LPDDR5、DDR5、HBM2e、USB 3.2、CXL、以及基于 PCIe 的 NVMe 和其它基于新一代標準的技術。與上一代產(chǎn)品相比,這些技術中的每一種都通過帶寬改進來降低延遲。

  比減少延遲的驅動因素更為突出的是為所有這些邊緣計算系統(tǒng)增加了 AI 加速。某些服務器芯片通過 x86 擴展AVX-512 向量神經(jīng)網(wǎng)絡指令 (AVX512 VNNI) 等新指令提供 AI 加速。很多時候,這種額外的指令集不足以提供預期任務所需的低延遲和低功耗實現(xiàn),所以大多數(shù)新系統(tǒng)中還添加了自定義 AI 加速器。這些芯片所需的連接性通常采用帶寬最高的主機來實現(xiàn)加速器連接。例如,由于這些帶寬要求直接影響延遲,因此 PCIe 5.0 的使用正在迅速擴展,最常見的情況是在具有多個 AI 加速器的某種交換配置中。

  CXL 是另一種為降低延遲并提供緩存一致性而專門開發(fā)的接口。由于 AI 算法具有異構計算需求和廣泛的內存需求,因此務必要確保緩存一致性。

  除了本地網(wǎng)關和聚合服務器系統(tǒng)之外,單個 AI 加速器通常無法提供足夠的性能,所以需要借助帶寬非常高的芯片到芯片 SerDes PHY 擴展這些加速器。最新發(fā)布的 PHY 支持 56G 和 112G 連接。支持 AI 擴展的芯片到芯片要求已經(jīng)完成多種實現(xiàn)。在基于標準的實現(xiàn)中,以太網(wǎng)可能是一種可擴展的選項,現(xiàn)在已經(jīng)有一些基于這種理念的解決方案。但是,當今許多實現(xiàn)都是通過專有控制器來利用最高帶寬的 SerDes。不同的體系結構可能會改變服務器系統(tǒng)的未來 SoC 體系結構,從而將網(wǎng)絡、服務器、AI 和存儲組件合并到集成度更高的 SoC 中,而不是目前正在實現(xiàn)的 4 種不同的 SoC 中。

微信圖片_20201125135431.jpg

  圖 7:常見服務器 SoC 位于邊緣,根據(jù)任務數(shù)量、功率、延遲和其他需求,具有不同的處理器數(shù)量、以太網(wǎng)吞吐量和存儲能力。

  AI 算法正在突破內存帶寬要求的極限。例如,最新的 BERT 和 GPT-2 型號分別需要 345M 和 1.5B 參數(shù)。顯然,不僅需要高容量的內存能力來支持這些需求,還需把許多復雜的應用放在邊緣云中執(zhí)行。為了支持實現(xiàn)這種能力,設計人員正在新的芯片組中采用 DDR5。除了容量挑戰(zhàn)之外,還需要存取 AI 算法的系數(shù),以進行非線性序列中并行執(zhí)行的大量多次累加計算。因此,HBM2e 成為迅速獲得采用的一種最新技術,有些芯片實現(xiàn)了單芯片中的數(shù)次 HBM2e 實例化。

微信圖片_20201125135433.jpg

  圖 8:通用 AI SoC 具有高速、高帶寬、內存、主機到加速器,以及高速芯片到芯片接口,用于擴展多個 AI 加速器。

  7 不斷變化的目標與邊緣計算的劃分

  如果我們仔細研究邊緣計算的不同類型需求,就會發(fā)現(xiàn)區(qū)域數(shù)據(jù)中心、本地服務器和聚合網(wǎng)關具有不同的計算、延遲和功率需求。未來的需求顯然集中在降低往返響應的延遲,降低特定邊緣應用的功率,以及確保有足夠的處理能力來處理特定任務上。

  服務器 SoC 消耗的功率因等待時間和處理要求而異。新一代解決方案不僅將具有更低的延遲和更低的功耗,而且還將納入 AI 功能,也就是 AI 加速器。這些 AI 加速器的性能也會根據(jù)這些需求的擴展而變化。

  但是很明顯,AI 和邊緣計算的需求正在迅速變化,我們今天看到的許多解決方案在過去兩年中已多次取得了進步,并將繼續(xù)加以改進?,F(xiàn)在的性能可以分類,但數(shù)量會不斷變化,從而提高性能、降低功耗并降低總體延遲。

微信圖片_20201125135856.jpg

  圖 9:新一代服務器 SoC 再加上 AI 加速器,將加快邊緣計算速度。

  8 結語

  邊緣計算是實現(xiàn)更快連接性的一項非常重要的技術。它將使云服務更靠近邊緣設備,并將有效降低延遲,為消費者提供新的應用和服務。此外,它還將衍生更多 AI 功能,將其擴展到云以外。邊緣計算是未來混合計算的基礎技術。在混合計算中,可以根據(jù)延遲需求、功率需求以及總體存儲和性能需求,在本地、云中或設備上實時做出決策。



本站內容除特別聲明的原創(chuàng)文章之外,轉載內容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內容無法一一聯(lián)系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。