《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 電子元件 > 業(yè)界動態(tài) > 谷歌自研油管專用VCU,成功替換千萬顆英特爾至強CPU

谷歌自研油管專用VCU,成功替換千萬顆英特爾至強CPU

2021-06-04
來源:EETOP
關(guān)鍵詞: 谷歌 VCU 油管

  多年來,英特爾內(nèi)置于其 CPU 中的視頻解碼/編碼引擎一直主導(dǎo)著市場,因為它們提供了領(lǐng)先的性能和功能,并且易于使用。但是定制專用集成電路 (ASIC) 的性能往往優(yōu)于通用硬件,因為它們僅針對一種工作負(fù)載而設(shè)計。因此,谷歌轉(zhuǎn)向為 YouTube 開發(fā)自己的視頻處理任務(wù)專用硬件,并取得了巨大的成效。

  微信圖片_20210604141946.jpg

  Google 設(shè)計了自己的新處理器Argos 視頻(轉(zhuǎn))編碼單元 (VCU),其目的只有一個:處理視頻。高效的新芯片使這家技術(shù)巨頭能夠用自己的芯片替換數(shù)百萬顆英特爾 CPU。

  不過,英特爾也不會坐以待斃,可能會利用其最新技術(shù)來贏回谷歌的專業(yè)視頻處理業(yè)務(wù)。

  大量視頻需要新硬件

  用戶每分鐘向 YouTube 上傳超過 500 小時的各種格式的視頻內(nèi)容。Google 需要將該內(nèi)容快速轉(zhuǎn)碼為多種分辨率(包括 144p、240p、360p、480p、720p、1080p、1440p、2160p 和 4320p)和數(shù)據(jù)高效格式(例如,H.264、VP9 或 AV1),這需要強大的編碼能力。

  從歷史上看,谷歌有兩種轉(zhuǎn)碼/編碼內(nèi)容的選擇。第一個選項是英特爾的視覺計算加速器(VCA),它包含三個 Xeon E3 CPU,內(nèi)置 Iris Pro P6300/P580GT4e 集成圖形內(nèi)核和先進(jìn)的硬件編碼器。

  第二種選擇是使用軟件編碼和通用英特爾至強處理器。谷歌認(rèn)為,對于新興的YouTube工作負(fù)載來說,這兩種方案都不夠省電--視覺計算加速器本身相當(dāng)耗電,而擴大至強CPU的數(shù)量基本上意味著增加服務(wù)器的數(shù)量,這意味著額外的電力和數(shù)據(jù)中心的占用。因此,谷歌決定采用定制的內(nèi)部硬件。

  微信圖片_20210604142003.jpg

  谷歌的第一代 Argos VCU 并沒有完全取代英特爾的中央處理器,因為服務(wù)器仍然需要運行操作系統(tǒng)并管理存儲驅(qū)動器和網(wǎng)絡(luò)連接。在很大程度上,谷歌的 Argos VCU 就像一個總是需要一個 CPU 的 GPU。

  谷歌的 VCU 與我們在 GPU 中看到的流處理器不同,它集成了十個 H.264/VP9 編碼器引擎、幾個解碼器內(nèi)核、四個 LPDDR4-3200內(nèi)存通道(具有 4x32 位接口)、一個 PCIe 接口、一個 DMA 引擎和一個用于調(diào)度目的的小型通用內(nèi)核。除了內(nèi)部設(shè)計的編碼器/轉(zhuǎn)碼器外,大多數(shù) IP 都從第三方獲得許可,以降低開發(fā)成本。每個 VCU 還配備了 8GB 的可用 ECC LPDDR4 內(nèi)存。

  谷歌VCU的主要理念是將盡可能多的高性能編碼器/轉(zhuǎn)碼器放入一塊硅片中(同時保持節(jié)能)),然后根據(jù)所需的服務(wù)器數(shù)量分別擴展VCU的數(shù)量。谷歌在一塊板上放置了兩個VCU,然后在每臺雙插槽英特爾至強服務(wù)器上安裝了10張卡,大大提高了該公司每個機架的解碼/轉(zhuǎn)碼性能。

  效率的提高導(dǎo)致從至強的遷移

  谷歌表示,與英特爾Skylake-powered服務(wù)器系統(tǒng)相比,其基于VCU的機器在性能/TCO計算效率方面有高達(dá)7倍(H.264)和33倍(VP9)的改進(jìn)。這一改進(jìn)將 VCU 的成本(與英特爾的 CPU 相比)和三年的運營費用考慮在內(nèi),這使得 VCU 成為視頻巨頭 YouTube 的輕松選擇。

  CPU、GPU 和配備 VCU 的系統(tǒng)中的離線雙通道單輸出 (SOT) 吞吐量:

  微信圖片_20210604142018.jpg

  從谷歌分享的性能數(shù)據(jù)來看,很明顯單個 Argos VCU 僅比 H.264 中的 2 路 Intel Skylake 服務(wù)器快。但是,由于可以在這樣的服務(wù)器中安裝 20 個 VCU,因此從效率的角度來看VCU 勝出。但對于要求更高的 VP9 編解碼器,谷歌的 VCU 似乎比英特爾的雙路至強快五倍,因此提供了令人印象深刻的效率優(yōu)勢。

  由于谷歌使用Argos VCU已經(jīng)有幾年了,它顯然用運行自己芯片的機器取代了許多基于Xeon的YouTube服務(wù)器。很難估計谷歌實際替換了多少Xeon系統(tǒng),但一些分析家認(rèn)為,該技術(shù)巨頭可能將400萬到3300萬顆英特爾CPU替換成了自己的VCU。

  微信圖片_20210604142037.jpg

  由于谷歌的其他服務(wù)需要大量的處理器,該公司從AMD或英特爾購買的CPU數(shù)量很可能仍然很高,而且不會很快減少,因為谷歌自己的數(shù)據(jù)中心級系統(tǒng)芯片(SoC)還要等上幾年。

  同樣值得注意的是,現(xiàn)在為了嘗試使用創(chuàng)新的編碼技術(shù)(如AV1),谷歌甚至需要為YouTube使用通用的CPU,因為Argos不支持該編解碼。此外,隨著更有效的編解碼器的出現(xiàn)(而這些編解碼器往往對計算能力的要求更高),谷歌將不得不繼續(xù)使用CPU進(jìn)行初始部署。具有諷刺意味的是,專用硬件的優(yōu)勢在未來只會越來越大。

  谷歌已經(jīng)在開發(fā)支持 AV1、H.264 和 VP9 編解碼器的第二代 VCU,因為它需要進(jìn)一步提高其編碼技術(shù)的效率。目前尚不清楚何時部署新的 VCU,但很明顯該公司希望盡可能使用自己的 SoC 而不是通用處理器。

  英特爾并未停滯不前

  不過,英特爾并沒有停滯不前。該公司 基于DG1 Xe-LP的 四芯片 SG1 服務(wù)器卡可以解碼多達(dá) 28 個 4Kp60 流以及轉(zhuǎn)碼多達(dá) 12 個同時流。從本質(zhì)上講,英特爾的 SG1 與谷歌的 Argos VCU 所做的完全一樣:將視頻解碼和轉(zhuǎn)碼性能與服務(wù)器數(shù)量分開,從而減少用于視頻應(yīng)用的數(shù)據(jù)中心所需的通用處理器數(shù)量。

  微信圖片_20210604142052.jpg

  憑借即將推出的單塊 Xe-HP GPU,英特爾將同時提供 10 個高質(zhì)量 4Kp60 流的轉(zhuǎn)碼。請記住,某些 Xe-HP GPU 將擴展到四個區(qū)塊,并且每個系統(tǒng)可以安裝一個以上的 GPU,英特爾市場領(lǐng)先的媒體解碼和編碼能力只會變得更加穩(wěn)固。

  總結(jié)

  Google 已成功構(gòu)建了出色的 H.264 和支持 VP9 的視頻(轉(zhuǎn))編碼單元 (VCU),與英特爾現(xiàn)有的 CPU 相比,它可以在視頻編碼/轉(zhuǎn)碼工作負(fù)載方面提供顯著更高的效率。此外,VCU 使 Google 能夠獨立于服務(wù)器數(shù)量擴展其視頻編碼/轉(zhuǎn)碼性能。

  然而,英特爾已經(jīng)擁有其 Xe-LP GPU 和 SG1 卡,它們也提供了一些重要的視頻解碼和編碼功能,因此英特爾仍將在具有繁重視頻流工作負(fù)載的數(shù)據(jù)中心取得成功。此外,隨著英特爾 Xe-HP GPU 的出現(xiàn),該公司有望鞏固其在該市場的地位。



微信圖片_20210517164139.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。