與谷歌、百度、阿里這樣的科技巨頭一樣,亞馬遜希望掌握自身業(yè)務的全部。在昨天拉斯維加斯舉行的 AWS re:Invent 大會上,這家公司發(fā)布了一款名為 Inferentia 的機器學習芯片。
「Inferentia 將會是一款超高吞吐量、低延遲、性能強大,且功耗比極佳的處理器,」AWS 首席執(zhí)行官 Andy Jassy 在發(fā)布中介紹道。
對于亞馬遜來說,這或許是必然要走的一步。來自 Constellation Research 的分析師 Holger Mueller 對此表示,亞馬遜在自研芯片上遠遠落后于其他巨頭,但這一步頗具意義,在未來這家公司或許會嘗試不同的機器學習方法。
Inferentia 支持 INT8、FP16 等流行框架以及混合精度。此外,它也支持 TensorFlow、Caffe2 和 ONNX 等機器學習框架。
當然,作為亞馬遜的產品,它也支持處理 AWS 產品中的數(shù)據(jù),例如 EC2、SageMaker,以及今天公布的 Elastic 推理引擎。這款產品專為推理而設計,這方面與專為訓練機器學習模型設計的谷歌 TPU 不同。Jassy 表示,目前為機器學習計算設計加速器的芯片公司——如其中最大的英偉達——已經(jīng)投入巨大精力對于模型訓練進行優(yōu)化,這就是 AWS 決定專注于設計更好的推理芯片的原因。
亞馬遜稱,若在已訓練模型的基礎上進行推理任務,Inferentia 芯片可以擔負 90% 的算力。通過使用 Amazon Elastic Inference,開發(fā)者們可以通過將 GPU 驅動的推理加速功能附加到 Amazon EC2 和 Amazon SageMaker 實例上,將推理成本降低多至 75%左右。
亞馬遜 Inferentia 機器學習芯片的原型,這款芯片由 Annapurna Labs 設計。圖片來自亞馬遜副總裁、杰出工程師 James Hamilton。
與亞馬遜此前的定制 Arm 處理器 Graviton 一樣,Inferentia 是這家公司在 2015 年收購的以色列創(chuàng)業(yè)公司 Annapurna 的幫助下設計的。在 Inferentia 之前不久,亞馬遜還發(fā)布了 Graviton 芯片——這是一款基于 ARM Cortex-A72 架構的定制化 CPU 處理器,其最高時鐘速度為 2.3GHz。
開啟科技巨頭自研機器學習芯片風潮的公司是谷歌。2016 年,谷歌就正式發(fā)布了 TPU(其時谷歌已在內部使用 TPU 超過一年時間了),時至今天,TPU 已經(jīng)發(fā)展到了第三代。這款產品的算力也已經(jīng)成為谷歌云服務的一部分,可為所有開發(fā)者提供算力支持。亞馬遜的最大競爭對手微軟 Azure 尚未推出自己的處理器。當然,所有三家公司的機器學習云服務算力主要基于英偉達 GPU。此外,AWS 和 Azure 還提供用于機器學習的 FPGA 服務。
雖然亞馬遜今天對外發(fā)布了此芯片,但 AWS CEO Andy Jassy 表示 Inferentia 在明年之前不會上線。在發(fā)布會上,亞馬遜也沒有公布有關這款芯片的更多技術細節(jié)。該公司表示,每塊 Inferentia 芯片可提供「提供數(shù)百 TOPS」的推理吞吐量...... 為獲得更高性能,可以將多個 AWS Inferentia 芯片并聯(lián)實現(xiàn)數(shù)千 TOPS 的吞吐量。
目前的 AI 專用芯片在性能指標上最為強大的是華為今年 10 月推出的昇騰 910,據(jù)稱其半精度(FP16)算力可達 256TFLOPS,最大功耗為 350W。
在云服務方面,亞馬遜正在成為行業(yè)領導者,而其推出的 AI 芯片與定制化 CPU,勢必更將鞏固這家公司的領先地位。