過去幾年生成式人工智能(GAI)的快速發(fā)展,讓所有主流指令集架構迎來了一次重要更新潮。
從 x86、Arm 到 RISC-V,都在制定面向矩陣(Matrix)指令集方向的擴展,因為 GAI 應用的大部分典型負載的核心運算都需要使用矩陣計算。
2021 年,Arm 宣布在 ARMv9-A 架構中引入 Scalable Matrix Extension(SME)指令集擴展;2023 年初,英特爾正式推出了第 4 代英特爾至強可擴展處理器,集成了 Advanced Matrix Extensions(AMX)指令集。
2023 年底,RISC-V 國際基金會同時成立了 2 個矩陣指令集擴展技術組(Attached Matrix Extension TG 和 Integrated Matrix Extension TG),計劃用一至兩年的時間完成新指令集的制定,其目的就是要加速矩陣運算,從而提高機器學習和 AI 應用的性能。
就在最近,希姆計算在 RISC-V 美國峰會上發(fā)布了其 RISC-V 矩陣擴展開源項目的最新 0.5 版本 , 行業(yè)內率先支持了向量 + 矩陣的實現(xiàn)。
這家年輕的中國創(chuàng)企也成為首家向全球社區(qū)提交完整 RISC-V 矩陣指令集及其支持工具的公司。這一舉措無疑會推動 RISC-V 矩陣指令集國際標準的快速形成,提高 AI 應用的兼容性、降低軟件開發(fā)適配成本,推動整個 RISC-V 生態(tài)系統(tǒng)的發(fā)展。
對此,RISC-V 國際基金會首席執(zhí)行官 Calista Redmond 給予了高度評價,她說到:" 看到像希姆計算這樣的創(chuàng)新項目積極采用和支持了 RISC-V 的新特性,真是令人鼓舞。矩陣指令集擴展代表了 RISC-V 生態(tài)系統(tǒng)向前邁出了重要一步,能夠在特定應用場景中顯著提升性能。我們對希姆計算團隊的努力表示感謝,這對整個社區(qū)來說是一個巨大的勝利。"
中國電子工業(yè)標準化技術協(xié)會 RISC-V 工作委員會技術委員會主任、國家工業(yè)信息安全發(fā)展研究中心總工程師周平說到:" 非常高興看到作為 RISC-V 工委會副理事長單位的希姆計算,在推動 Matrix 國際標準方面所做的貢獻,特別是在開源 SCOOP 項目上的努力令人印象深刻。希姆計算不僅展示了卓越的技術能力,還體現(xiàn)了開放合作的精神,這對于促進 RISC-V 在 AI 領域指令集擴展的發(fā)展具有重要意義。我們期待希姆計算繼續(xù)在工委會、在國際社區(qū)積極發(fā)揮作用和協(xié)作精神,為行業(yè)帶來更多的創(chuàng)新與進步。
AI 新時代,中國芯片企業(yè)正集體一步一步走到制定國際標準的行業(yè)領導者行列中。
01.
生成式 AI 掀起矩陣計算革命,
RISC-V 或成做 AI 最佳選擇,標準統(tǒng)一是關鍵
進入生成式 AI 時代,RISC-V 很可能會成為做 AI 的最佳指令集架構。
首先,正如前文所提到的,RISC-V 可以憑借開源的模塊化設計去賦能開發(fā)者,讓 AI 芯片可以針對不同負載做加速,同時兼顧良好的可編程性和通用性。
面對生成式 AI 帶來的需求、場景爆發(fā),這樣的特性顯然是非常關鍵的。
此外,在 AI 新時代,基于 RISC-V 的開源方案可以最大程度保證國家層面對數(shù)據(jù)安全的掌控,還一定程度上打破既有的行業(yè)壟斷態(tài)勢,同時還能兼顧產業(yè)生態(tài)的融合,可以說是商業(yè)模式潛力最大化的解決方案。
明確了 RISC-V 的方向,如何讓 RISC-V 可以更好地支持 AI 應用?標準的統(tǒng)一就成為了接下來的重中之重。
一旦矩陣擴展指令標準確定下來,全球 RISC-V 生態(tài)中的開發(fā)者都可以用一樣的矩陣指令來做自己的芯片,這樣軟件應用層面就會有更多的融合機會,應用也能實現(xiàn)真正的通用性,就如同基于安卓系統(tǒng)的應用生態(tài)。
基于這一統(tǒng)一標準,各類產品都將快速生長,工具連、基礎軟件也將逐漸完善,這對于 RISC-V 在應用層面與 x86 和 Arm 生態(tài)競爭十分關鍵。
從生態(tài)角度上來說,制定好這樣一套全球范圍內都可以接受的、基于 AI 方向的矩陣擴展指令集標準,意義非常重大。
RISC-V 的優(yōu)勢在于開源,但劣勢也在于此:如果指令集不統(tǒng)一、" 各自為戰(zhàn) "、就會有碎片化的問題。
目前包括谷歌、高通、Meta等全球頭部科技巨頭都在往 RISC-V 矩陣指令集擴展及相關標準統(tǒng)一的方向上努力,這進一步證明了這一方向的正確性。
而國內 AI 芯片創(chuàng)企希姆計算,正成為其中跑的最快的一個,成為這一領域中中國芯片企業(yè)的代表,在國際行業(yè)標準的制定方面將話語權掌握在了自己手里。
02.
從芯片指令集創(chuàng)新到產業(yè)化落地,
希姆計算打通 RISC-V AI 應用全鏈條
正如前文所說,新標準的統(tǒng)一成為 RISC-V 生態(tài)在 AI 新時代最需要解決的問題,也成為全球科技巨頭競爭的焦點。希姆計算這次在標準制定過程中的亮眼表現(xiàn),贏得了國際基金會和業(yè)界的廣泛認可。
根據(jù)官方信息,目前希姆計算的 RISC-V 矩陣擴展開源項目已升級至 0.5 版本,支持了向量 + 矩陣的實現(xiàn)。
具體來看,最新的 RISC-V 矩陣指令集采用了 Tile-based 的矩陣乘法架構設計,在原有基礎上進一步完善了編程模型和類型支持,同時提供了基本版 32 位指令編碼。
此外,通過參數(shù)化寄存器架構和模塊化類型系統(tǒng),新的 RISC-V 矩陣指令集能夠適應從邊緣到云端的各種應用場景。
值得一提的是,為了進一步推動標準化和商業(yè)實施,希姆計算還更新了一系列工具,包括基于 LLVM 的編譯器、基于 Spike 的模擬器、基于 GDB 的調試器,以及基于 SCOOP(Stream Computing Out-of-Order Processor)平臺的開源核心實現(xiàn),其包含對 RVV 和 RV Matrix 的支持。
站在今天的 0.5 版本回顧過去三年,希姆計算可以說實現(xiàn)了 " 從量變到質變 " 的積累。
從 2022 年 9 月 RISC-V 矩陣 ISA 規(guī)范 0.1 版本完成、首次向 RISC-V 國際基金會提交開源提案和支持工具,到 2023 年與達摩院建立了協(xié)商機制、共同探索 RISC-V 矩陣指令集。
用希姆計算執(zhí)行副總裁陳煒博士的話來說,指令集的設計、功能的完善補充,是一個不斷的學習和演進的過程,逐漸從非標到標準化,與國際上達成的共識相一致。
此外,指令集從設計到應用落地也充滿挑戰(zhàn),比如仿真驗證、DEBUG 等方面相關軟件的完善,以及面對 AI 應用在算子庫層面的更廣泛支持。
由于目前矩陣指令集的國際標準還沒有定下來,相關配套的軟件工作量是非常大的,希姆計算團隊投入了大量資源來完善相關工作。
值得一提的是,希姆計算的獨到優(yōu)勢之處在于,其不光完成了指令集的開發(fā)工作,還進一步實現(xiàn)了產業(yè)化,也就是對大模型的適配以及應用的落地。
就在本月早些時候,RISC-V 國際基金會正式刊發(fā)的《希姆計算基于 RISC-V 計算能力和大型語言模型(LLMs)提供智能社區(qū)服務》一文,基于自主研發(fā)的 RISC-V 芯片和推理加速卡 STCP920,希姆計算給 LLM 應用創(chuàng)建了一個集成 RISC-V 硬件和軟件的生態(tài)系統(tǒng)。
這個生態(tài)系統(tǒng)包括一個智能計算云平臺、行業(yè) LLMs、數(shù)據(jù)治理平臺和一個智能代理開發(fā)平臺?;谶@套系統(tǒng),希姆計算為廣州某社區(qū)定制開發(fā)了一個便捷的社區(qū)服務助手。據(jù)稱該助手可以提供 37 類、超 2000 項服務,社區(qū)服務咨詢的準確性從原來的 30% 提高到了現(xiàn)在的 95% 以上。
在 AI 推理性能方面,STCP920 AI 加速卡已經經過國內頭部互聯(lián)網廠商 50 多個模型測試,平均下來,希姆計算的 12nm 板卡推理性能是英偉達 7nm A10 的 108%,可以說是兼顧通用性和高性能的解決方案,也是全球第一個量產的基于 RISC-V 的 AI 推理卡。
尤為重要的是,希姆計算采用的 12nm 工藝節(jié)點可以很好地規(guī)避制程受限的問題,無論是 TSMC 南京工廠還是中芯國際都可以支持這一工藝節(jié)點。
03.
將底層技術標準制定握在自己手里,
中國科技產業(yè)或實現(xiàn)歷史性突破
在完成自身技術和產品體系化、產業(yè)化的基礎上,希姆計算進一步積極推動 RISC-V 行業(yè)新標準制定的舉措,給全球芯片產業(yè)各方帶來了重要價值,對中國科技產業(yè)發(fā)展也有著歷史性意義。
對 CPU 廠商來說,有了完整指令集以及各種擴展支持,CPU 增加 AI 相關的特性功能就會更加便利;SoC 芯片公司也可以針對不同方向做更多的組合,根據(jù)應用場景來做更好的芯片設計。
此外,對于在 " 大算力 " 領域做 AI 加速器的公司來說,指令集標準的完善對軟件生態(tài)和應用的建設都非常有幫助。
今天,從數(shù)據(jù)中心到車載、機器人、AI PC、AI 手機、AIoT,不同場景都有不同的公司在聚焦,如果能夠在芯片指令集架構層面形成統(tǒng)一,各家的軟件生態(tài)就可以更好的融合。
千變萬化的應用都可以追溯到同一個基礎指令集,將非常有助于整個產業(yè)的蓬勃發(fā)展。
除了對全球芯片產業(yè)的重要推動作用,0.5 版本的發(fā)布對中國科技產業(yè)在全球市場掌握更多話語權也有著重要意義。
0.5 版本的發(fā)布,意味著中國公司為國際社區(qū)作出了重要貢獻,并且在關鍵的標準制定層面跑在了前面。
正如希姆計算 CEO 梅迪所說,如果中國企業(yè)能先行一步,成為標準的主要制定者和推動者之一,就可以讓國內的軟件和應用生態(tài)能夠更多的被國際接受、一起融合發(fā)展。
這也是為什么要有更多中國公司來做這件事,去為標準的統(tǒng)一做貢獻,去盡可能多的爭奪話語權。
今天,放眼芯片、AI 乃至整個科技產業(yè),受到地緣政治的影響,隸屬于一個國家的一套技術路線往往都難以推廣至全球范圍內被積極采用。
但同時產業(yè)又呼吁生態(tài)的融合發(fā)展,因此唯一的解決方式就是采用一套不隸屬于任何國家的開源技術路線,這也是 RISC-V 方案的突出優(yōu)勢之一。
在當今國家數(shù)據(jù)資產治理和轉型的關鍵發(fā)展階段,一個開放、穩(wěn)定、安全、融和、去中心化以及保持和國外接軌的算力底層技術路線顯得尤為重要。
縱觀信息時代全球科技產業(yè)的發(fā)展,中國在絕大部分重要的底層技術路線上,都沒能將標準化工作掌握在自己手里,要做到底層技術話語權的掌控,是非常難的一件事。
而今天希姆計算推動 RISC-V 在 AI 方向上的一系列標準制定工作,顯然是有重大意義的,也必然會在未來展現(xiàn)出巨大價值。
04.
結語:在芯片產業(yè) " 種樹 ",
希姆計算瞄準的是 AI 更大的未來
從 2019 年選擇差異化市場競爭、布局 RISC-V 相關技術,到 2022 年自研 AI 加速卡踩中大模型風口,再到如今全球 RISC-V 矩陣擴展指令集標準的建設成為必須要做的事情。
從摸著石頭過河到如今產業(yè)化落地,希姆計算無疑是在全球 RISC-V 生態(tài)建設中走的最早的一批中國企業(yè)。他們從幕后走到臺前,從摸索追趕到推動矩陣指令集標準的完善,領跑細分賽道。
用梅迪的話來說,希姆計算希望把自己的技術路線、方案等沉淀下來,爭取讓行業(yè)中其他公司可以跟隨,從而實現(xiàn)對行業(yè)的引領。
從底層做起、扎扎實實,雖然初期挑戰(zhàn)重重,但完成后卻能夠迸發(fā)出巨大商業(yè)化潛力。
希姆計算所做的事情就好比在芯片產業(yè)中 " 種樹 ",而種一棵樹,最好的時間就是今天。