去年 3 月 22 號,華為 HiAI 首席架構師楊鋆源第一次聽到 PaddlePaddle 這個名字。當時,他的內(nèi)心想法是,「業(yè)界深度學習框架已經(jīng)很多了,開發(fā)者已經(jīng)是選擇困難,百度還有必要再做一個嗎?」
如今,他的想法發(fā)生了改變:「做深度學習框架需要大量的投入,無論是做框架的提供者,還是廣大的學員或者是開發(fā)者,都要花很大的精力去學習。平臺必須堅持數(shù)年連續(xù)投入,百度愿意做這件事是國內(nèi)開發(fā)者的幸事。向所有愿意在基礎能力投入的組織和個人致敬,因為他們推動了整個產(chǎn)業(yè)的可持續(xù)性發(fā)展?!?/p>
楊鋆源想法的改變,源于一項為期六個月的培訓。
今年初,百度聯(lián)合「深度學習技術及應用國家工程實驗室」成立「黃埔學院」,旨在為各行各業(yè)培養(yǎng)第一批「首席 AI 架構師」。
第一期學員共 35 人,分別來自不同企業(yè)和單位(包括國家衛(wèi)星氣象中心、中油瑞飛、中信銀行、神思電子、OPPO、廣東電網(wǎng)、廣東長隆集團、中國聯(lián)通軟件研究院、華為、米文動力、愛奇藝等),當然楊鋆源是其中之一。
他們在北京進修半年,在半年時間里,他們結合自身行業(yè)和企業(yè)需求,使用飛槳(PaddlePaddle),將 AI 結合到業(yè)務實踐中應用落地。
上周日(6 月 16 日)下午,他們在百度科技園熊掌報告廳上完「最后一課」后,28 位通過畢業(yè)答辯的學員獲得了畢業(yè)證書,成為百度認證的業(yè)界首批「首席 AI 架構師」。
在這半年時光里,陪伴著楊鋆源們一起成長的,還有 PaddlePaddle——中文名為「飛槳」,是由百度自主研發(fā),集深度學習訓練和預測框架、模型庫、工具組件、服務平臺等為一體的開源深度學習平臺。
2016 年,在百度世界大會上,百度宣布 PaddlePaddle 開源,國內(nèi)首個也是目前唯一一個開源開放、功能完備的端到端深度學習平臺誕生。
去年,PaddlePaddle 核心框架 Paddle Fluid v1.0 發(fā)布了穩(wěn)定版本;半年來,飛槳(PaddlePaddle)在易用性、性能、模型豐富度等方面取得了大量突破性進展,百度深度學習技術平臺部總監(jiān)、黃埔學院副院長馬艷軍說。
基于百度多年的產(chǎn)業(yè)應用經(jīng)驗,以及百度大腦生態(tài)伙伴的人工智能解決方案實踐,飛槳(PaddlePaddle)目前已經(jīng)支持六十多個經(jīng)過真實業(yè)務場景驗證的官方模型,涵蓋視覺、自然語言處理、推薦等 AI 核心技術領域。
在核心框架層面,它提供開發(fā)、訓練和預測一整套的技術能力,它同時支持稠密參數(shù)和稀疏參數(shù)場景,支持千億規(guī)模參數(shù)、數(shù)百個節(jié)點的高效并行訓練,為用戶提供業(yè)界最強的超大規(guī)模并行深度學習能力;它提供性能全面領先的底層加速庫和推理引擎、Paddle Mobile、Paddle Serving、高效自動化模型壓縮庫 PaddleSlim,為用戶提供端到端全流程部署方案;
為適應工業(yè)大生產(chǎn)階段的「標準化、自動化和模塊化」,它提供包括遷移學習、強化學習、自動化網(wǎng)絡結構設計、訓練可視化工具、彈性深度學習計算等在內(nèi)的工具組件;
在服務平臺層面,它提供零基礎定制化訓練和服務平臺 EasyDL 和一站式開發(fā)平臺 AI Studio,進一步降低深度學習應用門檻,讓零算法基礎加速推動產(chǎn)業(yè)智能化變革。
「飛槳(PaddlePaddle)核心框架 Paddle Fluid v1.5 馬上就要發(fā)布」,馬艷軍當日透露。
飛槳(PaddlePaddle)總架構師于佃海、主任架構師胡曉光和董大祥分別從飛槳的基本能力、設計,模型的穩(wěn)定性和易用性,飛槳在大規(guī)模分布式應用場景中的應用等方面,對飛槳在這半年里取得的進展做了更詳細的介紹。
于佃海說,最近半年,他們在 OP 的完備性上做了很多建設;飛槳(PaddlePaddle)的 API 也逐漸穩(wěn)定下來;他們還完善了對應的中英文雙語文檔,優(yōu)化了底層性能,并增加了對動態(tài)圖編程的支持。
胡曉光表示,飛槳(PaddlePaddle)模型庫中模型的數(shù)量已經(jīng)從早期的不到二十個模型,增長到六十多個,覆蓋方方面面,還包含「非常前沿」的模型。
他還表示,飛槳(PaddlePaddle)提供的算法模型全部源于百度的工業(yè)實踐,歷經(jīng)大規(guī)模數(shù)據(jù)、場景訓練,特別是針對中文的語義表示、情感分析等,百度基于特有的數(shù)據(jù)算法已可提供成熟穩(wěn)定的模型,大幅提升訓練速度和實現(xiàn)效率。比如機器翻譯的模型,在訓練上比其他框架快 60% 以上,預測速度快近 4 倍。
董大祥透露,他們在大數(shù)據(jù)訓練的過程中做了很多優(yōu)化,包括數(shù)據(jù)分布式的 I/O,隨機打亂等功能。他們將在飛槳(PaddlePaddle)的開源項目里逐步增強模型的異步能力,以更高性價比擴展節(jié)點?!敢子眯苑矫?,1.5 版本會發(fā)布分布式訓練的 API?!?/p>