IBM Research在深度學(xué)習(xí)演算法取得最新突破,據(jù)稱幾乎達到了線性加速的最佳微縮效率目標(biāo)…
IBM Research發(fā)表深度學(xué)習(xí)(deep learning)演算法的最新突破,據(jù)稱幾乎達到了理想微縮效率的神圣目標(biāo):新的分散式深度學(xué)習(xí)(DDL)軟體可隨著處理器的增加,實現(xiàn)趨近于線性加速的最佳效率。
如圖1所示,這一發(fā)展旨在為添加至IBM分散式深度學(xué)習(xí)演算法的每一個伺服器,實現(xiàn)類似的加速效率。
IBM研究人員兼IBM Research加速認知基礎(chǔ)設(shè)施部門總監(jiān)Hillman Hunter認為,其目標(biāo)在于“將與深度學(xué)習(xí)訓(xùn)練有關(guān)的等待時間,從幾天或幾小時減少到幾分鐘或甚至幾秒鐘。”
Hunter在一篇有關(guān)這項深度學(xué)習(xí)發(fā)展的部落格文章中指出,“最受歡迎的深度學(xué)習(xí)架構(gòu)開始擴展到伺服器中的多個繪圖處理器(GPU),而非使用GPU的多個伺服器?!盜BM的開發(fā)團隊“為連接至數(shù)十個伺服器的上百個GPU加速器所需的龐大、復(fù)雜運算任務(wù),編寫了自動化與最佳化其平行任務(wù)的軟體與演算法?!?/p>
深度學(xué)習(xí)演算法隨GPU增加而趨近于線性加速效率 (來源:IBM)
IBM聲稱,使用開放源碼的Caffe深度學(xué)習(xí)架構(gòu),可將最多達256個Nvidia Tesla P100 GPU添加至單一伺服器,最終達到了95%微縮效率的測試結(jié)果。這一測試結(jié)果可用于影像辨識學(xué)習(xí),但預(yù)計也適用于類似的學(xué)習(xí)任務(wù)。IBM在50分鐘的訓(xùn)練時間內(nèi)達到了接近線性的微縮效率。在相同的訓(xùn)練數(shù)據(jù)集時,F(xiàn)acebook Inc.先前曾經(jīng)在60分鐘的訓(xùn)練時間內(nèi)實現(xiàn)89%的效率。
而在ImageNet-22k的數(shù)據(jù)組合下,IBM聲稱可在7個小時、750萬張影像的訓(xùn)練中,達到了33.8%的驗證精確度;在相同的條件下,微軟(Microsoft Corp.)原先的記錄是在10天訓(xùn)練中達到29.8%的準(zhǔn)確率。IBM的處理器——PowerAI平臺,可支援64節(jié)點的Power8叢集(加上256個Nvidia GPU),提供超過2PFLOPS的單精度浮點性能。
該公司正為PowerAI平臺用戶免費提供其分散式深度學(xué)習(xí)套件,同時,還為第三方開發(fā)人員提供各種應(yīng)用的編程介面,讓他們能選擇與其應(yīng)用最相關(guān)的底層演算法。