在近日舉行的英特爾人工智能開發(fā)者大會上,英特爾公司全球副總裁兼人工智能產品事業(yè)部總經理Naveen Rao提到,英特爾正在與諾華合作,利用深度神經網絡來加速高內涵篩選——這是早期藥品研發(fā)的關鍵因素。雙方的合作把訓練圖片分析模型的時間從11個小時縮短到了31分鐘——改善了20多倍[1]。
細胞表型的高內涵篩選是支持早期藥品研發(fā)的關鍵工具,“高內涵”一詞是指利用傳統(tǒng)圖像處理技術從圖像中提取的豐富數據集,這些數據集由數千個預定義特性(如大小、形狀、肌理等)構成。通過高內涵篩選可以分析顯微鏡圖像,進而研究數千種基因或化學治療方法對不同細胞的培養(yǎng)效果。
深度學習有望做到的是從數據中“自動”學習如何通過相關圖像特征將一種治療方法與另一種治療方法區(qū)分開。英特爾與諾華的生物學家和數據科學家希望通過利用深度神經網絡加速技術,提高高內涵圖像篩選的速度。在雙方的合作中,團隊并非通過獨立的步驟鑒別出圖像中的各個細胞,而是聚焦于完整的顯微鏡圖像,但完整的顯微鏡圖像遠遠大于深度學習數據集里的圖像,例如英特爾與諾華合作評估中使用的圖片就比典型的動物、物體和場景數據集ImageNet*中的圖像大26倍以上。
深度卷積神經網絡模型在分析顯微鏡圖像時可同時分析一張圖像中的幾百萬個像素或者一個模型中的幾百萬個參數,甚至還能同時分析數千個訓練圖像,這些構成了很高的計算工作量,即使采用最先進的計算性能也無法有足夠時間對DNN模型展開深入研究。為了解決這一挑戰(zhàn),英特爾聯(lián)手諾華利用深度神經網絡加速技術處理多個圖像,大大縮減了時間并提高工作效率,同時讓模型從圖像特性中獲得更加豐富的洞察。具體講就是通過使用Broad Bioimage Benchmark Collection* 021 (BBBC-021) 數據集,英特爾與諾華合作團隊將總處理時間縮短至31分鐘,準確率超過99%;利用深度學習訓練中的數據并行性原則,并充分依靠服務器平臺上的大存儲支持,通過了32個TensorFlow* workers,實現(xiàn)了每秒處理120個3.9兆像素圖像的成果。
與諾華的合作,是英特爾通過企業(yè)級的解決方案為人工智能的應用與企業(yè)部署提供最廣泛的計算力合作案例之一。在未來,雖然監(jiān)督學習對于加快圖像分類、縮短獲得洞察的時間至關重要,但卻仍需要依賴大量專家標記的數據集來訓練模型,建立此類數據集所需的時間和工作量往往超出現(xiàn)實條件。無監(jiān)督學習或許可以應用于無標記的顯微鏡圖像,有望在細胞生物學領域發(fā)現(xiàn)新洞察,有助于人類藥物研發(fā)的進一步發(fā)展。
[1] 20倍是通過從單節(jié)點系統(tǒng)擴展到8插槽集群實現(xiàn)的21.7倍速度提升。
8插槽集群節(jié)點配置:CPU:英特爾?至強? 6148處理器(2.4GHz);核心數:40;插槽數:2;超線程:啟用;內存/節(jié)點:192GB,2666MHz;網卡:英特爾? Omni-Path Host Fabric Interface (英特爾? OP HFI);TensorFlow:v1.7.0;Horovod:0.12.1;OpenMPI:3.0.0;集群:ToR Switch:英特爾? Omni-Path Switch
單節(jié)點配置:CPU:英特爾?至強?融核處理器7290F;192GB DDR4 RAM;1x 1.6TB 英特爾? SSD DC S3610系列SC2BX016T4;1x 480GB 英特爾? SSD DC S3520系列SC2BB480G7;英特爾? MKL 2017/DAAL/Intel Caffe