Intel XeonPhi（至強融核）處理器如何為機器學習/深度學習應(yīng)用和框架提供強大優(yōu)勢

發(fā)表日期：2017-06-07 文章編輯：管理員閱讀次數(shù)：

機器學習 (ML) 正在迅速成熟。如今，我們能夠把大量數(shù)據(jù)輸入機器學習應(yīng)用中，后者能學會精確預(yù)測可能出現(xiàn)的結(jié)果。隨著訓(xùn)練數(shù)據(jù)集的擴大，深度學習 (DL) 模型的精確性呈指數(shù)級增長。數(shù)以萬億的互聯(lián)設(shè)備向系統(tǒng)發(fā)送數(shù)據(jù)，數(shù)據(jù)集的規(guī)?？蛇_數(shù)百 TB。

機器學習革命的成果在無人駕駛汽車、實時欺詐檢測、對假期照片中的人臉進行識別的社交網(wǎng)絡(luò)等領(lǐng)域得到了很好的體現(xiàn)。它滲透各行各業(yè)，影響無處不在。

讓我們揭開全新英特爾至強融核產(chǎn)品家族的神秘面紗，了解其在處理 ML 工作負載方面的非凡優(yōu)勢。我還會分享兩項早期性能測試結(jié)果，即分別在基于單節(jié)點英特爾至強處理器系統(tǒng)和基于 128 節(jié)點英特爾至強融核處理器的集群上運行 ML 工作負載時的情況。最后，我會講述我們?yōu)榱藘?yōu)化軟件庫所付出的努力，展示幾款流行的面向 x86 架構(gòu) 的開源 ML 框架。

“英特爾® 至強融核™ 處理器特性”

在設(shè)計第二代英特爾至強融核芯片時，我們發(fā)明了支持自啟動的融核處理器，不需要在購買額外的處理器運行操作系統(tǒng)，也不需要通過 PCIe* 插槽傳輸數(shù)據(jù)。（對于更喜歡把最新版英特爾至強融核芯片作為協(xié)處理器的用戶，我們也有PCIe 卡版本。）

英特爾至強融核處理器 x200 包含 72 個處理器內(nèi)核，每個內(nèi)核支持 2 個英特爾® 高級矢量擴展指令集 512（英特爾® AVX-512）SIMD 處理單元，每內(nèi)核浮點性能顯著提升。常用的 ML 算法均可從中受益，如浮點乘法和乘加融合指令 (FMA)。英特爾至強融核處理器 x200 提供高達每秒 6 萬億次浮點運算的計算能力。多核、多線程的功能和高帶寬封裝內(nèi)存子系統(tǒng)（多通道 DRAM）及英特爾® Omni-Path 架構(gòu)（英特爾® OPA）的集成結(jié)構(gòu)技術(shù)相結(jié)合。

高帶寬集成內(nèi)存（高達 16 GB MCDRAM）保證數(shù)據(jù)快速傳輸?shù)絻?nèi)核，并為平臺額外提供高達 384 GB 商用 DDR4 內(nèi)存。程序員可以通過指定數(shù)據(jù)的大小及時間來管理內(nèi)存。 MCDRAM 使用戶可以靈活地對數(shù)據(jù)高速緩存，不必擔心內(nèi)存管理。（MCDRAM 可以配置為三級高速緩存、非一致性內(nèi)存訪問 - 可分配內(nèi)存和高速緩存和內(nèi)存的混合組合。）

當處理大型 ML/DL 工作負載時，從一個節(jié)點到千百個節(jié)點的擴展能力是至關(guān)重要的。借助英特爾 OPA 架構(gòu)，英特爾至強融核處理器 x200 能夠以近乎線性的方式擴展內(nèi)核和線程。在編碼層面，通過架構(gòu)可以最少的編程快速高效地從遠程存儲獲取數(shù)據(jù)，并放入本地高速緩存。

這些創(chuàng)新為機器學習和深度學習提供了優(yōu)質(zhì)的訓(xùn)練時間。比如，AlexNet 訓(xùn)練方面，相對于單節(jié)點而言，128 節(jié)點英特爾至強融核處理器 x200 的訓(xùn)練時間減少了 50 倍。進行 GoogLeNet 訓(xùn)練時，32 節(jié)點英特爾至強融核處理器 x200 的擴展效率達到 87%，比最新公布的最高數(shù)據(jù)超出 38%。

應(yīng)用只有并行化，才能利用大規(guī)模并行多核、多線程架構(gòu)。否則，你只能獲得單核、單線程性能。

英特爾至強融核處理器 x200 的每個內(nèi)核包含多個矢量處理單元，所以整體計算密度更高，成為抵消單核、單線程性能的一個因素。因此，如果你的工作負載能受益于高水平的并行性和線程并行性，英特爾至強融核處理器把更多計算融入更小的區(qū)域，功耗低于其他解決方案。

“二進制兼容”

從軟件角度看，第二代英特爾至強融核處理器與包括英特爾至強® E5 家族處理器在內(nèi)的 x86 架構(gòu)處理器之間是二進制兼容的。這意味著你只需要實施一次代碼現(xiàn)代化，第二代英特爾至強融核處理器和現(xiàn)有的基于英特爾至強處理器的服務(wù)器的訓(xùn)練效率會顯著提高。 “現(xiàn)代化”不是讓用戶自己寫 ninja 并行代碼。我們正在利用通用英特爾® 數(shù)學核心函數(shù)庫等工具，簡化基于 x86 架構(gòu)的通用 CPU 的 ML/DL 代碼的并行處理，數(shù)學核心函數(shù)庫包括新的擴展指令集，用來優(yōu)化現(xiàn)已推出的英特爾® MKL 2017 Beta 版的深度神經(jīng)網(wǎng)絡(luò)。此外，我們致力于優(yōu)化流行的基于開源 ML 框架的 x86 架構(gòu)，如 Caffe* 和 Theano*。通過我們的不懈努力，在沒有升級硬件的情況下，深度學習應(yīng)用的性能提升了大約 30 倍。

“總結(jié)”

第二代英特爾至強融核產(chǎn)品家族進一步實現(xiàn)了英特爾普及 ML 和多層神經(jīng)網(wǎng)絡(luò)的目標，這也是深度學習應(yīng)用的計算密集訓(xùn)練階段所必需的，為了實現(xiàn)這一目標，英特爾不斷的對各類工作負載負載進行優(yōu)化，以提高機器的決策能力。

文章摘自英特爾精英匯

歡迎聯(lián)系寶通集團咨詢英特爾相關(guān)產(chǎn)品信息

寶通集團聯(lián)系方式

咨詢熱線：400-830-0107
寶通官網(wǎng)：m.bjshst.cn
客戶垂詢郵箱：Customer@ex-channel.com

客戶垂詢QQ：1305742380
地址：深圳市福田區(qū)深南大道1006號國際創(chuàng)新中心C座11樓
郵編：518026

a级大胆欧美人体大胆666-男男gay啪啪网站18禁-激情内射日本一区二区三区-小妖精跪趴你好湿好紧好浪

Intel XeonPhi（至強融核）處理器如何為機器學習/深度學習應(yīng)用和框架提供強大優(yōu)勢

咨詢在線客服

寶通技術(shù)1

寶通技術(shù)2

寶通技術(shù)3