北京2018年5月24日電 /美通社/ -- 5月23日,在舊金山舉行的英特爾人工智能開發(fā)者大會上,英特爾公司全球副總裁兼人工智能產品事業(yè)部總經理Naveen Rao發(fā)表了演講,以下為全文:
在5月23日舊金山舉行的英特爾人工智能開發(fā)者大會上,我們介紹了有關英特爾人工智能產品組合與英特爾 Nervana? 神經網(wǎng)絡處理器的最新情況。這是令人興奮的一周,英特爾人工智能開發(fā)者大會匯集了人工智能領域的頂尖人才。我們意識到,英特爾需要與整個行業(yè)進行協(xié)作,包括開發(fā)者、學術界、軟件生態(tài)系統(tǒng)等等,來釋放人工智能的全部潛力。因此,我很興奮能夠與眾多業(yè)內人士同臺。這包括與我們共同參與演示、研究和實踐培訓的開發(fā)者,也包括來自谷歌*、AWS*、微軟*、Novartis*、C3 IoT*的諸多支持者。正是這種廣泛的合作幫助我們一起賦能人工智能社區(qū),為加快人工智能領域的技術創(chuàng)新和進步提供所需的硬件和軟件支持。
在加速向人工智能驅動的未來計算過渡之時,我們需要提供全面的企業(yè)級解決方案。這意味著我們的解決方案要提供最廣泛的計算能力,并且能夠支持從毫瓦級到千瓦級的多種架構。企業(yè)級的人工智能還意味著支持和擴展行業(yè)已經投資開發(fā)的工具、開放式框架和基礎架構,以便更好地讓研究人員在不同的人工智能工作負載中執(zhí)行任務。例如人工智能開發(fā)者越來越傾向于直接針對開源框架進行編程,而不是針對具體的產品軟件平臺,這樣有助于更快速、更高效的開發(fā)。我們在大會上發(fā)布的消息涉及所有這些領域,并公布了幾家新增的合作伙伴,這都將幫助開發(fā)者和我們的客戶更快速地從人工智能中受益。
針對多樣化的人工智能工作負載而擴展的英特爾人工智能產品組合
英特爾近期的一項調查顯示,在我們的美國企業(yè)客戶中,50%以上都正在轉向采用基于英特爾®至強®處理器的現(xiàn)有的云解決方案來滿足其對人工智能的初步需求。這其實肯定了英特爾的做法 -- 通過提供包括英特爾®至強®處理器、英特爾® Nervana?和英特爾® Movidius?技術以及英特爾® FPGAs 在內的廣泛的企業(yè)級產品,來滿足人工智能工作負載的獨特要求。
我們今天討論的一個重要內容是對英特爾至強可擴展處理器的優(yōu)化。與前一代相比,這些優(yōu)化大幅提升了訓練和推理性能,有利于更多公司充分利用現(xiàn)有基礎設施,在邁向人工智能初始階段的過程中降低總體成本。最新的英特爾 Nervana 神經網(wǎng)絡處理器(NNP)系列也有更新消息分享:英特爾 Nervana 神經網(wǎng)絡處理器有著清晰的設計目標,即實現(xiàn)高計算利用率,以及通過芯片間互聯(lián)支持真正的模型并行化。行業(yè)談論了很多有關理論峰值性能或 TOP/s 數(shù)字的話題;但現(xiàn)實是,除非架構設計上內存子系統(tǒng)能夠支撐這些計算單元的充分利用,否則很多計算是毫無意義的。此外,業(yè)內發(fā)表的很多性能數(shù)據(jù)采用了很大的方形矩陣,但這在真實的神經網(wǎng)絡中通常是不存在的。
英特爾致力于為神經網(wǎng)絡開發(fā)一個平衡的架構,其中也包括在低延遲狀態(tài)下實現(xiàn)芯片間高帶寬。我們的神經網(wǎng)絡處理器系列上進行的初步性能基準測試顯示,利用率和互聯(lián)方面都取得了極具競爭力的測試結果。具體細節(jié)包括:
使用A(1536, 2048)和B(2048, 1536)矩陣大小的矩陣-矩陣乘法(GEMM)運算,在單芯片上實現(xiàn)了高于96.4%的計算利用率1。這意味著在單芯片上實現(xiàn)大約38 TOP/s 的實際(非理論)性能1。針對 A(6144, 2048)和B(2048, 1536)矩陣大小,支持模型并行訓練的多芯片分布式 GEMM 運算實現(xiàn)了近乎線性的擴展和96.2%的擴展效率2,讓多個神經網(wǎng)絡處理器能夠連接到一起,并打破其它架構面臨的內存限制。
在延遲低于790納秒的情況下,我們測量到了達到89.4%理論帶寬的單向芯片間傳輸效率3,并把它用于2.4Tb/s的高帶寬、低延遲互聯(lián)。
這一切是在總功率低于210瓦的單芯片中實現(xiàn)的,而這只是英特爾 Nervana 神經網(wǎng)絡處理器原型產品(Lake Crest)。該產品的主要目標是從我們的早期合作伙伴那里收集反饋。
我們正在開發(fā)第一個商用神經網(wǎng)絡處理器產品英特爾 Nervana NNP-L1000(Spring Crest),計劃在2019年發(fā)布。與第一代 Lake Crest 產品相比,我們預計英特爾 Nervana NNP-L1000將實現(xiàn)3-4倍的訓練性能。英特爾 Nervana NNP-L1000還將支持 bfloat16,這是業(yè)內廣泛采用的針對神經網(wǎng)絡的一種數(shù)值型數(shù)據(jù)格式。未來,英特爾將在人工智能產品線上擴大對 bfloat16的支持,包括英特爾至強處理器和英特爾 FPGA。這是整個全面戰(zhàn)略中的一部分,旨在把領先的人工智能訓練能力引入到我們的芯片產品組合中。
面向真實世界的人工智能
我們產品的廣度讓各種規(guī)模的機構能夠輕松地通過英特爾來開啟自己的人工智能之旅。例如,英特爾正在與 Novartis 合作,使用深度神經網(wǎng)絡來加速高內涵篩選 -- 這是早期藥品研發(fā)的關鍵元素。雙方的合作把訓練圖片分析模型的時間從11個小時縮短到了31分鐘 -- 改善了20多倍4。為了讓客戶更快速地開發(fā)人工智能和物聯(lián)網(wǎng)應用,英特爾和C3 IoT宣布針對優(yōu)化的 AI 硬軟件解決方案進行合作 -- 一個基于 Intel AI 技術的C3 IoT AI 應用。此外,我們還正在把 TensorFlow*、MXNet*、Paddle Paddle*、CNTK*和 ONNX*等深度學習框架集成在 nGraph 之上,后者是一個框架中立的深度神經網(wǎng)絡(DNN)模型編譯器。我們已經宣布,英特爾人工智能實驗室開源了面向 Python*的自然語言處理庫,幫助研究人員開始自己的自然語言處理算法工作。
計算的未來依賴于我們聯(lián)合提供企業(yè)級解決方案的能力,通過這些解決方案企業(yè)可以充分發(fā)揮人工智能的潛力。我們迫切地希望可以與社區(qū)以及客戶一起開發(fā)和部署這項變革性技術,并期待在人工智能開發(fā)者大會上擁有更精彩的體驗。
測試中記錄了組件在特定系統(tǒng)的具體測試中的性能。硬件、軟件或配置中的差異將會影響實際性能。如果考慮購買,請在評估性能時參考其它信息來源。欲了解關于性能和基準測試結果的完整信息,請訪問:http://www.intel.com/benchmarks
來源:英特爾在限定版軟件開發(fā)工具(SDV)上的測量
1 矩陣-矩陣乘法(GEMM)運算;A(1536, 2048),B(2038, 1536)矩陣大小
2 兩個芯片 vs. 單芯片的GEMM運算性能; A(6144, 2048),B(2038, 1536)矩陣大小
3 全芯片MRB-CHIP MRB數(shù)據(jù)轉移,使用send/recv,Tensor 大小 = (1, 32),5萬次迭代的平均值
4 20倍是通過從單節(jié)點系統(tǒng)擴展到8插槽集群而實現(xiàn)的21.7倍速度提升。
8插槽集群節(jié)點配置:CPU:英特爾®至強® 6148處理器(2.4GHz);核心數(shù):40;插槽數(shù):2;超線程:啟用;內存/節(jié)點:192GB,2666MHz;網(wǎng)卡:英特爾® Omni-Path Host Fabric Interface (英特爾® OP HFI);TensorFlow:v1.7.0;Horovod:0.12.1;OpenMPI:3.0.0;集群:ToR Switch:英特爾® Omni-Path Switch
單節(jié)點配置:CPU:英特爾®至強®融核處理器7290F;192GB DDR4 RAM;1x 1.6TB 英特爾® SSD DC S3610系列SC2BX016T4;1x 480GB 英特爾® SSD DC S3520系列SC2BB480G7;英特爾® MKL 2017/DAAL/Intel Caffe
英特爾技術的特性和優(yōu)勢取決于系統(tǒng)配置,可能需要特定的硬件、軟件或服務激活。實際性能因系統(tǒng)配置而異。沒有任何計算機具有絕對安全性。更多信息見 intel.com 或咨詢系統(tǒng)制造商或零售商。
英特爾不控制或審計本文中提及的第三方基準測試數(shù)據(jù)或網(wǎng)站。請訪問參考網(wǎng)站并確認參考數(shù)據(jù)是否精確。