北京2020年12月10日 /美通社/ -- 深圳大學計算機與軟件學院(以下簡稱“深大計軟學院”)借助浪潮人工智能資源平臺AIStation巧妙地解決了AI算力資源調配和管理難題,將GPGPU資源利用率提升至60%以上,整體開發(fā)工作效率提升75%,AI科研和教學工作駛入快車道。
深圳大學是廣東省高水平大學重點建設高校,培養(yǎng)了馬化騰、張志東、史玉柱等杰出校友。依托國家戰(zhàn)略、地緣優(yōu)勢和校友資源,深大計軟學院于2012年率先開啟AI科學研究與人才培養(yǎng)。在人工智能領域取得了多項科研成果,承擔多個國家級自然科學基金項目。在芯片、算法、比賽以及論文等方面,也獲得了令人矚目的成績。在全球院校計算機科學排行榜CSRankings 2017-2019區(qū)間中,深圳大學計算機圖形學名列亞洲高校第一,進入世界領先水平。近年來,學院大力推進產學融合,積極開展人工智能教學探索與實踐,與騰訊等領先AI企業(yè)合作制定了人工智能人才培養(yǎng)方案,在課程體系、資源銜接、師資培訓、課程內容建設等方面進行了深度合作,成立了廣東省首個人工智能學院。
為了支持人工智能教學科研工作,深大計軟學院大力投入AI計算平臺建設,然而隨著AI應用場景的增加和使用人數(shù)的上升,AI算力資源調度管理問題逐漸凸顯。
AI算力資源管理拖累教學科研進度
2018年以前,深大計軟學院在AI計算資源獲得方面主要由各研究所/研究團隊自行解決。相關科研人員自行購買了大量的不同品牌的AI服務器,新舊不一、型號各異,性能表現(xiàn)參差不齊,操作系統(tǒng)版本繁多。這些服務器均托管于學院公用服務器機房內,但由各個團隊自行進行維護,故障停機、維護停機是家常便飯,大多數(shù)AI服務器的MTBF(平均故障間隔時間)低于150小時。同時相關服務器僅在團隊內部共享,利用率低,而對機房制冷量、供電等資源的消耗卻很高。至2018年底,托管于學院公用服務器機房內的各型AI服務器已有近90臺,機房業(yè)務負荷(三相交流電)供電總電流高峰時超過110A,服務器機房開通僅1年半即已超過接入線路設計最大供電能力的50%,而各研究團隊的采購和托管申請仍紛至沓來,機房管理人員苦惱不堪。
2018年起,深大計軟學院下決心建設統(tǒng)一的學院公共AI計算平臺,同時收緊研究團隊自行購買與托管AI服務器,以期通過提升資源利用率來解決科研人員對AI計算資源的需求與機房動力系統(tǒng)約束之間的矛盾。學院統(tǒng)一采購了16臺8卡AI服務器組成服務器機群,安裝虛擬化軟件進行服務器虛擬化,分配給學院師生使用。同時在另外6臺AI服務器上安裝PBS系統(tǒng),供研究各團隊按需申請,用于長時間模型訓練、調優(yōu)等短期使用需求。然而,傳統(tǒng)虛擬化軟件對GPU資源的虛擬化支持較差,只能通過PCIe設備直通的方式手動分配給虛擬機使用,無法根據(jù)用戶的計算需求對GPU資源進行動態(tài)調度。而PBS等傳統(tǒng)并行計算機群管理系統(tǒng),對GPU加速卡等異構計算資源的監(jiān)控和調度能力也遠遠不能滿足公共AI計算平臺的需要,同時在多人共享使用時,運行環(huán)境、任務相互之間干擾較大。
“當時在建這套AI計算平臺時,我們花了不少的精力,投入了很大的成本,但是卻沒有達到我們對提升人工智能科研和教學效率的預期,這讓我們非??鄲??!?span id="spanHghlt1041">深大計軟學院AI計算平臺負責人提到。
巧解難題,AI教研駛上快車道
浪潮AIStation是面向企業(yè)級用戶提供的一體化人工智能開發(fā)資源平臺,可支持數(shù)據(jù)處理、AI算法開發(fā)、模型訓練、模型管理、模型部署等AI全鏈條操作管理。浪潮AIStation可以支持大規(guī)模計算集群擴展,支持CPU、GPU、FPGA等多種系統(tǒng)架構,在業(yè)內首先可以達到“管資源”、“管人”、“管調度”三管齊下。深大的AI算力資源管理難題在部署了浪潮AIStation之后已經(jīng)迎刃而解,目前深大計軟學院AI計算平臺的GPGPU資源利用率,在高峰時期已提升至60%以上,而開發(fā)效率也大幅度提升,人工智能教學科研步入快車道。
通過AIStation平臺,集群管理員可以清晰地了解到每個使用者對資源使用和提交訓練任務的狀況,將閑置的計算資源進行有效的管理,并靈活配置用戶的資源配額,防止資源過多占用和浪費。
深大師生通過AIStation可以自行按需申請資源,AIStation自動分配GPU資源給用戶使用。其GPU共享策略可實現(xiàn)實現(xiàn)多人共用一臺機器、多人共用一張GPU卡,開發(fā)環(huán)境相互隔離互不影響,大大縮短了以往的排隊等待時間,大幅降低了因任務相互干擾而造成的故障停機和數(shù)據(jù)丟失的風險。
此外,AIStation還支持任務排隊托管、定義任務優(yōu)先級。深大師生們現(xiàn)在可以同時提交多個訓練任務,資源不足時排隊等待,一個任務訓練結束后自動釋放資源給排隊等待的任務,從而可以更好地利用夜間、假期執(zhí)行訓練任務,同時可設置優(yōu)先級,讓重要任務優(yōu)先執(zhí)行。
AIStation還提供基于Web的用戶界面,師生們無需安裝任何插件,通過瀏覽器即可快速接入實驗平臺。疫情期間,借助AIstation進行遠程教學和科研實驗,深大計軟學院迅速恢復了正常的教學和科研工作,更好地應對了疫情帶來的挑戰(zhàn)。
“在AIStation的幫助下,我們可以把精力更多地投入到教學與科研中去,不用再苦苦尋找計算資源了?!?span id="spanHghlt7b33">深大計軟學院一名教師說,“同時,AIStation采用圖形化界面,內置多種主流深度學習框架和開發(fā)組件,能夠快速部署開發(fā)環(huán)境,大大降低了學生們的學習難度和使用門檻,提高了學生們的實驗效率,也為AI開發(fā)和教學提供了極大的便利,將我們的開發(fā)工作效率整體提升了近一倍?!?/p>
深大計軟學院借力浪潮AIStation擺脫了AI算力資源難題,將繼續(xù)堅守“視野寬廣、素質優(yōu)良、注重實踐、創(chuàng)新創(chuàng)業(yè)”的人才培養(yǎng)原則,加速推進AI科研創(chuàng)新與人才培養(yǎng),打造人工智能教研標桿高校。