在大數(shù)據(jù)世界中探尋科學(xué)寶藏，科研新范式如何智用存儲(chǔ)利器

浪潮

2020-11-11 19:49 4266

隨著數(shù)據(jù)采集、存儲(chǔ)等技術(shù)的不斷提升，海量數(shù)據(jù)的出現(xiàn)徹底改變了傳統(tǒng)科研模式。在“數(shù)據(jù)密集型科學(xué)”的科研新范式驅(qū)動(dòng)下，高校、科研機(jī)構(gòu)加速構(gòu)建人工智能與大數(shù)據(jù)平臺(tái)、為不同學(xué)科提供創(chuàng)新基礎(chǔ)設(shè)施成為當(dāng)務(wù)之急。

北京2020年11月11日 /美通社/ -- 模擬腦神經(jīng)網(wǎng)絡(luò)，探索人腦上億個(gè)神經(jīng)元之間是如何連接與工作的，帶來每秒高達(dá)100TB數(shù)據(jù)高吞吐量；腦疾病研究中，通過數(shù)萬份患者數(shù)據(jù)驗(yàn)證抑郁癥與睡眠治理不佳的腦區(qū)有重合之處；在自動(dòng)駕駛車輛每天產(chǎn)生了數(shù)十TB數(shù)據(jù)中訓(xùn)練視覺識(shí)別算法；天文專家從數(shù)十PB海量數(shù)據(jù)中分析發(fā)現(xiàn)新天體……

如今在科研領(lǐng)域，數(shù)據(jù)正在發(fā)揮著越來越重要的作用。尤其是隨著數(shù)據(jù)采集、存儲(chǔ)等技術(shù)的不斷提升，海量數(shù)據(jù)的出現(xiàn)徹底改變了傳統(tǒng)科研模式。繼實(shí)驗(yàn)科學(xué)、理論科學(xué)、計(jì)算科學(xué)之后，基于“數(shù)據(jù)密集型科學(xué)”的科研新范式在大數(shù)據(jù)時(shí)代下，受到越來越多科研人員的青睞。

在“數(shù)據(jù)密集型科學(xué)”的科研新范式驅(qū)動(dòng)下，高校、科研機(jī)構(gòu)加速構(gòu)建人工智能與大數(shù)據(jù)平臺(tái)、為不同學(xué)科提供創(chuàng)新基礎(chǔ)設(shè)施成為當(dāng)務(wù)之急。但由于科研聚焦前沿研究，且不同學(xué)科之間存在著很大的差異性，造成對(duì)于數(shù)據(jù)的計(jì)算、采集、存儲(chǔ)、管理和利用的需求不盡相同，也讓高校的人工智能與大數(shù)據(jù)平臺(tái)加速向更高水準(zhǔn)演進(jìn)。

數(shù)據(jù)要素成為科研的驅(qū)動(dòng)力

科研范式因?yàn)榇髷?shù)據(jù)而迅速改變。

正所謂是“巧婦難為無米之炊”，即便理論再“高明”、算法再先進(jìn)，缺乏數(shù)據(jù)的支持，再好的研究設(shè)計(jì)都得“半途而廢”。如果科研數(shù)據(jù)越多，研究人員就可以利用大量數(shù)據(jù)的相關(guān)性、可取代因果關(guān)系和理論與模型，基于海量數(shù)據(jù)間的相關(guān)性驗(yàn)證更多研究想法和理論，獲得更多新知識(shí)和新發(fā)現(xiàn)。

例如，在當(dāng)前非常熱門的類腦科學(xué)研究，有一個(gè)重要的方向就是多模態(tài)多尺度數(shù)據(jù)分析理論與應(yīng)用。首先建立腦成像中心，全套磁共振成像設(shè)備對(duì)小動(dòng)物或者人體進(jìn)行腦成像，不斷采集和分析腦科學(xué)數(shù)據(jù)，構(gòu)建起多模態(tài)多尺度腦數(shù)據(jù)庫；然后，在利用模式識(shí)別、深度學(xué)習(xí)等類腦智能方法尋找基因、腦影像和認(rèn)知功能的診斷指標(biāo)，以揭示腦疾病致病機(jī)制、提升腦疾病臨床診斷以及藥物療效評(píng)估的準(zhǔn)確性和效率。

"目前高校數(shù)據(jù)量增長(zhǎng)的確非常大，很多科研領(lǐng)域?qū)τ诟鞣N科研數(shù)據(jù)的收集也非常重視。”復(fù)旦大學(xué)大數(shù)據(jù)學(xué)院副院長(zhǎng)薛向陽教授如是說。

如何理解數(shù)據(jù)密集型科學(xué)與之前計(jì)算科學(xué)之間的區(qū)別，兩種科研范式似乎都需要通過大量的計(jì)算、數(shù)據(jù)來完成科學(xué)研究。但計(jì)算科學(xué)通常是先提出可行理論，再搜集數(shù)據(jù)，之后通過計(jì)算仿真進(jìn)行驗(yàn)證；而數(shù)據(jù)密集型科學(xué)則是先通過采集大量的數(shù)據(jù)，再通過計(jì)算與分析獲得新知識(shí)和新發(fā)現(xiàn)。

“數(shù)據(jù)密集型科學(xué)”的科研新范式核心挑戰(zhàn)還在于數(shù)據(jù)?？蒲袛?shù)據(jù)的數(shù)據(jù)密集型，具有不可重復(fù)性、高度不確定性、高維、計(jì)算高度復(fù)雜等特征。如今越來越多科研人員，面臨的不是缺少數(shù)據(jù)的難題，而是海量數(shù)據(jù)環(huán)境下如何存儲(chǔ)、管理和利用數(shù)據(jù)，這對(duì)于科研數(shù)據(jù)底座的存儲(chǔ)在容量、性能、擴(kuò)展和管理等方面提出極高的要求。

薛向陽教授介紹：“我們正在建設(shè)一個(gè)人工智能與大數(shù)據(jù)的開放共享平臺(tái)，就是希望為科研工作者解決數(shù)據(jù)存儲(chǔ)、管理和利用等方面的挑戰(zhàn)，讓數(shù)據(jù)更好地為科研所用。”

科研新范式不應(yīng)被存儲(chǔ)所束縛

與其他行業(yè)相比，高校與科研機(jī)構(gòu)在建立人工智能與大數(shù)據(jù)平臺(tái)時(shí)，對(duì)于存儲(chǔ)的要求更高，往往需要存儲(chǔ)這個(gè)科研數(shù)據(jù)基礎(chǔ)設(shè)施有效解決數(shù)據(jù)存不下、管不好、用不順等挑戰(zhàn)。

具體來看，如今的高校與科研機(jī)構(gòu)普遍都在加速向“數(shù)據(jù)密集型科學(xué)”的科研新范式轉(zhuǎn)變，多學(xué)科、交叉研究的現(xiàn)象很常見，都重視科研數(shù)據(jù)的采集與存儲(chǔ)，直接導(dǎo)致了底層存儲(chǔ)的巨大壓力。

腦科研需要大數(shù)據(jù)平臺(tái)的支撐和保障

以腦科學(xué)與類腦研究為例，其所產(chǎn)生的數(shù)據(jù)主要以影像大文件為主，并包含了大量臨時(shí)小文件數(shù)據(jù)。由于需要存儲(chǔ)的數(shù)據(jù)量極大，并且始終保持著很高的增長(zhǎng)速度，很多科研機(jī)構(gòu)之前采用傳統(tǒng)縱向擴(kuò)展的存儲(chǔ)很快出現(xiàn)明顯瓶頸；也有一些天文研究機(jī)構(gòu)，一開始寄希望于通過公有云的方式來保存數(shù)據(jù)，但是隨著數(shù)據(jù)不斷積累，通過公有云的方式不僅帶來了額外的帶寬成本，還存在效率等方面挑戰(zhàn)。

“當(dāng)前很多高校的研究都是基于大數(shù)據(jù)，首先最關(guān)鍵的是將數(shù)據(jù)存下來?！毖ο蜿柦淌谥毖缘馈?/p>

除了將數(shù)據(jù)很好地存下來，高校與科研機(jī)構(gòu)大多都渴望將數(shù)據(jù)流動(dòng)與共享起來，但現(xiàn)實(shí)情況卻是數(shù)據(jù)管理粗放、不夠精細(xì)化，數(shù)據(jù)共享低效、管理困難。比如在高校中，經(jīng)常會(huì)遇到一份科研數(shù)據(jù)同時(shí)被多個(gè)課題組所使用，每個(gè)課題組都需要拷貝一份數(shù)據(jù)，在不斷科研過程中，又各自產(chǎn)生了大量不同的數(shù)據(jù)，最后衍生出多種版本，讓數(shù)據(jù)管理的復(fù)雜度大幅升上，降低了數(shù)據(jù)功效與流動(dòng)的效率。

另外，因?yàn)閷W(xué)科的不同，對(duì)于存儲(chǔ)的性能、功能要求也是千差萬別，沒有強(qiáng)大的存儲(chǔ)做支撐，往往讓科研人員用不順。例如，從事機(jī)器視覺研究的人員，對(duì)于存儲(chǔ)空間極度渴求；模擬腦神經(jīng)網(wǎng)絡(luò)相關(guān)的研究，當(dāng)前只能模擬不到5%，要想100%模擬需要100 TB/s的通量，則對(duì)于數(shù)據(jù)存儲(chǔ)性能和帶寬要求極高，且挑戰(zhàn)巨大。薛向陽教授表示：“高校應(yīng)用偏科學(xué)研究，很多應(yīng)用都較為超前，對(duì)于存儲(chǔ)功能層面一直會(huì)產(chǎn)生新需求和新挑戰(zhàn)。”

浪潮存儲(chǔ)

“一直以來，浪潮都跟國(guó)內(nèi)外多所高校進(jìn)行緊密合作。高?？蒲蓄I(lǐng)域的確走在數(shù)據(jù)存儲(chǔ)場(chǎng)景應(yīng)用的最前沿?！崩顺贝鎯?chǔ)產(chǎn)品線副總經(jīng)理周川如是說，“浪潮存儲(chǔ)有一些新功能、新思路都是在與高校、科研機(jī)構(gòu)的深入合作中產(chǎn)生。”

例如，針對(duì)高校多個(gè)學(xué)科與多個(gè)課題組共享、使用、管理數(shù)據(jù)會(huì)產(chǎn)生多份數(shù)據(jù)的難題，浪潮存儲(chǔ)為用戶定制的軟拷貝功能，在元數(shù)據(jù)和索引上做變更，用戶視角是多份不同的文件，但底層則是共同的存儲(chǔ)空間，只有數(shù)據(jù)修改和寫入才會(huì)增加新的存儲(chǔ)空間，實(shí)現(xiàn)多份數(shù)據(jù)極速拷貝和使用，還大幅降低存儲(chǔ)容量開銷和管理成本，讓數(shù)據(jù)共享、使用變得更加高效。

浪潮存儲(chǔ)資深架構(gòu)師葉毓睿介紹：“軟拷貝功能是浪潮存儲(chǔ)在科研場(chǎng)景實(shí)踐的一個(gè)小注腳，它帶來了兩大直接好處：一是數(shù)據(jù)共享加速，第二則是提升存儲(chǔ)效率?！?/p>

新存儲(chǔ)讓科研新范式步入快車道

今年初，國(guó)家正式提出加快數(shù)據(jù)中心、5G等新型基礎(chǔ)設(shè)施的建設(shè)進(jìn)度。國(guó)家發(fā)改委之后則首次指出，創(chuàng)新基礎(chǔ)設(shè)施為新基建三大范圍之一，包括科技基礎(chǔ)設(shè)施、科教基礎(chǔ)設(shè)施等，重點(diǎn)支撐科學(xué)研究、技術(shù)開發(fā)等工作。隨著中國(guó)高校科研費(fèi)用投入逐年增加，多個(gè)科研領(lǐng)域取得諸多突破與成果，創(chuàng)新基礎(chǔ)設(shè)施的重要性也日漸突出。

為此，浪潮存儲(chǔ)今年提出新存儲(chǔ)之道，在“云存智用、運(yùn)籌新數(shù)據(jù)”理念的基礎(chǔ)上，推進(jìn)“存儲(chǔ)即平臺(tái)”戰(zhàn)略，打造存儲(chǔ)的極致性能、容量、管理等七大核心能力，為創(chuàng)新基礎(chǔ)設(shè)施構(gòu)建堅(jiān)實(shí)的數(shù)據(jù)底座，讓科研新范式進(jìn)入到發(fā)展的快車道。

例如，在一些注重?cái)?shù)據(jù)存儲(chǔ)性能的科研場(chǎng)景，浪潮存儲(chǔ)專門為高頻訪問的元數(shù)據(jù)和日志數(shù)據(jù)“開小灶”，采用SSD盤承載元數(shù)據(jù)和日志數(shù)據(jù)顯著提升熱點(diǎn)數(shù)據(jù)訪問速度，并針對(duì)不同數(shù)據(jù)類型的場(chǎng)景進(jìn)行優(yōu)化，讓每種場(chǎng)景都能夠快速訪問、使用數(shù)據(jù)。

又如，針對(duì)高校與科研機(jī)構(gòu)運(yùn)維人員較少、專業(yè)度有限的情況，浪潮存儲(chǔ)基于智能存儲(chǔ)管理平臺(tái)InView，將人工智能技術(shù)融入存儲(chǔ)系統(tǒng)，對(duì)存儲(chǔ)系統(tǒng)進(jìn)行集中管理、智能監(jiān)測(cè)和故障預(yù)測(cè)報(bào)警，大幅降低科研機(jī)構(gòu)日常的運(yùn)維工作，并讓運(yùn)維走向自動(dòng)化和智能化，從而更好地保障各種科研項(xiàng)目的順利進(jìn)行。

不僅如此，針對(duì)高?？蒲蓄I(lǐng)域?qū)τ跀?shù)據(jù)存儲(chǔ)需求趨勢(shì)，浪潮存儲(chǔ)積極調(diào)研與深入溝通，在新存儲(chǔ)之道中聚焦新架構(gòu)、新介質(zhì)和新能力的打造，在EB級(jí)容量、億級(jí)IOPS、TB級(jí)帶寬、7個(gè)9可靠性、存儲(chǔ)自治等關(guān)鍵新能力上提前布局，為科研的數(shù)據(jù)底座“厲兵秣馬”，提前做好準(zhǔn)備。

總體來看，浪潮存儲(chǔ)近年來為構(gòu)建強(qiáng)大的科研新基建不斷“加碼”，除了復(fù)旦大學(xué)類腦智能科學(xué)與技術(shù)研究院、清華大學(xué)RUSH、華中科大蘇州腦科學(xué)研究院、中國(guó)天眼等一系列明星科研項(xiàng)目中積累了豐富的實(shí)踐經(jīng)驗(yàn)外，還在科研領(lǐng)域打通用戶需求洞察、場(chǎng)景功能適配與前沿技術(shù)創(chuàng)新，形成良性循環(huán)，讓科研新范式加速步入發(fā)展的快車道。

消息來源：浪潮