北京2021年2月1日 /美通社/ -- 眾所周知,如今我們正身處信息爆炸的時(shí)代,隨著新基建的逐步深入,各行各業(yè)都在快速推進(jìn)數(shù)字化轉(zhuǎn)型,隨之誕生的各類創(chuàng)新技術(shù)層出不窮。這些新技術(shù)的發(fā)展,大多都圍繞著海量數(shù)據(jù)這個(gè)主題展開。如人工智能,就是以海量數(shù)據(jù)為生產(chǎn)要素;5G技術(shù)的成熟應(yīng)用,為海量數(shù)據(jù)快速生成與傳輸筑造了通路基礎(chǔ),區(qū)塊鏈又為海量數(shù)據(jù)的去中心化交易提供了技術(shù)支撐。此類新技術(shù)的應(yīng)用與推廣必然帶來(lái)海量數(shù)據(jù)的規(guī)?;奂?,數(shù)十甚至數(shù)百PB的存儲(chǔ)系統(tǒng),將成為業(yè)界常態(tài)。應(yīng)對(duì)海量存儲(chǔ)壓力,絕是不僅僅靠設(shè)備堆砌來(lái)解決容量問題這樣簡(jiǎn)單。容量的上的疊加也將引發(fā)技術(shù)的質(zhì)變,存儲(chǔ)系統(tǒng)面臨諸多關(guān)鍵技術(shù)上的挑戰(zhàn)。
曙光是國(guó)內(nèi)第一家專注海量存儲(chǔ)系統(tǒng)研制的廠商,2009年第一代全自研ParaStor分布式存儲(chǔ)系統(tǒng)誕生,奠定了構(gòu)建海量數(shù)據(jù)存儲(chǔ)最佳解決方案的基石。同年,曙光為用戶構(gòu)建了當(dāng)時(shí)國(guó)內(nèi)最大的16PB單一存儲(chǔ)系統(tǒng)。在10多年的發(fā)展過程中,曙光始終圍繞海量分布式存儲(chǔ)系統(tǒng)進(jìn)行架構(gòu)的深度優(yōu)化甚至局部重構(gòu),以應(yīng)對(duì)云、人工智能、區(qū)塊鏈等技術(shù)帶來(lái)的海量數(shù)據(jù)新的挑戰(zhàn)。今天,曙光ParaStor在科研教育、氣象環(huán)保、生命科學(xué)、能源、區(qū)塊鏈等領(lǐng)域打造了一個(gè)又一個(gè)海量存儲(chǔ)最佳實(shí)踐,完成了從單套系統(tǒng)23PB、56PB到百PB級(jí)別的自我技術(shù)超越,獲得了市場(chǎng)的高度認(rèn)可。
基于多年技術(shù)積累以及多套百PB級(jí)別超大規(guī)模存儲(chǔ)系統(tǒng)研制和運(yùn)維經(jīng)驗(yàn),曙光公司認(rèn)為,只有擁有如下核心技術(shù)研發(fā)實(shí)力,才能更好的應(yīng)對(duì)各行業(yè)海量數(shù)據(jù)存儲(chǔ)的挑戰(zhàn)。
先進(jìn)、創(chuàng)新的底層存儲(chǔ)技術(shù)基座
在基礎(chǔ)架構(gòu)層面,傳統(tǒng)集中式存儲(chǔ)架構(gòu)由于Scale-up擴(kuò)展方式的局限性,無(wú)法對(duì)海量數(shù)據(jù)的容量與性能需求實(shí)現(xiàn)良好的支撐,天然適合此類場(chǎng)景分布式存儲(chǔ)架構(gòu)逐漸成為市場(chǎng)主流。為了應(yīng)對(duì)海量存儲(chǔ)的挑戰(zhàn),曙光ParaStor除了采用分布式架構(gòu)之外,還可靈活選擇對(duì)稱與非對(duì)稱部署兩種模式,以更具性價(jià)比的硬件構(gòu)建成本,支撐千億級(jí)別文件、EB級(jí)存儲(chǔ)空間的擴(kuò)展需要。
除了架構(gòu)之外,決定存儲(chǔ)系統(tǒng)先進(jìn)性的另一關(guān)鍵要素是底層數(shù)據(jù)管理技術(shù)。目前業(yè)界分布式存儲(chǔ)系統(tǒng),大多采用ext4、xfs等開源文件系統(tǒng)進(jìn)行底層磁盤管理,以降低代碼開發(fā)量,縮短產(chǎn)品研發(fā)周期。但這種間接的磁盤管理方式,無(wú)法更直接、高效地發(fā)揮磁盤性能。特別是在配置了數(shù)千甚至上萬(wàn)塊磁盤的海量存儲(chǔ)系統(tǒng)中,單個(gè)磁盤的性能衰減會(huì)成指數(shù)級(jí)放大,最終影響存儲(chǔ)系統(tǒng)的整體性能和可靠性。為解決這個(gè)難題,曙光在ParaStor上創(chuàng)新性地開發(fā)了OBS本地對(duì)象管理系統(tǒng)。利用OBS可以精細(xì)化控制磁盤IO,使應(yīng)用層的多個(gè)小隨機(jī)IO智能組合為大的順序IO,減少磁盤操作,使數(shù)據(jù)布局和負(fù)載更均衡,顯著提升多事務(wù)并發(fā)、IO異步處理等海量數(shù)據(jù)應(yīng)用場(chǎng)景的系統(tǒng)性能。并為熱點(diǎn)數(shù)據(jù)加速、自動(dòng)分層、重刪壓縮等進(jìn)階數(shù)據(jù)管理服務(wù)的高效運(yùn)行打下了良好的基礎(chǔ)。
海量并發(fā)應(yīng)用場(chǎng)景下的深度性能優(yōu)化
海量數(shù)據(jù)應(yīng)用場(chǎng)景下,應(yīng)用IO模型復(fù)雜多樣、文件粒度差異很大,為了匹配不同應(yīng)用對(duì)帶寬、IOPS、延時(shí)的個(gè)性化需求,要求存儲(chǔ)系統(tǒng)具備從磁盤管理、網(wǎng)絡(luò)層到協(xié)議層整個(gè)IO路徑上的深度優(yōu)化能力。同時(shí),隨著參與數(shù)據(jù)存儲(chǔ)和處理節(jié)點(diǎn)數(shù)量的增加,由此帶來(lái)的資源開銷也會(huì)攀升,同樣需要針對(duì)性的優(yōu)化設(shè)計(jì)。
從建設(shè)成本角度考量,海量存儲(chǔ)系統(tǒng)仍以機(jī)械磁盤為主角。機(jī)械磁盤由于尋址方式的物理設(shè)計(jì),在處理隨機(jī)小文件IO時(shí)會(huì)有先天的性能劣勢(shì),單純依靠硬盤數(shù)量的增加無(wú)法應(yīng)對(duì)海量小文件的性能挑戰(zhàn)。曙光ParaStor基于底層OBS管理系統(tǒng)實(shí)現(xiàn)與閃存介質(zhì)的深度融合,使用少量閃存高效覆蓋熱點(diǎn)IO需求,另一方面通過小IO合并、元數(shù)據(jù)緩存、動(dòng)態(tài)智能預(yù)讀等多種方式,顯著提升海量大、小文件混合應(yīng)用場(chǎng)景的整體用戶性能體驗(yàn)。
同時(shí),曙光ParaStor通過高性能網(wǎng)絡(luò)Infiniband RDMA協(xié)議支持、專屬高性能POSIX客戶端等技術(shù),針對(duì)具體的應(yīng)用場(chǎng)景,單流帶寬可優(yōu)化至18GB/s,在首屆中國(guó)海量存儲(chǔ)系統(tǒng)MassStor100排行榜中,一套裸容量為100PB的存儲(chǔ)系統(tǒng),其系統(tǒng)聚合帶寬高達(dá)1TB/s,代表了業(yè)界最高水準(zhǔn)。
隨著存儲(chǔ)系統(tǒng)規(guī)模的擴(kuò)大,存儲(chǔ)客戶端對(duì)于CPU等資源的占用、數(shù)據(jù)網(wǎng)絡(luò)的負(fù)載和管理壓力也會(huì)增加,一旦某個(gè)節(jié)點(diǎn)由于上述原因出現(xiàn)阻塞,將對(duì)存儲(chǔ)系統(tǒng)的性能甚至可用性造成重大影響。曙光ParaStor分布式存儲(chǔ)系統(tǒng),針對(duì)大規(guī)模集群的資源占用進(jìn)行了多重細(xì)粒度的優(yōu)化措施,保障了存儲(chǔ)系統(tǒng)性能的恒定發(fā)揮和數(shù)據(jù)訪問的可用性。
超大規(guī)模下的數(shù)據(jù)一致性和可靠性保障
在數(shù)據(jù)一致性保證層面,海量存儲(chǔ)系統(tǒng)必然伴隨著大量客戶端的并發(fā)訪問需求。通過軟件層面的高效調(diào)度,保障所有客戶端數(shù)據(jù)訪問的強(qiáng)一致性,避免對(duì)同一文件的并發(fā)讀寫對(duì)彼此數(shù)據(jù)的破壞,是一個(gè)成熟海量存儲(chǔ)系統(tǒng)的必備素質(zhì)。ParaStor存儲(chǔ)在分布式鎖(Distributed Lock Management,DLM)的使用與優(yōu)化方面投入了大量精力,不斷提升大規(guī)模分布式鎖獲取與釋放的性能與可用性,并增加了可重入、非阻塞等特性,有效保障高并發(fā)共享訪問場(chǎng)景的順序、秩序與效率,在氣象環(huán)保、能源地質(zhì)等海量數(shù)據(jù)處理場(chǎng)景得到了廣泛的應(yīng)用。
在可靠性保障方面,硬件單點(diǎn)故障的防范只是海量存儲(chǔ)系統(tǒng)的初級(jí)需求,智能化故障預(yù)處理與高效無(wú)感知的系統(tǒng)自愈才能讓系統(tǒng)真正可靠穩(wěn)定運(yùn)行。以磁盤為例,對(duì)于磁盤的單點(diǎn)故障,我們可以通過成熟的多副本、糾刪碼、RAID等技術(shù)實(shí)現(xiàn)數(shù)據(jù)重構(gòu),對(duì)于中小規(guī)模存儲(chǔ)系統(tǒng),磁盤故障屬于小概率事件,用戶只需要在某一段時(shí)間內(nèi)對(duì)前端業(yè)務(wù)性能與重構(gòu)性能做簡(jiǎn)單取舍即可。但對(duì)于一個(gè)管理著上萬(wàn)塊磁盤的百PB級(jí)海量存儲(chǔ)系統(tǒng)而言,意味著平均每天會(huì)有約2-5塊磁盤故障,存儲(chǔ)系統(tǒng)大部分時(shí)間內(nèi)都處于業(yè)務(wù)與重構(gòu)的資源爭(zhēng)用狀態(tài)。如果沒有妥善的處理方式,用戶每天都會(huì)面臨著要保障生產(chǎn)業(yè)務(wù)性能還是保障數(shù)據(jù)安全的靈魂拷問。曙光ParaStor存儲(chǔ)系統(tǒng)為大集群場(chǎng)景定向開發(fā)了內(nèi)部資源動(dòng)態(tài)調(diào)度管理算法,在充分發(fā)揮硬件處理能力的基礎(chǔ)上有效避免資源爭(zhēng)搶,同時(shí)通過多重技術(shù)顯著縮短故障數(shù)據(jù)重建時(shí)間,解決了性能與可靠性沖突這個(gè)海量存儲(chǔ)故障處理的主要矛盾。
智能化運(yùn)維挑戰(zhàn)上千節(jié)點(diǎn)的管理
在運(yùn)維管理方面,維護(hù)由數(shù)百甚至數(shù)千節(jié)點(diǎn)構(gòu)成的海量存儲(chǔ)系統(tǒng),僅靠傳統(tǒng)的管理方式顯然是不可行的,各節(jié)點(diǎn)間的信息實(shí)時(shí)同步開銷會(huì)成為存儲(chǔ)系統(tǒng)的不可承受之重。曙光ParaStor在集群通信管理模塊中,將節(jié)點(diǎn)按照不同角色抽象成多個(gè)管理分組,以分組為單位進(jìn)行管理信令交互,增大了信息傳遞顆粒度以降低通信頻度,實(shí)現(xiàn)管理流量的去中心化錯(cuò)峰交互,集群信息秒級(jí)同步,使系統(tǒng)中所有節(jié)點(diǎn)都能“統(tǒng)一思想,明確目標(biāo)”,提升存儲(chǔ)系統(tǒng)的整體戰(zhàn)斗力。
積土成山,風(fēng)雨興焉;積水成淵,蛟龍生焉。正如常規(guī)軟件處理方式無(wú)法應(yīng)對(duì)巨量數(shù)據(jù)集合的捕捉、管理與計(jì)算,而必須引入大數(shù)據(jù)等新型數(shù)據(jù)處理模式一樣,海量數(shù)據(jù)存儲(chǔ)在基礎(chǔ)架構(gòu)、數(shù)據(jù)管理、性能優(yōu)化、數(shù)據(jù)一致性、可靠性保障、運(yùn)維管理等需求也需要全方位的定向深度優(yōu)化才可能完美承載。曙光ParaStor在海量存儲(chǔ)領(lǐng)域持續(xù)深耕,正在為全國(guó)數(shù)千家用戶管理著超過10EB的核心數(shù)據(jù),為云計(jì)算、軌道交通、氣象環(huán)保、基因測(cè)序、能源勘探等行業(yè)用戶的海量數(shù)據(jù)管理提供了堅(jiān)實(shí)穩(wěn)定的保障。放眼未來(lái),曙光存儲(chǔ)將繼續(xù)總結(jié)與吸收海量數(shù)據(jù)存儲(chǔ)系統(tǒng)優(yōu)化與運(yùn)維過程中積累的寶貴經(jīng)驗(yàn),并在數(shù)據(jù)全生命周期管理,在線實(shí)時(shí)數(shù)據(jù)處理,以及與區(qū)塊鏈、AI、容器等新興技術(shù)深度融合等方面加強(qiáng)投入,為用戶提供更快速、更可靠、更智能、更便捷的一站式數(shù)據(jù)管理服務(wù)。