承啟生物實(shí)現(xiàn)純國產(chǎn)硬件高性能分析大規(guī)?；驕y序數(shù)據(jù)

2022-05-18 19:21 4644

深圳2022年5月18日 /美通社/ -- 日前，承啟生物首次實(shí)現(xiàn)了在純國產(chǎn)電腦上使用自研FANSe算法高性能分析大規(guī)模基因測序數(shù)據(jù)，其速度與當(dāng)前基于主流Intel和AMD處理器的臺式機(jī)和服務(wù)器相當(dāng)。這實(shí)現(xiàn)了精準(zhǔn)醫(yī)學(xué)基因測序領(lǐng)域的純國產(chǎn)流程實(shí)用化，在這一領(lǐng)域中國徹底擺脫了"卡脖子"問題。

大規(guī)模測序，又稱新一代測序、二代測序，將DNA或RNA打斷成許多小片段進(jìn)行平行測序，一次測序即可得到幾百萬至幾億個小片段的核酸片段序列信息，在生物學(xué)研究、疾病診斷、流行病溯源等領(lǐng)域有著廣泛的應(yīng)用。但產(chǎn)生的海量數(shù)據(jù)必須經(jīng)過大量運(yùn)算才能得到有生物學(xué)意義的結(jié)論，通常這需要很強(qiáng)算力的計算機(jī)或服務(wù)器才能在數(shù)小時內(nèi)給出結(jié)果。

然而，高性能CPU和GPU高度依賴進(jìn)口，不但有被國外斷供"卡脖子"的危險，而且進(jìn)口CPU還可能存在后門，有泄密風(fēng)險。在政府等對安全性要求極高的場合，以往一直沒有純國產(chǎn)計算機(jī)能滿足大規(guī)模測序的分析需求，這是由于國產(chǎn)CPU難以滿足需求。

承啟一直在生物信息國產(chǎn)化處理領(lǐng)域做努力，經(jīng)過深入調(diào)研發(fā)現(xiàn)，兆芯開先CPU架構(gòu)的整數(shù)性能理論上比較優(yōu)秀，實(shí)際應(yīng)用時需要軟件的特定優(yōu)化才能發(fā)揮其全部性能潛力，因此選擇了兆芯開先CPU作為FANSe算法適配優(yōu)化的目標(biāo)。

承啟生物自研的FANSe算法是目前唯一規(guī)?；逃玫募儑a(chǎn)高性能大規(guī)模測序比對算法，2020年其曾創(chuàng)下單機(jī)5分鐘分析完一個30X人全基因組測序數(shù)據(jù)集的世界紀(jì)錄，并一直保持至今。算法完全自研帶來了顯著的優(yōu)勢，可以任意根據(jù)CPU的特性而進(jìn)行特別優(yōu)化，而依賴于國外知識產(chǎn)權(quán)的傳統(tǒng)算法則難以做到。

承啟生物在純國產(chǎn)電腦上使用自研FANSe算法高性能分析大規(guī)模基因測序數(shù)據(jù)

日前，F(xiàn)ANSe算法在純國產(chǎn)平臺上運(yùn)行成功，CPU是兆芯開先KX-U6780A，固態(tài)硬盤來自長江存儲，內(nèi)存芯片來自長鑫。與之對比的是一臺雙Intel E5V3 (共28核56線程)的服務(wù)器，都部署在承啟基因測序分析云平臺上。在常見的轉(zhuǎn)錄組、翻譯組、細(xì)菌菌群宏基因組等應(yīng)用中，純國產(chǎn)計算機(jī)的性能僅比服務(wù)器慢1%~12%，使用中幾乎感覺不到其性能差異。這也是純國產(chǎn)計算設(shè)備在大規(guī)模測序數(shù)據(jù)處理上第一次在實(shí)際應(yīng)用性能上幾乎追平國際主流服務(wù)器。

此前，承啟生物和華大智造聯(lián)合發(fā)布了國產(chǎn)大規(guī)模測序的全流程，將測序儀、試劑、分析算法等全面實(shí)現(xiàn)國產(chǎn)化，不依賴國外知識產(chǎn)權(quán)，有力地捍衛(wèi)了中國精準(zhǔn)醫(yī)學(xué)的自主權(quán)。

如今，承啟再進(jìn)一步，憑借專門優(yōu)化的FANSe算法，將純國產(chǎn)計算設(shè)備的應(yīng)用性能提高到比肩國際主流的水平，標(biāo)志著中國的基因測序的安全性和自主可控達(dá)到一個全新的高度，不僅能支撐諸多精準(zhǔn)醫(yī)學(xué)應(yīng)用，更能在檢驗(yàn)檢疫、流行病控制、生物戰(zhàn)防治、法醫(yī)鑒定等直接關(guān)系到國家安全的方面大顯身手。

消息來源：深圳承啟生物科技有限公司