深圳2022年5月18日 /美通社/ -- 日前,承啟生物首次實(shí)現(xiàn)了在純國產(chǎn)電腦上使用自研FANSe算法高性能分析大規(guī)模基因測序數(shù)據(jù),其速度與當(dāng)前基于主流Intel和AMD處理器的臺式機(jī)和服務(wù)器相當(dāng)。這實(shí)現(xiàn)了精準(zhǔn)醫(yī)學(xué)基因測序領(lǐng)域的純國產(chǎn)流程實(shí)用化,在這一領(lǐng)域中國徹底擺脫了"卡脖子"問題。
大規(guī)模測序,又稱新一代測序、二代測序,將DNA或RNA打斷成許多小片段進(jìn)行平行測序,一次測序即可得到幾百萬至幾億個小片段的核酸片段序列信息,在生物學(xué)研究、疾病診斷、流行病溯源等領(lǐng)域有著廣泛的應(yīng)用。但產(chǎn)生的海量數(shù)據(jù)必須經(jīng)過大量運(yùn)算才能得到有生物學(xué)意義的結(jié)論,通常這需要很強(qiáng)算力的計算機(jī)或服務(wù)器才能在數(shù)小時內(nèi)給出結(jié)果。
然而,高性能CPU和GPU高度依賴進(jìn)口,不但有被國外斷供"卡脖子"的危險,而且進(jìn)口CPU還可能存在后門,有泄密風(fēng)險。在政府等對安全性要求極高的場合,以往一直沒有純國產(chǎn)計算機(jī)能滿足大規(guī)模測序的分析需求,這是由于國產(chǎn)CPU難以滿足需求。
承啟一直在生物信息國產(chǎn)化處理領(lǐng)域做努力,經(jīng)過深入調(diào)研發(fā)現(xiàn),兆芯開先CPU架構(gòu)的整數(shù)性能理論上比較優(yōu)秀,實(shí)際應(yīng)用時需要軟件的特定優(yōu)化才能發(fā)揮其全部性能潛力,因此選擇了兆芯開先CPU作為FANSe算法適配優(yōu)化的目標(biāo)。
承啟生物自研的FANSe算法是目前唯一規(guī)?;逃玫募儑a(chǎn)高性能大規(guī)模測序比對算法,2020年其曾創(chuàng)下單機(jī)5分鐘分析完一個30X人全基因組測序數(shù)據(jù)集的世界紀(jì)錄,并一直保持至今。算法完全自研帶來了顯著的優(yōu)勢,可以任意根據(jù)CPU的特性而進(jìn)行特別優(yōu)化,而依賴于國外知識產(chǎn)權(quán)的傳統(tǒng)算法則難以做到。
日前,F(xiàn)ANSe算法在純國產(chǎn)平臺上運(yùn)行成功,CPU是兆芯開先KX-U6780A,固態(tài)硬盤來自長江存儲,內(nèi)存芯片來自長鑫。與之對比的是一臺雙Intel E5V3 (共28核56線程)的服務(wù)器,都部署在承啟基因測序分析云平臺上。在常見的轉(zhuǎn)錄組、翻譯組、細(xì)菌菌群宏基因組等應(yīng)用中,純國產(chǎn)計算機(jī)的性能僅比服務(wù)器慢1%~12%,使用中幾乎感覺不到其性能差異。這也是純國產(chǎn)計算設(shè)備在大規(guī)模測序數(shù)據(jù)處理上第一次在實(shí)際應(yīng)用性能上幾乎追平國際主流服務(wù)器。
此前,承啟生物和華大智造聯(lián)合發(fā)布了國產(chǎn)大規(guī)模測序的全流程,將測序儀、試劑、分析算法等全面實(shí)現(xiàn)國產(chǎn)化,不依賴國外知識產(chǎn)權(quán),有力地捍衛(wèi)了中國精準(zhǔn)醫(yī)學(xué)的自主權(quán)。
如今,承啟再進(jìn)一步,憑借專門優(yōu)化的FANSe算法,將純國產(chǎn)計算設(shè)備的應(yīng)用性能提高到比肩國際主流的水平,標(biāo)志著中國的基因測序的安全性和自主可控達(dá)到一個全新的高度,不僅能支撐諸多精準(zhǔn)醫(yī)學(xué)應(yīng)用,更能在檢驗(yàn)檢疫、流行病控制、生物戰(zhàn)防治、法醫(yī)鑒定等直接關(guān)系到國家安全的方面大顯身手。