深圳2022年9月19日 /美通社/ -- 近日,承啟生物攜手亞馬遜云服務(AWS),在AWS上成功部署了基于FANSe算法的全自主基因測序分析云平臺,并免費向全世界開放使用。承啟生物將依托AWS構(gòu)建的云計算加速系統(tǒng),充分發(fā)揮FANSe算法精確高效、便捷快速、可擴展性強等性能優(yōu)勢,為全世界的基因測序企業(yè)和科研機構(gòu)做好服務。FANSe算法在AWS平臺的運行也標志著中國自主研發(fā)的精準組學技術解決方案走出國門走向世界,為精準醫(yī)療的發(fā)展貢獻力量。
速度慢、算不準 傳統(tǒng)算法短板不容忽視
隨著數(shù)字化時代的全面到來,越來越多的企業(yè)開始將應用向云端遷移,而且從外圍輔助型應用,逐步深入到生產(chǎn)和決策等核心業(yè)務系統(tǒng),而AWS作為全球最大的云服務商,為全球數(shù)百萬企業(yè)提供了安全性高、擴展性強、可靠性高的云基礎設施,同時,還提供了來自全球數(shù)據(jù)中心的超200種功能服務,搭建了極具活力的生態(tài)系統(tǒng),其較高的整體網(wǎng)絡質(zhì)量,低延遲、低數(shù)據(jù)包丟失,應用程序靈活度高等特點滿足了公共事業(yè)政府部門、傳統(tǒng)企業(yè)、老牌互聯(lián)網(wǎng)企業(yè)、創(chuàng)業(yè)科技公司等不同機構(gòu)企業(yè)的多元化需求。由于云計算彈性好、帶寬大、算力高、按需付費的特點,似乎十分適合基因測序分析的場景,在AWS平臺上,此前也確實有部分大規(guī)模測序分析算法運行,比如一些基于BWT的算法,然而卻少有在精準醫(yī)學和科研中的實際應用,因為應用體驗其實算不得好,主要集中在速度慢、算不準兩個問題上。
當前主流的二代基因測序是將DNA或RNA隨機打斷成無數(shù)個小片段進行并行測序,數(shù)據(jù)量極大,一個人全基因組測序數(shù)據(jù)集動輒高達300GB以上,采用通用壓縮算法可將其壓縮至1/4,上傳仍然需要幾個小時,傳完還得解壓。隨后,需要進行序列過濾、序列比對、統(tǒng)計檢驗、數(shù)據(jù)庫匹配等大量計算才能得出有意義的檢測結(jié)果,傳統(tǒng)算法運算效能不高,例如基因組突變搜尋常需要幾十個小時才能跑完整個流程。為了提升算法的速度,國內(nèi)有云計算服務商部署了FPGA硬件加速的基因測序分析系統(tǒng),但此類分析系統(tǒng)成本高昂、應用單一,難以適應日新月異的應用需求。盡管如此,其單任務處理速度耗時依然較長,例如分析完成一個人全基因組測序數(shù)據(jù)集(不計網(wǎng)絡傳輸)仍需接近2個小時,這種速度顯然無法適應精準醫(yī)學時代每天海量樣品的分析需求。此外,傳統(tǒng)測序分析算法參數(shù)復雜,如若沒有相應的專業(yè)知識和經(jīng)驗試錯,不易設置最優(yōu)化的參數(shù),從而直接影響檢出率和準確率。因此,企業(yè)寧愿自行購買維護昂貴的服務器集群、花大價錢雇傭生信分析員在本地進行分析,也極少愿意在實際業(yè)務中使用云平臺。
FANSe在AWS公有云平臺上線 為基因測序行業(yè)降本增效
FANSe算法由承啟生物全自主研發(fā),歷經(jīng)多次更新迭代,如今已發(fā)展到第四代,在基因組突變搜尋、轉(zhuǎn)錄組定量等常見應用中,其準確度和穩(wěn)健性顯著超越傳統(tǒng)算法,是迄今為止穩(wěn)健性和準確性最高的比對算法。在運行速度上,其曾創(chuàng)下并至今保持了單機5分鐘分析完一個30X人全基因組測序數(shù)據(jù)集的世界紀錄。承啟還自主開發(fā)了專用于FANSe的壓縮算法,能將測序數(shù)據(jù)壓縮至最高1/20進行傳輸,成倍降低了網(wǎng)絡傳輸耗時,且無需解壓即可被FANSe處理。承啟生物自主搭建的基于FANSe算法的私有云平臺表現(xiàn)出了優(yōu)異的性能,用戶不必購買服務器,也不必掌握艱深的生物信息學知識,點點鼠標即可完成測序分析,得到穩(wěn)健而精準的結(jié)果。但在私有云上由于帶寬的限制,隨著使用承啟云分析的客戶增多,就會出現(xiàn)數(shù)據(jù)"扎堆"傳不上,帶寬被"擠爆"的現(xiàn)象,這時,即使是FANSe這類快速精準的算法也失去了用武之地。
如今,基于FANSe算法的基因測序分析云平臺"搬"到了AWS公有云平臺上,首先解決的就是網(wǎng)絡帶寬問題。公有云分布式的網(wǎng)絡總帶寬極大,可以承載很多用戶海量數(shù)據(jù)的同時上傳,這對FANSe算法來說無疑是"如虎添翼",其極為高效的優(yōu)勢在公有云彈性大的特點下得以充分展現(xiàn):單任務完成速度快,小規(guī)模的應用上傳完畢稍等片刻即可得到結(jié)果,大型應用如全基因組測序分析也只是需要調(diào)用更多的計算核心而已。且FANSe完全不需要任何FPGA、GPU等硬件加速,僅靠CPU運算就可實現(xiàn)如此高的速度,通用性較好,云服務商也無需專門配置專用硬件,在現(xiàn)有硬件上就可以良好運行,易于不斷升級來適應層出不窮的新應用。
其次,基于FANSe算法的基因測序分析云平臺在AWS上的成功運行,可以讓來自全球的基因測序企業(yè)和科研機構(gòu)在滿足各國敏感數(shù)據(jù)不出境的法律法規(guī)要求下享有精準高效的分析服務,此前,由于涉及人類遺傳資源,許多國家和地區(qū)政府立法規(guī)定基因測序數(shù)據(jù)和樣本不允許出境,這也就使得很多境外企業(yè)和科研機構(gòu)不能應用FANSe云平臺進行基因測序數(shù)據(jù)分析。而由于AWS平臺在各國都設有數(shù)據(jù)中心,完美地符合法律法規(guī)要求,就可以讓全世界都獲得基于FANSe算法的基因測序分析服務,從而推動全球基因測序、精準醫(yī)學行業(yè)的快速發(fā)展。
于企業(yè)而言,F(xiàn)ANSe在AWS的成功運行可以為其實現(xiàn)降本增效,而對于承啟生物而言,在如今中美貿(mào)易戰(zhàn)、科技戰(zhàn)愈演愈烈的國際大背景下,純國產(chǎn)自主研發(fā)的技術能獲得全球最大云服務商的高度認可并全球部署,是中美基因測序行業(yè)逆向技術溢出效應的一個良好開端,未來,承啟生物將繼續(xù)深耕組學技術領域,以更多的國產(chǎn)創(chuàng)新技術助推行業(yè)發(fā)展,在世界舞臺上發(fā)出更多的中國聲音,賦能"精準醫(yī)學更精準"。