3月13日,英國曼徹斯特大學、牛津大學科研團隊在學術期刊《美國科學院院刊》發(fā)表成果,他們開發(fā)出一種人工智能框架,能夠從大量數(shù)據中快速識別出未來可能存在風險的病毒基因組,可識別和追蹤新冠肺炎病毒新型變體,有助于應對病毒傳播。

英國使用人工智能來識別新冠病毒新變體-肽度TIMEDOO

自新冠肺炎爆發(fā)以來,全球已出現(xiàn)了多波新變種,傳播性、免疫反應逃逸程度不斷增強,導致疾病嚴重程度不斷增加。與許多其他RNA病毒一樣,新冠病毒突變率高、進化速度極快,識別可能出現(xiàn)的病毒新株需要付出相當大的努力。科學家正努力研發(fā)新方法,試圖在阿爾法、德爾塔和奧密克戎等令人擔憂的新變種出現(xiàn)的最早階段就將其準確定位,以采取例如精準開發(fā)疫苗等更積極的應對措施,在變異株形成之前消除它。

目前,全球共享流感數(shù)據倡議組織數(shù)據庫可提供所有流感病毒基因組數(shù)據,并且有近1600萬個序列可使用。利用該數(shù)據庫,科學家采用系統(tǒng)發(fā)育分析方法,為追蹤各種病毒的進化譜系和識別新病毒提供了“金標準”。但該方法計算成本高,隨著數(shù)據量增加而難以使用,且需要人工管理來命名新的病毒譜系。英國科研團隊同時應用基因序列表征和降維算法,通過對新冠肺炎病毒的基因序列進行計數(shù),將其分解為較小的“數(shù)”(稱為3個序),并用數(shù)字表示。然后,利用機器學習技術,結合可解釋聚類算法CLASSIX,根據單詞模式將相似的序列分組在一起,揭示大量序列之間的遺傳關系。該方法實現(xiàn)完全自動化計算,僅用兩天時間就處理了570萬個高覆蓋度序列。

科研團隊表示,該研究驗證了機器學習方法可能被用作早期發(fā)現(xiàn)新出現(xiàn)病毒變體的警報工具。與傳統(tǒng)方法相比,該方法的優(yōu)勢在于能夠管理更大數(shù)量級的序列,且成本低、可擴展和可解釋。雖然不能替代當前的系統(tǒng)發(fā)育分析方法,但可用作一種補充的、完全自動化的方法來識別和確認新出現(xiàn)的變異株。此外,與其他聚類方法相比,CLASSIX算法產生的結果與現(xiàn)有的“金標準”方法更加一致,并且使用少量參數(shù),更容易優(yōu)化。

相關論文信息:https://www.pnas.org/doi/10.1073/pnas.2317284121

來源:中國科學報