AI助力空間轉(zhuǎn)錄組研究再升級!SpaSEG模型重磅發(fā)布
想象一下,我們想了解一座城市的運作模式。如果只拿到一份所有建筑物的清單,是不是很難理解商業(yè)區(qū)、住宅區(qū)和工業(yè)區(qū)是如何協(xié)同工作的?但如果有一張高清衛(wèi)星地圖,所有功能區(qū)一目了然,城市的秘密便豁然開朗。
在生命科學(xué)研究中,科學(xué)家們也面臨著類似的挑戰(zhàn)?;驕y序就像那份“建筑物清單”,它告訴我們組織里有哪些細胞和基因,卻丟失了它們在組織內(nèi)的“空間地址”??臻g轉(zhuǎn)錄組學(xué)技術(shù),如同為生命組織繪制“高清衛(wèi)星地圖”,它能同時捕捉基因信息和其空間位置,為我們揭示細胞如何“安家落戶”、相互“溝通”,從而推動我們對發(fā)育、衰老和疾?。ㄓ绕涫前┌Y)的理解。
然而,如何從這些復(fù)雜如星空圖譜的數(shù)據(jù)中,快速、準確地解讀出有價值的生物學(xué)信息,一直是該領(lǐng)域的核心挑戰(zhàn),尤其是在面對不同技術(shù)平臺產(chǎn)生的不同形式的數(shù)據(jù)以及龐大的數(shù)據(jù)規(guī)模時。
為應(yīng)對這一挑戰(zhàn),來自基因組多維解析技術(shù)全國重點實驗室和深圳華大生命科學(xué)研究院的科研團隊,成功研發(fā)了一款名為SpaSEG的AI“解碼器”。這項于7月29日發(fā)表在Genome Biology上的研究,為空間轉(zhuǎn)錄組分析提供了一個功能強大的統(tǒng)一框架。SpaSEG能夠處理多項核心任務(wù),包括識別組織空間結(jié)構(gòu)域、檢測空間高變基因、整合多張組織切片以及解析細胞間的相互作用。
Genome Biology?官網(wǎng)截圖
簡單來說,SpaSEG就像是一個訓(xùn)練有素的“AI分析師”,能夠根據(jù)復(fù)雜的空間轉(zhuǎn)錄組數(shù)據(jù),自動識別出組織中的功能分區(qū)(如不同結(jié)構(gòu)或病灶區(qū))、找到基因表達存在空間差異的區(qū)域、拼接多個組織切片,并推斷細胞之間的通信模式。
這款模型的獨特之處在于,它首次將空間轉(zhuǎn)錄組數(shù)據(jù)“圖像化”處理,借助卷積神經(jīng)網(wǎng)絡(luò)(CNN)——一種常用于圖像識別的AI技術(shù)——對組織結(jié)構(gòu)進行“看圖識區(qū)”。這一方法不僅更智能,而且具有更強的適應(yīng)性和處理速度,突破了傳統(tǒng)工具在兼容性、精度和運算效率上的瓶頸。
SpaSEG 模型架構(gòu)及多任務(wù)下游分析
跨平臺、多尺度分辨率兼容
SpaSEG最突出的優(yōu)勢之一,是其顯著的跨平臺兼容性和處理多尺度分辨率數(shù)據(jù)的能力。實驗表明,SpaSEG在面向Stereo-seq (覆蓋從Bin200到Bin20的多種分辨率)等多種平臺不同分辨率的空間轉(zhuǎn)錄組數(shù)據(jù)時,識別空間結(jié)構(gòu)域時的準確性均顯著優(yōu)于現(xiàn)有方法。
其高計算效率和低內(nèi)存消耗的特性在處理大規(guī)模Stereo-seq數(shù)據(jù)時表現(xiàn)也表現(xiàn)出眾。例如,在處理一個包含超8萬個數(shù)據(jù)點的Stereo-seq Bin50數(shù)據(jù)集時,SpaSEG的分析速度比SpaGCN快了約26倍。面對包含超52萬個數(shù)據(jù)點的Stereo-seq Bin20超大規(guī)模數(shù)據(jù)集,其速度依然比Leiden快2.5倍。
跨平臺多尺度分辨率的組織空間結(jié)構(gòu)域識別
多切片整合,支持3D建模
SpaSEG通過精準對齊相鄰組織切片的空間坐標和基因表達模式實現(xiàn)了跨切片空間結(jié)構(gòu)域?qū)R,從而支持3D組織結(jié)構(gòu)重建。在小鼠嗅球Stereo-seq數(shù)據(jù)中,SpaSEG成功對齊了多個解剖結(jié)構(gòu),對齊精度提升了20%-30%,且無需依賴復(fù)雜的對齊算法。?
發(fā)現(xiàn)空間可變基因
SpaSEG通過組織空間結(jié)構(gòu)域的識別結(jié)果能高效地檢測出與特定空間結(jié)構(gòu)相關(guān)的空間可變基因,從而揭示不同解剖區(qū)域的基因表達模式。在小鼠胚胎Stereo-seq數(shù)據(jù)中,SpaSEG識別出252個空間可變基因,并驗證其生物學(xué)意義。SpaSEG在多個評分指標上對比其他方法有所提升,且計算時間大幅縮短。
揭示細胞“通信”網(wǎng)絡(luò)
SpaSEG還可以結(jié)合配體-受體互作數(shù)據(jù)庫,推測出細胞之間可能存在的信號傳遞通路。其在乳腺癌樣本中的應(yīng)用進一步揭示了腫瘤組織中免疫細胞與其他細胞之間的復(fù)雜交互,為理解腫瘤微環(huán)境提供了新思路??傊?,SpaSEG通過創(chuàng)新的無監(jiān)督深度學(xué)習(xí)架構(gòu),為空間轉(zhuǎn)錄組學(xué)領(lǐng)域提供了統(tǒng)一的多任務(wù)解決方案。它不僅在方法學(xué)上引入了圖像分割的全新思路,更在技術(shù)應(yīng)用層面解決了四大核心分析任務(wù)。尤其值得注意的是,其處理超大規(guī)模數(shù)據(jù)的速度實現(xiàn)了2.5到26倍的顯著提升,展現(xiàn)出了巨大的實際應(yīng)用價值。當(dāng)前,SpaSEG 已集成到華大 Stereo-seq時空測序配套軟件 Stereopy軟件中,為探索復(fù)雜生命過程提供了高效的工具。
Stereopy官網(wǎng)截圖
(https://stereopy.readthedocs.io/en/v1.6.0/Tutorials(Multi-sample)/SpaSEG.html)
?
基因組多維解析技術(shù)全國重點實驗室、深圳華大生命科學(xué)研究院的白勇副研究員、劉傳宇研究員和金鑫研究員為論文共同通訊作者。白勇、深圳華大生命科學(xué)研究院郭翔宇和劉可茵為論文共同第一作者。本項目獲得國家重點研發(fā)計劃資助。本研究使用的數(shù)據(jù)均為已發(fā)表的公開數(shù)據(jù)集。本研究已通過倫理審查,嚴格遵循相應(yīng)法規(guī)和倫理準則。
編輯:李麗


本文系作者 @wzh 原創(chuàng)發(fā)布在 肽度TIMEDOO。未經(jīng)許可,禁止轉(zhuǎn)載。