近日,中國科學技術(shù)大學瞿昆教授課題組成功開發(fā)了一種基于深度學習的空間轉(zhuǎn)錄組數(shù)據(jù)分析算法,命名為SPACEL。該算法能夠快速高效地處理多個空間轉(zhuǎn)錄組切片數(shù)據(jù),包括準確預測單個空間點內(nèi)的細胞類型組成、精準識別跨切片的功能性空間域,以及有效重構(gòu)復雜組織的三維結(jié)構(gòu)。研究成果以《SPACEL: deep learning-based characterization of spatial transcriptome architectures》為題,發(fā)表于2023年11月22日的《自然-通訊》(Nature Communications)雜志。

空間轉(zhuǎn)錄組技術(shù)具備同時獲取基因表達水平和其空間位置信息的能力,目前被廣泛應用于生物醫(yī)學研究的各個領(lǐng)域。然而,有效分析由空間轉(zhuǎn)錄組技術(shù)產(chǎn)生的大量數(shù)據(jù)仍然面臨著巨大挑戰(zhàn),例如如何準確識別在基因表達和空間位置上相互關(guān)聯(lián)的細胞或點的集群,即所謂的空間域,以描繪組織切片內(nèi)的全轉(zhuǎn)錄組空間結(jié)構(gòu)。此外,如何精確鑒定類似于腫瘤微環(huán)境這樣復雜系統(tǒng)中的功能性空間域,以及如何整合多個切片的數(shù)據(jù)進行上述分析也是挑戰(zhàn)之一。
瞿昆教授課題組開發(fā)的SPACEL算法包括三個核心模塊:Spoint、Splane和Scube,分別對應空間轉(zhuǎn)錄組數(shù)據(jù)分析的三個關(guān)鍵任務(wù)。Spoint模塊用于預測基于測序的空間轉(zhuǎn)錄組數(shù)據(jù)(如10X Visium)中空間點的細胞類型組成。Spoint采用了單細胞數(shù)據(jù)模擬的空間點、神經(jīng)網(wǎng)絡(luò)模型和統(tǒng)計模型的組合,為估算真實空間轉(zhuǎn)錄組數(shù)據(jù)中的細胞類型比例提供了更穩(wěn)健和準確的框架。Splane模塊則使用細胞類型組成和空間坐標信息,引入了對抗訓練到圖卷積神經(jīng)模型中,顯著減少了批次效應,從而實現(xiàn)更穩(wěn)健和高效的空間域識別。對于包含連續(xù)切片的空間轉(zhuǎn)錄組數(shù)據(jù)集,Scube模塊使用Splane識別的空間域坐標進行對齊,以構(gòu)建組織的三維結(jié)構(gòu)。Scube采用全局優(yōu)化策略來實現(xiàn)三維對齊,同時保持整體結(jié)構(gòu)的完整性,使其能夠?qū)崿F(xiàn)更精確的對齊。
研究人員將SPACEL應用于11個包括10X Visium、STARmap、MERFISH、Stereo-seq和Spatial Transcriptomics技術(shù)的空間轉(zhuǎn)錄組數(shù)據(jù)集,總計156個切片。SPACEL在細胞類型組成預測、空間域識別以及組織三維結(jié)構(gòu)重構(gòu)等三個核心分析任務(wù)上表現(xiàn)出色,明顯優(yōu)于其他同類算法。

圖1.SPACEL算法的工作流程
生醫(yī)部瞿昆教授、林俊副研究員和北京生命科學研究所黎斌研究員為本文的通訊作者,微尺度研究中心博士生許浩和大數(shù)據(jù)學院碩士生王姝妍為本文的共同第一作者。生醫(yī)部薛天教授課題組為該工作提供了重要支持。這一研究工作得到了基金委杰出青年基金、國家重點研發(fā)計劃、基金委自然科學基金、中國科學院基礎(chǔ)研究青年團隊以及安徽省科技重大專項等多個項目的資助。
論文鏈接:https://www.nature.com/articles/s41467-023-43220-3
(合肥微尺度物質(zhì)科學國家研究中心)