近日,中國科學(xué)技術(shù)大學(xué)生命科學(xué)與醫(yī)學(xué)部瞿昆教授課題組、北京生命科學(xué)研究所黎斌研究員課題組,以及中國科學(xué)技術(shù)大學(xué)數(shù)學(xué)科學(xué)學(xué)院陳發(fā)來教授課題組聯(lián)合完成了一項大規(guī)模研究。他們通過對百萬量級單細胞多組學(xué)數(shù)據(jù)進行分析,系統(tǒng)評估了14種單細胞模態(tài)預(yù)測算法和18種單細胞多組學(xué)整合算法的性能。該研究成果以題為“Benchmarking algorithms for single-cell multi-omics prediction and integration”的論文,于2024年9月25日在線發(fā)表于國際知名學(xué)術(shù)期刊《Nature Methods》。

單細胞多組學(xué)技術(shù)(如CITE-seq、REAP-seq、SHARE-seq和10x Multiome等)的發(fā)展,為深入理解細胞功能和復(fù)雜的基因調(diào)控機制提供了前所未有的機遇。然而,濕實驗方法通常伴隨高成本、數(shù)據(jù)質(zhì)量有限以及批次效應(yīng)等挑戰(zhàn)。為克服這些局限,生物信息學(xué)家基于統(tǒng)計模型和人工智能技術(shù),開發(fā)了多種算法。這些算法不僅能夠利用單細胞轉(zhuǎn)錄組數(shù)據(jù)推斷同一細胞內(nèi)的蛋白質(zhì)豐度和染色質(zhì)可及性信息,還通過將不同模態(tài)的數(shù)據(jù)映射到統(tǒng)一的特征空間實現(xiàn)數(shù)據(jù)整合,去除批次效應(yīng)。這些工具大大提升了現(xiàn)有單細胞數(shù)據(jù)的解析能力。然而,面對海量數(shù)據(jù)和眾多算法,研究人員往往難以判斷哪些工具最適合他們的研究,因此,對這些算法進行基準測試(benchmarking)尤為重要。
在本次研究中,團隊收集了來自47個數(shù)據(jù)集的上百萬個單細胞多組學(xué)數(shù)據(jù),涵蓋多個生物樣本和實驗平臺。他們設(shè)計了一套全面的評估流程,結(jié)合算法的準確性、魯棒性和計算資源消耗等多維度指標,系統(tǒng)評估了領(lǐng)域內(nèi)最常用的算法。結(jié)果顯示,在蛋白質(zhì)豐度預(yù)測方面,totalVI和scArches表現(xiàn)最為優(yōu)異;在染色質(zhì)可及性預(yù)測中,LS_Lab算法排名領(lǐng)先。在多組學(xué)整合分析中,Seurat、MOJITOO和scAI在垂直整合上表現(xiàn)突出,而totalVI和UINMF在水平整合和馬賽克整合任務(wù)中展現(xiàn)了卓越性能。這一研究不僅為算法設(shè)計提供了新思路,還為未來多組學(xué)數(shù)據(jù)的分析和應(yīng)用奠定了重要基礎(chǔ)。為幫助科研人員選擇合適的分析工具,研究團隊在GitHub上發(fā)布了完整的分析流程、代碼和測試數(shù)據(jù)集,供同行使用和改進。
研究團隊還通過深入探討這些算法的數(shù)學(xué)原理,發(fā)現(xiàn)降噪處理是提高單細胞數(shù)據(jù)預(yù)測精度的關(guān)鍵。在性能評估中,機器學(xué)習(xí)算法(如基于奇異值分解的LS_Lab和Guanlab-dengkw)以及基于概率模型的深度學(xué)習(xí)算法(如totalVI)均表現(xiàn)出顯著優(yōu)勢。然而,研究還指出,現(xiàn)有模態(tài)預(yù)測算法在某些關(guān)鍵蛋白的預(yù)測性能上仍有待提升,染色質(zhì)可及性預(yù)測的準確性也需進一步優(yōu)化。

圖.評估流程示意圖
該研究由瞿昆教授、黎斌研究員和陳發(fā)來教授共同指導(dǎo)并擔任通訊作者,博士后胡銀雷、博士生萬思遠和羅袁涵宇為共同第一作者。該研究得到了國家自然科學(xué)基金、科技部重點研發(fā)專項等多項資助,中國科學(xué)技術(shù)大學(xué)超級計算中心及生命科學(xué)學(xué)院生物信息學(xué)中心為項目提供了關(guān)鍵計算資源支持。
在組學(xué)大數(shù)據(jù)時代,對復(fù)雜數(shù)據(jù)的精確解析需要依賴生物學(xué)與數(shù)學(xué)、計算機科學(xué)的深度融合??鐚W(xué)科合作不僅推動了生物醫(yī)學(xué)領(lǐng)域的創(chuàng)新發(fā)展,也為未來研究提供了新的可能性。此次研究的成功正是多學(xué)科背景團隊密切合作的結(jié)果,充分展示了學(xué)科交叉在現(xiàn)代生物學(xué)研究中的重要性。通過這樣的合作,研究團隊期望進一步推動單細胞多組學(xué)技術(shù)在科學(xué)研究中的廣泛應(yīng)用,為基礎(chǔ)研究和臨床應(yīng)用提供新的洞見。
論文鏈接:https://www.nature.com/articles/s41592-024-02429-w
(生命科學(xué)與醫(yī)學(xué)部、數(shù)學(xué)科學(xué)學(xué)院、科研部)