多细胞生物体可以被视作由相互连接的细胞组成的复杂空间网络。每个细胞的位置与其内在特性同样重要,它们共同决定了组织的功能发挥及疾病状态下的功能障碍。空间组学技术能够以单细胞精度全面描绘细胞在组织中的原位排列,因此成为解析组织中细胞协作与功能的重要工具。
空间组学不仅提供了细胞内的基因表达信息,还能揭示细胞所处的空间环境。然而,如何解析细胞内外信息的关联,仍是理解空间组学的核心难题。现有计算模型通常将细胞内部信息与空间环境信息混合建模,这不仅会引入模糊性,也阻碍了对细胞内外关联机制的深入研究。此外,随着空间组学技术的发展,数据规模持续扩大,现有方法在处理大规模细胞通量时存在瓶颈。
针对上述挑战,2025年8月27日,北京大学/昌平实验室高歌课题组于Nature Communication发表题为“Disentangled cellular embeddings for large-scale heterogeneous spatial omics data”的研究论文,提出了空间组学建模的解耦建模的新方法DECIPHER。相较以往方法,DECIPHER具有下列两点优势:可扩展至千万细胞规模的空间图谱;能解析细胞内在的基因程序与细胞外在空间环境间的关联。
论文截图
组学数据的准确表示(representation)是各种下游任务的重要基石。高歌课题组此前已开发多种对单细胞组学数据的表示学习方法,包括针对单细胞转录组数据表示方法Cell BLAST(Nature communication,2020),以及单细胞多组学数据表示方法GLUE(Nature Biotechnology,2022)和CLUE (NeurIPS Oral,2023)。
而针对新兴的空间组学数据,DECIPHER采用了双编码器结构:组学编码器用于建模细胞自身的身份特征,空间编码器用于建模细胞所处的空间环境。其中,空间编码器引入了Transformer架构,使其能够高效处理规模不断增长的空间数据。整个模型通过多尺度对比学习进行自监督训练(见图1),实现了对空间组学数据的精准表示。
图1 DECIPHER模型的结构示意图
小鼠大脑3D空间图谱包含超过300万细胞和200张空间切片(图2a),远超现有空间组学计算方法的处理能力。相比之下,DECIPHER仅需数小时即可完成建模。DECIPHER的结果不仅能够准确重建细胞类型,还能精确再现大脑中的空间区域(图2b),同时清晰反映不同细胞类型在各大脑区域的空间特异性分布(图2c)。
图2 DECIPHER适用于图谱规模的空间数据
为了进一步从DECIPHER的解耦表示中揭示细胞内外的关联,本研究构建了一个可解释的机器学习模型,用于挖掘对细胞空间位置具有关键作用的信号分子,例如调控细胞通讯的配体-受体对。以B细胞为例,其成熟过程需要迁入淋巴结的生发中心。我们希望识别出在这一过程中的关键调控分子。基于DECIPHER表示,识别出CXCR4–CXCL12和CXCR5–CXCL13为与B细胞空间定位最关键的配体-受体对。而实验研究也已充分证实,这两对配体-受体对B细胞定位到生发中心的亮区(light zone)和暗区(dark zone)至关重要。
图3 基于DECIPHER解耦表示揭示细胞内外信息的关联
DECIPHER为从空间组学数据中探索细胞基因表达程序与空间环境的关联提供了全新视角,对深入理解细胞空间功能调控具有重要意义。该模型的全部代码已开源发布(https://github.com/gao-lab/DECIPHER),用户可通过PyPI平台直接安装使用。
高歌课题组北京大学生命科学学院博士生夏辰睿为该论文第一作者,博雅博士后曹智杰博士(已出站)为该论文共同通讯暨共同第一作者。该研究得到了国家重点研发计划、基因功能与调控国家重点实验室、北京未来基因诊断高精尖创新中心和昌平实验室的资助。计算分析工作于昌平实验室高性能计算平台、北京大学太平洋高性能计算平台与北京大学高性能计算校级公共平台完成。
本文链接:http://knowith.com/news-3-3756.html高歌团队提出细胞内外信息的解耦表示方法
声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。