8

Cellrank,基于马尔可夫过程和RNA速率的细胞命运预测

 3 years ago
source link: https://zhuanlan.zhihu.com/p/272280684
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

前不久Dana Pe'er 终于在biorxiv上发布了她和Fabian Theis合作的工作——cellrank,这项工作结合了她们自己实验室之前在NBT的工作(Planiter)以及RNA velocity来推定各种细胞分化到稳定的细胞类型(terminal cell state)的可能性,同时依据细胞在马氏链上的转移特性来估算哪个处于分化的起始位点。考虑到近期的课题组汇报,这里将Cellrank相关的工作系统的总结一下,同时来好好探讨一下该如何理解单细胞中的differential trajectory。因为全文内容预计很长,我将分阶段写,分四部分完成。主要分为以下四个内容

  1. 细胞轨迹分析(cell differential trajectory)
  2. RNA velocity
  3. 细胞命运的概离预测与马氏链
  4. CellRank 模型

1. 我们该如何理解细胞轨迹分析(cell differential trajectory)

1.1 从跳水开始说起

在单细胞转录组测序中(scRNA-seq),我们得到一堆细胞的表达谱矩阵,对于细胞状态(cell state)的识别可以通过无监督聚类的方式实现。但对于一些涉及细胞发育,衰老的系统,例如胰腺腺体细胞发育等,这些系统中其实存在着从一个细胞类型分化至另外一种细胞类型的过程。那么一个重要的问题随之而来,该如何通过单细胞表达谱信息来预测细胞状态转移的过程?在回答这个问题之前,我想先让大家看一张Fabian的博士生Volker在broad一次seminar中使用的slide

MRjUnmE.jpg!mobile

从这个slide的右图我们可以看到一个跳水的人从高空落下,那么其 受重力驱动,呈现不断翻转垂直向下运动的过程。 想象一下我们有个高速摄像机能够捕捉这个人在跳水的全过程的照片,假如现在给你一个任务将这些照片按照顺序进行排列,该怎么做?

其实很简单,我们只需要看每张照片人动作的连贯性就能判断哪张照片后面应该接着哪张照片。因而对于单细胞的轨迹分析,我们只需看每个细胞之间的表达谱相似性就能对这些细胞按照一定的相似性的远近进行排列,那么这些细胞排列出来的序列即是细胞状态转移的可能序列。但这仅仅是序列而非顺序,区别在于我并没有确定这个序列的方向,也就是哪些细胞的所处状态在分化的起始前,哪些细胞所处状态在分化后。一种比较简单的策略是通过判断一些细胞干性(cell stemness)相关的marker来进行,但对于一些组织的未知的祖母细胞,可能并没有很好标志物来帮助我们判断。

回到跳水的人这个例子,我们都知道人在跳水的整个过程中是受重力影响而下落,所以我们可以很容易的画出其轨迹方向,因而对于每幅图片,我们可以评估照片中人所处的可能的重力势能来判断这个照片序列从哪一头先开始。所以对于细胞轨迹分析而言,我们可否提出类似重力势能的这种概念,例如分化势能(differential potency)来判断轨迹的起始位点呢?

1.2 Waddington Landscape

MRJvMnB.jpg!mobile

其实类似的概念早在1957年被Waddington在他的The Strategy of the Genes 这本书中就有所提到,waddington可视化了胚胎中的一个细胞的发育历史,用滚下“landscape”的球(细胞)为代表。 随着球的滚动,球对走哪条路有多种“选择”-正如发育中的胚胎受各种遗传和环境因素沿某些“路径(trajectory)”影响–到达地底时, 会做出几个这样的“选择”。 沃丁顿将允许的路径称为“ chreodes”(称为“追击导弹所沿着的路径,该路径能找到静止的目标”)。 基本概念是,整个发育的“landscape”受基因-基因互作网络的影响,并且甚至可以扰乱发育(例如,将球推上山脊),但仍达到稳态 (“山谷”的底部),形成成熟的分化好的细胞类型。

因而Waddington告诉我们,其实每个细胞都有内在的分化势能,这个势能可能决定了它在这个山谷的顶端还是底端,而它与基因的调控作用有关,这为利用表达数据去估计该势能提供了一定的理论上的参考依据。在15-19年,有相当的工作先后提出cell entropy或differential score来评估这种differential potency。一种比较经典的假设在于,在细胞的分化早期,细胞的多能性决定了它可能会激活多种通路,但在分化末期的时候因为细胞高度分化成执行特定功能的细胞,因而其只会特异性的激活一种或一类通路。所以如何评估一个细胞激活其pathway的分布特征,可以帮助我们评估这个细胞是否具有较高的分化潜能。直观的我们可以理解,当一个细胞具有激活多种pathway的潜在可能性,这种分布应该具有较高的信息熵,所以细胞分化熵的概念也就呼之欲出(cell differential entropy),这一概念在单细胞上的应用最早应该追溯到16年Guo et al发表在NAR上的SLICE这项工作。2017年 Andrew E Teschendorff 在nature communication上发表了类似的工作,他结合PPI和单细胞表达数据构建了细胞特异的网络熵来评估分化潜能。另一方面,这种表达上的特殊变化也可以直接通过表达分布本身去反应,如Feng Zhang et al在2020年发表在cell report上的工作指出,如果我们把一组有着分化早期和晚期细胞的表达谱放在一起做PCA的时候,处于分化早期的细胞其PC-score的分布会更加趋向极端。

r2aUFvr.jpg!mobile

(未完待续...)


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK