

基因组质量评估:(五)mapping法:4. 观察mapped reads的深度分布
source link: https://yanzhongsino.github.io/2022/07/27/omics_genome_quality.assessment_mapping_depth_observe/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

基因组质量评估:(五)mapping法:4. 观察mapped reads的深度分布
2022-07-27omics , genome , quality assessment
7
1.4k
1 mins.
1. 前情提要:mapping和depth
此篇博客在已经通过mapping获得SAM/BAM文件,且进行深度统计获得深度分布文件的基础上进行分析,
- 关于mapping获得SAM/BAM文件的操作可以参考博客:
- 关于通过SAM/BAM文件统计深度分布可以参考博客:
基因组质量评估:(五)mapping法:3. 统计mapped reads的深度分布
2. 深度分布
- 在测序是随机分布的情况下,期望在基因组的所有染色体上,mapped reads的depth是均匀分布的。
- 把reads回mapping到组装好的基因组,通过计算depth,观察depth在基因组上的分布来判断组装的质量。
3. 评估对象
用clean reads映射(mapping)回组装好的初始基因组,然后查看mapping的效果。
- 如果是长度不长的细胞器基因组,或者核基因组的特定位置,可以在IGV直接查看mapping情况。
- 如果是大的核基因组,则考虑过滤mapping得到的sam/bam文件,然后计算深度和其他统计值来评估质量。
4. 查看深度
4.1. 背景
- 由于叶绿体基因组结构稳定,较少需要用这种方式评估组装质量;核基因组较大,肉眼观察不可实现,所以此方法多用于线粒体基因组组装质量和核基因组部分区域的评估。
- 在核与细胞器同时测序情况下,由于数量分布差异,期望测序深度是叶绿体>线粒体>核基因,且三者差异是数量级级别的。
- 评估线粒体基因组时,可以考虑是否有叶绿体/核的reads映射到基因组上,并同时考虑水平基因转移的可能性。
4.2. 深度分布的查看
可以在IGV等bam文件可视化的软件里直观地查看mapped reads的深度分布。
期望深度在全基因组范围保持相当,如果有极端高/低的深度,则怀疑组装错误,或者映射了错误的reads,反映了错误或者特定特征的mapped reads。
- 如果基因组上存在重复序列,组装时只得到其中一个拷贝,则在这个拷贝处的mapped reads深度会是附近序列的两倍(三个拷贝就三倍)。
- 重复序列一般只分析超过100bp(或者>50bp)的情况,这可以和核基因转移到线粒体的情况区别开。
- 重复序列之间非常接近,但不一定是完美匹配。
- 水平基因转移【线粒体】
- 显著高的深度可能是叶绿体的reads。
- 显著低的深度可能是核的reads。
- 轻微高的深度可能是核转移到线粒体的情况(一般这种情况映射到的序列不长,<100bp)。可以调整参数,只保留映射超过100bp的reads即可排除这种情况。
- 异质性【线粒体】
由于一个细胞中有多个细胞器,细胞器之间还可能存在不同构象或不同碱基的位点。这种情况的存在称为细胞器的异质性(不常见)。
具有异质位点的细胞器基因组的证据:
- 排除重复序列映射的可能性。
- 异质位点映射的reads包含两种(也可能多种,以下同)碱基,一般少数种的占比超过5%就可能算异质性了。
- 异质位点映射的reads的两种碱基的深度加起来应该与周围位点的深度相当。
- 异质位点映射的reads不全都很短(>100bp),双端测序的最好是成对映射。
- 异质位点周围的位点映射了同一read,且周围位点的mapping效果很好(单一碱基,均匀深度)。
- 欢迎关注微信公众号:生信技工
- 公众号主要分享生信分析、生信软件、基因组学、转录组学、植物进化、生物学概念等相关内容,包括生物信息学工具的基本原理、操作步骤和学习心得。

Recommend
-
18
本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢. 正文字数:4964 阅读时长:7分钟 在这篇博客文章中,我们介绍了一种新的基于计算视频多方法评估融合(VMAF)百分位数的视觉质量评估方法...
-
14
腾讯会议系统中,视频质量是影响用户体验的主要因素,对视频质量进行评估和优化是吸引和留住用户的关键。在开发腾讯会议质量评估系统的过程中,有哪些技术难点和相应的解决方案?本次分享共包括四部分,第一部分是视频质量评估的背景介绍...
-
9
基因组质量评估:(一)概述 2022-07-10...
-
7
1. LAI简介1.1. LAI 关于重复序列和LTR的相关知识可以参考博客:基因组注释(一):重复序列注释:...
-
4
1. 基因组评估的方法——mapping法把测序reads与组装好的基因组做alignment,这个操作常被称为mapping。mapping之后生成SAM/BAM格式文件,通过分析SAM/BAM格式文件,获取reads mapping回参考基因组的信息(比如mapping ra...
-
8
1. mapping rate通过mapping把reads与组装好的基因组进行alignment,然后分析mapped reads的sam/bam格式文件,统计mapping rate来评估基因组组装质量。期望mapping rate越接近100%,组装质量越高。
-
7
1. QualiMap简介 2. QualiMap的模块 bamqc模块(BAM QC):用于单个NGS样本bam文件的QC统计。 rnaseq模块(RNA-seq QC):用于转录组RNA-seq样本bam...
-
5
1. bamdst简介bamdst(
-
12
1. mosdepth简介mosdepth(https://github.com/brentp/mosdepth)是用于WGS,exome,targeted...
-
5
基因组质量评估:(五)mapping法:3. 统计mapped reads的深度分布 2022-07-27
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK