2

《生信与机器学习兴趣小组》第六次分享讨论贴

 2 years ago
source link: https://ming-lian.github.io/2019/08/19/Bioinfo-ML-Club-6th/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
Like • 8 Comments Issue Page
  • Hua-CM commented on Mon Aug 19 2019

    龙星课程分享

    1. 2012-2013前的fastq数据一定要检查质量格式
    2. BED格式类似gff格式,是用于序列注释的
    3. SAM/BAM值得学习下flag值和CIGAR值
    4. 注意0base的坐标系统和1base的坐标系统(BED使用的是0,gff是1)

    提问阶段感想:

    基因组注释可能有各种问题,要自己搞

    variant call

    1、samtools和GATK的算法不一样
    samtools和GATK的区别回头要学一下
    2、非模式生物用samtools
    3、WGS建议20X以上,WES建议100X以上

    基因组组装

    从头组装和参考组装
    从头组装的两种方式:overlap和DBG图

    三代测序与结构变异是未来值得关注的方向
    二代测序call SV的原理:
    将基因组分成多个区段,看每个区段的reads depth是不是有差异,如果某个区段变异特别大,则很有可能有点SV。
    注:三代建议先拼接再找结构变异

    duplicates的建议:
    RNA-seq不去,基因组测序要去

    几个变异注释软件:
    InterVar/ANNOVAR/Phenolyzer

    每步都有坑:
    样本质控、SNP质控、批次效应校正、多重检验校正

    GWAS是高覆盖度的少样本好,还是低覆盖度的多样本好?结论:低覆盖度的多样本好,可以使用贝叶斯等方法进行校正

    RNA-seq

    与芯片比:不需要先验知识
    样本量:mRNA至少6G,lncRNA至少12G,生物学至少3个
    现在新的流程:STAR+RESM因为一些大的组织用的比较多
    样本间的比对强烈建议TPM

    核心:将生物学的问题转换成图像问题
    特点:数据驱动

  • xyz1396 commented on Mon Aug 19 2019
  • tangchao7498 commented on Tue Aug 20 2019

    关于 VCF 文件中 GT 的 phasing 的问题,phased 之后同一边的 allele 一定来自同一个亲本吗?还是存在 contig 或者 haplotype 的情况在里面?

  • reddeery commented on Thu Aug 22 2019

    分享一下直播中讨论的PCR去重复的思考,简书——讨厌又迷人的reads去重复

  • shengxinzhuan commented on Sun Aug 25 2019

    最近正好在做gwas方面的东西,把最近一点总结作为本次的一个思考,可能有点离题https://www.jianshu.com/p/aeb965dc765e

  • 12kyy123 commented on Sun Sep 01 2019

    这次分享干货满满,伊老师所讲的关于测序的原理以及Blast算法相关的内容都十分有用。

  • zoe106 commented on Sun Sep 01 2019
    二代
    高通量测序中PCR扩增偏向性问题
    
    三代
    单分子,nanopore,不用扩增,奶茶,通过atcg的大小不同,可以从电流量感知出atcg。
    SMRT-Seq 单分子,合成酶固定在小孔,每个碱基进来合成,发光不一样。碱基如果有修饰,时间不一样。
    测序精度不高,错误率比较高。
    所以二代,三代互补。前两天有篇文章,三代的测序精度大大提高了。Helicos公司的Heliscope单分子测序仪、Pacific Biosciences公司的SMRT技术和Oxford Nanopore Technologies公司的纳米孔单分子技术,被认为是第三代测序技术。
    历史的惯性导致会并行一段时间。二代积累的数据很多。
    
    用数字表示几种情况的信息,chmod777读写执行
    hg19 B37不太一样,基因的坐标不一样
    
    TG的坐标
    处理的变异信息,差1bp是因为坐标用错了
    0-based(half open:[3,5)):BED,BAM,PSL dbSNP,Table Browser给计算机看的
    1-based(fully-closed:[4,5]):GFF,VDF,SAM,Wiggle,DAS,Genome Browser给人看的
    
    gff人工注释
    注释文件里,没有UTR,错了几个bp?
    
    基于二代测序,做结构变异的准确率不如三代。
    
    mismatch设置2,是种子区域周围20-30bp,一般设置10bp不能超过3个变异。
    call SNP的2种方法:
    samtools,后验概率,贝叶斯,李恒开发的算法。对非模式,非人的物种合适,MDOP把read从头到尾都一样的都去掉,早期pcr, 桥式pcr
    GATK,mappping后的高变区,read拿出来再拼接。学术界,工业界的公认标准。好。要自己下载变异。有各种模型。
    要deep learning代替VQSR
    joint calling多个人合起来,把人群的信息考虑进去
    做临床:外显子测序100X,WGS20,30X
    ~~~~~~Day2~~~~~~~~~
    BWT
    key: P is T的短序列substring,这样就能在O(1)很短的时间内,知道aP是不是在T内。
    
    
    李恒minimap 2018 
    1kb-250Mbp
    seed,chain,extend
    李恒bwa2还没发文章
    
    
    
    ~~~~~~Day3~~~~~~~~~
    组装
    OLC: pairwise alignment between reads are detected and merged
    de Bruijn graph: reads are decomposed into k-mers adn mergeed
    
    CNV结构变异
    
    NGS-based SV detection 基于read depth, paired reads, split reads, de novo assembly
    read count-based SV detection,软件PennCNV flowchart,Annovar
    三代用来拼接(没有先验知识,不会对结果误导),还是mapping比对
    三代,滚环,一环一个pass,测序准确率低
    
    做CNV的时候要PCR,检测read是要进行GC含量的矫正。GC含量过高过低,会影响检测量。一个DNA模板,测序的时候一不小心生成了临近的2个簇,PCR duplicate要去除这种。桥式PCR检测read的坐标信息,cigar值(插入缺失),碱基组成。做早期pcr的不好使
    
    RNA-Seq不要去,转录本的copy很多。
    基因组重测序要去
    
    
    ~~~~~~Day4~~~~~~~~~
    SNP and sequencing based association
    
    GWAS假设Hypothesis: common disorders are likely influenced by genetic variation that is also common in the population
    
    FASTQC先进行质控,质控有很大的影响!garbage in garbage out!
    
    样本,SNP,batch effect(多重检验矫正)
    GWAS软件:PLINK
    
    曼哈顿图p<5*10^-8
    芯片过时, 现在多是基于NGS的GWAS,但是究竟是选择人多,还是测序深度大一点?
    答案,测的人多3000,低覆盖度4X,基于贝叶斯,人群的信息,把没检测的位点拉回来,inpotation
    
    华大NIPT,孕妇外周血,检测小孩的基因组
    
    alignment,count normalization,seq bias
    
    STAR+RSEM
    不要用tophat!!!
    FPKM双端,RPKM单端,只能样本内比较。一个基因除所以样本的基因,乘以10^6,换算成TPM。对基因exon的长度。
    TPM每百万里面的转录本,都要到百分之的概念,除了样本内可以比较,也进行样本之间的比较。
    CPM只换成了百分比,但是没有考虑基因长度的不一样。
    ERCC bulk RNA-Seq, spike-in
    
    时间序列,考虑趋势问题,只在某一个阶段有差异,后来又恢复,两两比较。
    RNA cocktail,一个全面的,分析准确性高的RNA-seq分析流程,https://www.jianshu.com/p/3600a6ebdf56
    
    
    ~~~~~~Day5~~~~~~~~~
    机器学习:先验知识
    deep-learning:不需要先验知识高级的神经网络
    RNN时间序列recurrent neural network
    CNN模式识别
    
    DeepVariant,把生物学问题pileup 转换成deep-learning擅长的pileup image 
    Poplin, nature biotechnology,2018
    
    可以看每一节点擅长提取的pattern解读,可视化出来
    feature对应到数学上收敛,局部最优,有生物学的意义,生物倾向于选择最高效
    根据你设计的目标
    
  • wentgithub commented on Tue Sep 03 2019

    这次关于kmer的分享让我知道还有三个峰,然后第一部分去复习了三个分布的成立条件和区别转化,收获很大,但是 突变概率那一部分没搞清楚是怎么先后验的


Recommend

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK