4

《生信与机器学习兴趣小组》第五次分享讨论/打卡贴

 2 years ago
source link: https://ming-lian.github.io/2019/08/05/Bioinfo-ML-Club-5th/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

《生信与机器学习兴趣小组》第五次分享讨论/打卡贴

发表于

2019-08-05

| 分类于 Club

主题:机器学习在生物信息学中的应用(一)

直播录屏已上传至B站,传送门

本期内容:

  • 上期内容回顾与补充

  • 两个机器学习在生物信息领域应用的例子:

    • 无监督聚类与宏基因组bining

    • 隐马尔科夫(Hidden Markov Model, HMM)与蛋白质保守区块(Block)的识别

要求参与讨论方式:

在下面的评论栏里贴笔记打卡

Like • 14 Comments Issue Page
  • oGcGo commented on Tue Aug 06 2019
  • Ming-Lian commented on Tue Aug 06 2019 • edited

    本次兴趣小组知识分享的提纲,字写得比较潦草,大家凑合看啊

    上期回顾与宏基因组bining

    HMM与蛋白质保守区块识别

  • jsonProgram commented on Tue Aug 06 2019

    刚刚看完。最后面说的算法有点多,且蒙圈....

  • lakeseafly commented on Thu Aug 08 2019

    总来说讲得蛮好,特别是对机器学习有一定了解的人来说,受益会很大。但是感觉对新手可能不太友好。就是如果想更多人明白,我个人觉得是要把整个提纲弄得更加清晰,然后尽量不要深入讨论算法之类的,多聚类讲怎样应用。

    这里给大家先推荐一篇Nature genetic review的综述:https://www.nature.com/articles/s41576-019-0122-6 。这篇总结得相当好,从浅到深,有助理解很多概念。关于机器学习在生物信息学的应用这个话题,我个人还是蛮兴趣的,其涉及到的应用其实很多,后面会做一些research,再和大家分享。

  • pangkghm commented on Thu Aug 08 2019

    无监督聚类与宏基因组bining:

  • xuyinsheng commented on Mon Aug 12 2019
  • cwu2011 commented on Sat Aug 17 2019 • edited

    感谢连博士的分享!

    • mapping based

      优点:计算量小,对低丰度菌种灵敏度高;缺点:依赖参考基因组质量,无法检测新菌种

    • mapping free/assemble based

      优点:对参考基因组质量不敏感,可推测新菌种;缺点:计算量大,对丰度低的菌种不敏感

    根据序列特征进行聚类。(1、kmer频率,GC含量等;2、丰度信息)

    经典聚类方法:

    • kmeans,分类形状是圆形;
    • Gaussian混合分布,分类形状可变换为椭圆形;
    • DBSCAN等

    HMM与蛋白质保守区块识别

    学习:给定标记的序列,学习和提取出block序列pattern
    搜索:在未知序列中搜索pattern
    描述序列的方法:
    sequence logo
    PWM(位点权重矩阵)
    HMM
    假设有一组未知序列,判断各序列有多大概率是由以上pattern生成器产生的,概率较大的序列被认为服从该pattern的分布

    1、给定一条序列和多个模型,判断最可能的来源,计算各block产生该序列的Galvan取最大者(前向-后向算法)

    2、已知某序列由某block机器产生,确定block的位置(保守区)(解码问题,维特比算法)

    3、给定一组block代表序列,学习转移/发射概率,建立模型(鲍姆-维奇算法(EM-like))
    P.S. 序列比对是基于一致性,而block有可变区和不可变区,如果block的可变位点较多但有一个pattern,直接去做比对是比对不上的。

  • shangguandong1996 commented on Sun Aug 18 2019

    生信与机器学习兴趣小组_Club_5th

    无监督聚类与宏基因组bining

    解决生物学问题

    • 环境中物种以及丰度
    • 在行驶的功能,比如代谢
    • 不同组织之间的宏基因组组成差异

    测序的reads是来自于什么物种

    • mapping based(有构建比较好的reference)

      • 优点:
        • 检测灵敏度:对于一些低丰度的菌
      • 缺点:
        • 高度依赖于reference
        • 无法发现新品种
    • mapping free/assembly base(不太好的reference)

      比如你有大约1000物种,但只有100个参考 reference

      可以先assembly(overlap),然后利用能够mapping的部分去确定物种

      • 优点和缺点相对应

    会拼接成contig,然后决定属于物种归属

    • 与已知序列库进行比较,但注释率会比较低
    • binning的方法
      • 根据序列的特征,把其聚类在一起,形成bins。
      • 序列组成相似的contig。只需要确定这些contig的对应物种
      • 可以用reads、contig、gene(contig预测出来的gene)去做binning

    宏基因组的binming聚类特征

    • 序列组成特征

      • k-mer 频率:
        $$
        Contig_i=(Kmer_1,Kmer_2……)
        $$

      • Gene的丰度(基因的拷贝数)

    如何根据特征来聚类

    • K-means
    • 高斯混合分布
    • DBSCAN

    HMM与蛋白质保守区块识别

    • 给定标记好的序列(属于某一功能区块),学习提取出block序列pattern——学习问题
    • 给一大堆未知的——搜索问题
    • Sequence Logo(motif那种)
    • PWM(position weight matrx,位置权重矩阵)
    • 有多大的概率是由我这个机器产生的
      • 给定一条序列和多个模型:评估该序列最有可能是由哪个模型产生的(识别block种类,每个block(保守区块)就是一个模型)——前向后向算法

      • 已知一条序列是由block机器产生的,确定block的位置——decoding,维特比算法

        单纯的比对可能并不行,block有些是可变,有些是不可变的

      • 给定一大堆某block的代表序列,把转移概率下的发射概率表现出来——鲍姆维奇算法(EM算法)

  • idmaomao1 commented on Tue Aug 20 2019

    无监督聚类与宏基因组bining

    #宏基因组:利用新一代高通量测序技术(NGS)以特定环境下微生物群体基因组为研究对象,在分析微生物多样性、种群结构、进化关系的基础上,可进一步探究微生物群体功能活性、相互协作关系及与环境之间的关系,发掘潜在的生物学意义。与传统微生物研究方法相比,宏基因组测序技术规避了绝大部分微生物不能培养、痕量菌无法检测的缺点,因此近年来在环境微生物学研究中得到了广泛应用。#
    研究目标:1、有哪些物种,丰度如何※ 2、有何功能 3、生理状态下或个体的动态变化
    测序策略:
    1、mapping-based (依赖ref完整)
    2、Mapping-free/assembly-based (ref不理想)可以检测发现新的物种,但是计算量大,对丰度低的菌检出效率低#基于Debrijn图的基因拼接算法#注释率
    Contig->查找物种归属【1、与库中已知序列比对(受注释率影响)2、bining把序列类似的contig归类聚到一起称为bins(多条),有较大概率是来源于同一属物种】
    Reads、contig、gene不同层次都可以做bining,但从精度上考虑常用contigs和gene做bining,contigs长度更长信息量更高更适合bining。
    无监督聚类是针对无类别标记,具有多个特征feature,f1~fn,根据其相似性进行分类。
    重点是根据特征feature分类:
    (1)序列组成特点(k-mer频率、GC含量、【#来源于同一物种的序列在组成上更加相似】)
    (2)丰度信息(尤其是基因的丰度,某一物种基因A和B的拷贝数量是2:1,不管其数量多少占丰度比例,具有A:B=2:1的特征,根据基因间的固定比例可以确定是来自同一物种)

    这个集合可以映射到多维空间上,从空间分布的相似性进行bining。
    聚类方法有:
    1、k-means【随机假设样本中有k个类,则有k个“样本中心”,计算各样本到这些“样本中心”的直线距离,根据距离来分类(离谁近就算谁这一类),重复这个过程直到“样本中心”稳定为止,其本质是期望最大过程(EM)】

    2、高斯混合分布【针对k-means的分类有不足(各个类别界限是偏圆形或的球形),而数据分布可能是近椭圆形分布的,比如一维的高斯分布就是钟型正态分布,二维的高斯分布是一个立体的钟型曲面,如果均值不变,方差变化,这个钟型曲面的平面投影就是椭圆的】
    3、层次聚类
    #不同聚类方法有不同的适用条件#
    同心圆类型的聚类方法

    实际上聚类团数k的大小是超参数,是要通过试验来人为确定的,在理想的情况下,类内各样本到中心的总距离是最小的。试验的结果会发现某一个k值能使得总距离最小。
    横坐标是k值(整数),纵坐标是距中心点总距离
    在学习之前需要先确定K的值。

  • ggoodstudydaydayup commented on Thu Aug 22 2019

    无类别标记聚类,其可用于聚类的分别为reads,contigs(其序列信息最多)和gene,根据其序列组成的特点k-mer频率和GC含量或者丰度信息(拷贝数)将序列信息矢量化并聚类。

  • gsh150801 commented on Thu Aug 29 2019
  • baiziyi commented on Fri Aug 30 2019
  • cjchen5 commented on Sun Sep 01 2019

    学习到了!感谢分享~

  • yueyang0907 commented on Mon Sep 02 2019

    其他小伙伴的笔记太棒啦!!我先。。。占个坑。。。再来补交笔记

Powered by Gitment

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK