1

[paper_reading]-"JSNet, JSIS3D"

 2 years ago
source link: https://leijiezhang001.github.io/paper-reading-JSNet-JSIS3D/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

[paper_reading]-"JSNet, JSIS3D"

Posted on 2020-10-10   |   Updated on 2020-10-15

| In Segmentation

, Instance Segmentation

| 本文总阅读量 38次

Words count in article: 1.2k 字

|

Reading time ≈ 5 分钟

  PointGroup 通过预测每个点与对应 instance 重心的 offset,然后在三维物理坐标系下作 instance 聚类。[1] 也是这种方案。另一种思路,是通过 Metric Learning 技术,预测每个点的高维特征(Embedding Space),然后作 instance-level 聚类。本文介绍的 JSNet[2] 以及 JSIS3D[3] 就是采用的这种方式。

1. JSNet

  如图 1. 所示,整个网络共享的 Backbone 只有点云特征的 Encode 阶段,两个分支分别作 Decode 并通过 PCFF 模块,最终输出用于 Instance-Seg 的特征 FIS∈RNa×128,以及用于 Semantic-Seg 的特征 FSS∈RNa×128。这一阶段完全可以用其它 Voxel 或 Point 网络代替。然后通过 JISS 模块进行两个分支的特征融合,最终输出点云类别,以及用于点云 Instance 聚类的特征 Embedding。最后采用 Mean-Shift 聚类方法即可根据 Embedding 作 Instance 聚类。

1.1. PCFF

  PCFF 类似图像 2D 卷积中上采样特征融合模块,如图 1.a 所示,目的是为了融合不同尺度的点云特征。PCFF 及之前的网络均可用其它点云特征网络代替。

1.2. JISS

  JISS 模块目的是将 Instance-Seg 和 Semantic-Seg 两个任务的特征作充分的融合。Semantic-Seg 一般比 Instance-Seg 更底层,所以相同深度的网络,理论上能学到更加抽象(高层)的特征,所以如图 1.c 所示,先将 FSS 特征融入 FIS 特征中,然后在 Instance-Seg 分支作进一步特征提取后,再将特征返回来与 FSS 特征作融合。此外,每个分支还引入了 Self-Attention 模块,通过 Sigmoid 操作实现。
  最终输出的是每个点的类别分数 PSSI∈RNa×C,以及用于 Instance 聚类的点云特征 EISS∈RNa×K。

1.3. Loss

  Loss 由 Semantic-Seg 以及 Instance-Seg 两个任务组成: L=Lsem+Lins 其中语义分割的 Loss 项 Lsem 为传统的分类 Loss。Lins 则要求能区分不同 Instance 的点云 Embedding 特征,但是又要保证同一 Instance 的点云 Embedding 特征的相似性,设计为: Lins=Lpull+Lpush=1MM∑m=11NmNm∑n=1[‖μm−en‖1−δv]2++1M(M−1)M∑i=1M∑j=1i≠j[2δd−‖μi−μj‖1]2+ 其中 [x]+=max(0,x),||⋅||1 为 L1 距离,δv,δd 分别为 Lpull,Lpush 的幅度。

2. JSIS3D

  如图 2. 所示,JSIS3D 由 MT-PNet 网络和 MV-CRF 构成。MV-CRF 是基于 MT-PNet 网络预测的 Semantic Label 和 Embeddings 作基于条件随机场的 instance 聚类,效果比直接对 Embeddings 作聚类要好,这里只讨论 MT-PNet 网络。

2.1. MT-PNet

  如图 3. 所示,网络由基本的 PointNet 构成,最终预测的也是每个点的类别以及用于聚类的 Embedding。所以输出方案是与 JSNet 是一样的。Loss 项中的 Embedding(ins) 预测项加入了正则化: Lins=αLpull+βLpush+γLreg=αMM∑m=11NmNm∑n=1[‖μm−en‖2−δv]2++βM(M−1)M∑i=1M∑j=1i≠j[2δd−‖μi−μj‖2]2++γMM∑m=1‖μm‖2 其中 M 为 instance 数量,Nm 为对应 instance 内点的个数,en 为点的 Embedding,μm 表示第 m 个 instance 内点的平均 Embedding。设计 σd>2σv,α=β=1,γ=0.001,可以实现同一个 instance 内点的 Embedding 相近,不同 instance 的平均 Embedding 距离较远,并且正则化使得平均 Embedding 接近 0。

2.2. Experiments

  如图所示,用 MV-CRF 代替 Means-Shift 聚类,对于大物体,提升效果比较明显,但是小物体,精度会下降。

3. Reference

[1] F. Zhang, C. Guan, J. Fang, S. Bai, R. Yang, P. Torr, and V. Prisacariu, “Instance segmentation of lidar point clouds,” in ICRA, 2020
[2] L. Zhao and W. Tao, “JSNet: Joint instance and semantic segmentation of 3D point clouds,” in AAAI, 2020.
[3] Pham, Quang Hieu , et al. "JSIS3D: Joint Semantic-Instance Segmentation of 3D Point Clouds With Multi-Task Pointwise Networks and Multi-Value Conditional Random Fields." 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) IEEE, 2020.

----------------- END -----------------
坚持原创技术分享!

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK