5

[开源] 无人机数据集采样了 1652 个建筑，可用于无人机定位 / 送货上门

3 years ago

source link: https://bbs.cvmart.net/articles/1999
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

论文题目：University-1652: A Multi-view Multi-source Benchmark for Drone-based Geo-localization
论文地址：https://arxiv.org/abs/2002.12186
代码地址：https://github.com/layumi/University1652-Baseline
数据集下载：填写 Request 发送到 [email protected]

简介（与行人重识别的关系）：

随着无人机的发展，无人机视角的目标定位是一个基本的任务，透过无人机视角图像与卫星图像相结合，来判断目标建筑的位置。
主要难点与行人重识别任务一致，为跨视角的图像匹配。在行人重识别任务中为跨摄像头匹配，而在无人机定位任务中为垂直方向的视角匹配（街景<-> 无人机 <-> 卫星）
行人重识别目前发展得比较好，数据集也被大家刷很高；而geo-localization这个任务才刚刚开始，匹配难度较高，做的空间还比较大。
行人重识别在隐私政策上有一些考虑，采集了人体的生物信息；而无人机的建筑定位相对科研伦理/隐私上的问题比较小。

主要任务描述：

任务1 - 无人机视角目标定位 (Drone-> Satellite) ：给定一张无人机视角的图片或者视频，这个任务是去找最相似的卫星图，卫星图往往有gps所以就可以对无人机中的目标定位。
任务2 - 无人机导航 (Satellite->Drone)：给定一张卫星视角的图，无人机尝试去找他飞过的地方（无人机视角的图）。如果找到就按照飞行历史，再飞回去，完成一个导航的操作。

数据采集：

我们利用了wiki 来找到了 72所大学的建筑名称，去除其中的广场，campus，以及一些google map上找不到的地点。下图展示了前100个building名称（https://en.wikipedia.org/wiki/Category:Buildings_and_structures_by_university_or_college）
我们利用google earth去模拟无人机视角的图像，如下面这个视频，采用一个螺旋形的方式接近建筑

同时对于每个建筑，我们还收集了卫星图，和google map的街景图。
之前的数据集往往只收集地面和卫星的image pair。我们则提供了无人机视角图像作为中间的媒介，同时无人机可以减少树木的遮挡，更容易与卫星图做匹配。（下表为training set的对比）
我们数据集的统计数据如下：（训练和测试分别是33 和 39所大学，共72所大学，没有overlap）
数据license：
我们按照Google的官方Guideline(https://www.google.com/permissions/geoguidelines/)进行research的release
同时也依照之前的一些项目如 Tokyo 24/7 和 CVUSA等数据集采用学校邮箱的方式来发布数据。

基准测试：

主要采用了我之前文章的instance loss，这篇文章是2017年11月放的，最近中了ACM TOMM 2020 用来做图文互搜的，大家有兴趣可以康康，可以用来分类几万类。用CNN分100,000类图像(https://zhuanlan.zhihu.com/p/33163432)
主要思想就是把最后分类层的weight 共享，但是前面的特征提取网络还是各归各的。
pytorch 代码在 https://github.com/layumi/University1652-Baseline/blob/master/model.py#L230-L253 前面model可以不一样，最后classifier都用同一个。
提供一个baseline，一方面来验证数据集的有效性，一方面给大家提供一个基础的code，方便大家来修改。

实验结果：

实验结果分几个方面验证：

无人机视角是不是比街景定位更好，因为遮挡物更少，同时，无人机还有一个优势就是能拍到屋顶。实验验证了这一点。
我们学到的特征是不是比general的特征从大数据集中学到的好。
定性结果：（左边无人机目标定位；右边无人机导航）
我们的模型能不能拿去在真实的无人机视频中运用呢？
我们分了两个实验，真实无人机图像搜我们模拟无人机图像：

和真实无人机图像搜卫星图：

可以看到还是很work的。

对比几个常用baseline，包括contrastive loss， triplet loss等：
Instance loss 在其他数据集上（都用VGG16）：
迁移到传统小的图像检索数据集：

其中Fs是学卫星图+无人机图的子网络， Fg是地面图的子网络。我们猜想，Fs学的是垂直方面的变化，Fg学的还是水平方向的变化，所以针对传统建筑数据集，地面上拍摄的，还是地面的网络Fg更好一些。

最后我们提供了一些数据集中的样本，大家可以点开看看～
代码地址：https://github.com/layumi/University1652-Baseline

【探索无人机图像】

【探索卫星图】

【探索街景图】

感谢大家读完，欢迎讨论～～

本文章首发在极市计算机视觉技术社区

Recommend

About Joyk

Aggregate valuable and interesting links.
Joyk means Joy of geeK