使用AI来检测违反社交距离的行为

作者|Priya Dwivedi

编译|Flin

来源|medium

介绍

美国和欧洲的许多城市现在都在谨慎地重新开放。人们被要求在外出时保持安全距离。但是人们照着做吗？城市对人们的安全距离是否符合规则进行评估并采取相应的行动是很重要的。如果大多数人都遵守疫情期间的命令，那么就可以安全地开放更多的公共场合。

然而，如果出现了太多违规行为，那么关闭这些场合可能更安全。

这正是迈阿密海滩公园发生的事。公园于四月底开放，但由于太多人藐视与戴口罩和社交安全距离有关的规定，公园在一周内就关闭了。该市通过警员监控公园并发出警告。但人类监测可能不是一个切实可行的解决办法。

我们如何使用人工智能和机器学习来检测人们是否遵循社交距离规则？大多数城市已经在公共场所安装了摄像头，这些摄像头正好可以用于此目的。

在这个博客中，我展示了如何使用行人跟踪算法来监控违规行为。我也在我的Github上开源了代码。请参阅下面的模型。

我的Github
- https://github.com/priya-dwiv...

社会距离违规检测和计数：

rMnumy.gif!mobile

在深度学习分析中，我们非常热衷于使用数据科学和机器学习来解决问题。如果你需要数据科学帮助来应对这场危机，请联系我们。原稿全文刊登在我们的网站上：

https://deeplearninganalytics...

行人跟踪

数据

我们首先需要的是视频数据来构建和测试我们的模型。我使用了开放的MOT数据集（ https://motchallenge.net/ ）。

MOT数据集是计算机视觉行人跟踪的标准数据集。许多最先进的算法都是在这些数据上训练和测试的。这个数据集有许多开源的剪辑片段显示在不同的相机角度下的人的运动。我选择了一个固定在一个高度的摄像机的一个小片段，它显示在德国的城镇中心。

你可以从这里（ http://www.robots.ox.ac.uk/Ac... ）下载这个剪辑片段。请看下面这个剪辑片段中的一个帧。

7femU3r.jpg!mobile

使用深度排序进行行人跟踪

在计算机视觉中，行人跟踪是指给一个人一个ID，在他出现的每一帧中检测出他，并将他的ID转发出去。一旦他离开了这个ID，我们就不会重复使用他的ID。如果一个新的人进入，他就会被一个新的ID初始化。

跟踪往往是一项困难的任务，因为人们可能看起来很相似，导致模型切换ID。人们可能会被另一个人或物体挡住，当他们出现时会被分配一个新的ID。近年来，深度学习技术在多目标跟踪基准（ https://motchallenge.net/resu... ）上的性能有了显著提高。目前多目标跟踪技术的精度是62.0

你可以在我的博客中阅读更多关于深度学习行人跟踪的内容。

https://towardsdatascience.co...

为什么我们需要进行行人跟踪？

原因是我们想找出违反社会距离规则的人的数量。在没有跟踪器的情况下，如果两个人走得很近，那么他们在每一帧中都会被视为违规，但是如果我们使用跟踪器，那么我们可以将其视为一次违规事件。

在这个博客中，我使用了深度排序模型（ https://arxiv.org/abs/1703.07402 ）进行跟踪。

这个模型的代码是作者在他们的GitHub（ https://github.com/nwojke/dee... ）上公开发布的。

深度排序模型使用人的位置和外观来跟踪。位置信息通过Kalman滤波器捕获，Kalman滤波器预测盒子的下一个可能位置，而外观信息是使用生成嵌入的深度学习模型生成的。

若要在此视频上运行代码，需要将原始图像和包含所有边界框位置的检测文件传递给跟踪器。然后，跟踪器使用这些信息为每帧中的每个人分配一个ID。deep sort博客上详细解释了这一点。请参见下面对此剪辑执行跟踪的结果。正如你所看到的，每个人都被分配了一个ID，这个ID被成功地转入下一帧。跟踪器还输出一个csv，其中包含轨迹的详细信息。

我已经在Github上（ https://github.com/priya-dwiv... ）共享了这个文件，我们将在代码的下一部分使用它。

使用深度排序模型进行行人跟踪：

Ijm2U3y.gif!mobile

发现违反社交距离的行为

为了检测社会距离违规行为，我们在框架中选取每个轨道，并测量其与框架中其他轨道的距离。每个轨迹基本上都是一个带ID的边界框，因此可以使用它们之间的欧氏距离将边界框与另一个边界框进行比较。代码如下所示。

def distance_boxes (boxA, boxB):
    import math
    center_boxA = [(boxA[0] + boxA[2])/ 2.0, (boxA[1] + boxA[3])/2.0]
    center_boxB = [(boxB[0] + boxB[2])/ 2.0, (boxB[1] + boxB[3])/2.0]
    pixel_distance  = math.sqrt( ((center_boxA[0]-center_boxB[0])**2)+((center_boxA[1]-center_boxB[1])**2) )
    return pixel_distance

现在我们开始建模。其代码在下面共享。这与我的Github中的代码相同。

https://github.com/priya-dwiv...

fE7F7zF.png!mobile

对每个帧运行的主要步骤是：

比较每个轨迹和其他轨迹之间的像素距离
如果距离小于接近距离阈值，则两人距离太近。因此，将 safe=1 放在两个边界框的数据框中。变量“safe”稍后用于可视化
我们还想计算每个ID的总违规次数。这被计算为它们太接近的其他ID。因此，只要距离小于接近距离阈值，我们都会在字典中维护一个过于接近的轨迹列表

代码运行得很慢，因为它需要将每个轨道与其他轨道进行比较，并在600帧以上执行此操作。这些计算中有许多是重复的，因为它将分别测量轨道1与轨道2之间的距离，然后轨道2与轨道1之间的距离。

为了节省时间，我将两次计算的结果存储在一次传递中。因此，当比较track1和track 2时，结果将写入数据帧中各自的行中。这样可以将运行时间减少一半。

我发现，像素距离为70对于检测那些“似乎”走得太近的人来说是相当合理的。代码的可视化模块会在框太近时亮显红色框，并显示每个框的违规计数。带有结果的示例框架如下所示。

VziENrZ.png!mobile

实际部署

如果要部署它，需要考虑一些事情。

摄像机需要注册，这样我们就可以正确地将像素距离映射到现实世界中的距离
如果存在连续的摄像机阵列，那么我们可能需要添加行人重识别功能，以帮助跟踪器在摄像机之间转发ID和违规计数。在过去的几年里，人们对行人重识别（ https://arxiv.org/abs/2001.04193 ）进行了大量的研究
这里的代码是轻量级的，可以在与摄像机绑定的Jetson TX2（ https://developer.nvidia.com/... ）之类的嵌入式设备上运行。