人大团队解决复杂时空场景的物体分割难题，能用于自动驾驶和影像分析

麻省理工科技评论-人大团队解决复杂时空场景的物体分割难题，能用于自动驾驶和影像分析

本次研究旨在深入理解人类如何通过观察和交互来学习物理世界的规律。

在过去几十年里，人工智能和机器学习的发展迅速，尤其在视觉识别、语言理解和自然语言处理等领域取得了显著进展。

然而，尽管这些系统在特定任务上的表现越来越接近甚至超过人类水平，它们在理解复杂场景的能力、进行有效推理能力和长期记忆方面仍存在明显的局限性。

特别是在处理视觉场景时，现有的模型往往难以从场景中分离和识别出单独的物体实体，更不用说跟踪这些物体随时间的变化和相互作用。

此外，许多现有的模型缺乏对物体如何在物理世界中存在和相互作用的直觉理解，这限制了它们的推理和预测能力。

人类的认知过程在很大程度上依赖于对物体及其物理属性的直觉理解，这使得我们能够轻松地处理复杂的动态场景，并在日常生活中进行有效的推理和预测。

因此，可以从人类生活习惯中汲取灵感，探索更为合理的、更加符合人类行为的模型架构，弥补现有人工智能系统在复杂场景理解、物体分割和追踪、以及基于物理直觉的推理和预测方面的不足。

基于此，人民大学孙浩教授团队开展了一项研究，旨在解决以下几个关键问题：

其一，解决复杂场景中的物体分割和追踪问题。

现有模型往往在识别场景和跟踪场景中的多个物体时表现不佳，尤其是在物体之间存在遮挡或相互作用时。

通过开发新的推理模块和记忆机制，他们希望可以提高模型在这些场景中的物体感知能力。

其二，实现更为符合人类行为的推理和预测。

许多模型缺乏进行有效推理和基于物理直觉的预测的能力。而本次研究通过引入基于槽的时空变换器和记忆缓冲区，试图模拟人类的推理和预测过程，以提升模型的直觉物理理解。

其三，探索以物体为中心的认知过程。

通过模仿人类的物体感知和直觉物理能力，本次研究旨在深入理解人类如何通过观察和交互来学习物理世界的规律。

这不仅有助于解释人类的认知过程，对于开发能够模仿这些过程的更智能的人工智能系统也具有重要意义。

ce32b9d1650a46d1bbedde23902e51da~tplv-obj.image?lk3s=ef143cfe&traceid=202405011740490B960B34CE09B8B82037&x-expires=2147483647&x-signature=CDbxHcIC0QDny9x6fMJJcmpLKU4%3D

图丨模型架构（来源：arXiv）

明确研究目标之后，该团队开始设计具体改进方向和初步的模型架构。

基于初步设计的模型架构，他们进行了模型构建和初步测试。这需要在简单或公开的数据集上进行，以便快速验证改进方向的可行性。

接着，他们在更广泛的数据集上进行深入实验，目的是全面验证研究假设的正确性，并精确地确定最优的模型结构。

最终，相关论文以《面向视频的推理增强型以对象为中心的学习》（Reasoning-Enhanced Object-Centric Learning for Videos）为题发在 arXiv。

图丨相关论文（来源：arXiv）

李健是第一作者，孙浩担任通讯作者。

c40090d724e74d2aa58414a2452b6fc6~tplv-obj.image?lk3s=ef143cfe&traceid=202405011740490B960B34CE09B8B82037&x-expires=2147483647&x-signature=EQX%2FrCTBYiLNj%2BF%2BtFCTi9HKKSo%3D

图丨李健（来源：李健）

预计本次成果将能实现以下应用：

其一，可用于自动驾驶。

在自动驾驶领域，本次成果可以精确地识别和跟踪道路上的物体（如其他车辆、行人、障碍物）。

同时，这项技术能够提升自动驾驶系统对周围环境的理解能力，特别是在复杂的交通情况下，能够更好地预测其他物体的行为和可能的变化。

其二，可用于视觉监控。

在安全监控系统中，本次成果能够准确地分割和跟踪视频中的每个物体，对于事件检测、行为分析和异常识别等任务非常有用。也就是说，这种技术可以使监控系统更加智能，有效地提高公共安全。

其三，可用于机器人技术。

在机器人领域，本次成果可以提高对于复杂环境的理解和物体的操控能力，能让机器人更好地理解周围环境，进行有效的规划和交互，特别是在执行搜寻、抓取和搬运等任务时。

其四，可用于互动娱乐和游戏。

在游戏设计和互动娱乐产品中，本次成果可以提供具有真实物理行为的虚拟环境和对象，从而极大地提高用户体体验。

其五，可用于影像分析。

在医学影响和化学影像处理领域，精确地识别和跟踪图像中的特定结构（如肿瘤、器官等），对于疾病诊断和治疗规划非常重要，而本次成果恰好可以起到提高医学影像分析的准确性和效率的作用。

图丨实验结果（来源：arXiv）

此外，核心围绕“时空槽注意力机制”，基于人类直觉物理的基础原理，该团队通过以物体为中心的视角，构建了隐空间时序预测模型，进一步理解并预测了物理世界中的动态变化。

同时，他们结合先进的大模型和扩散生成模型，构建了一个面向物理场景的、更加符合物理规律的视频生成多模态基础模型。

研究中，他们还将通用先验物理知识，嵌入现阶段模型的有效机制，提高了隐空间特征序列预测的一致性。

这一策略不仅增强了视频帧预测的连贯性，还确保了生成的视频满足基本物理规律，从而提升了视频真实性。

进一步地，课题组构建了一套基于符号学习和推理的隐空间序列预测模型与方法。该模型能够联合时空槽注意力机制，针对复杂物理场景实现了更鲁棒的视频生成与预测。

通过这一系列的创新方法，也为实现复杂物理场景下真实感视频的生成，提供了强有力的技术支持。

参考资料：

1.https://arxiv.org/pdf/2403.15245.pdf

排版：刘雅坤

Recommend

arduino uno+LCD12864（ST7735S)+蓝牙模块实现贪吃蛇 - moonKing

NeighborHoodShare - Ditch the Cloud, share nearby | Product Hunt

SAP Output Management: setting custom Dunning Noti... - SAP Community

采访OpenAI奥特曼：预计会有几个不同版本的通用人工智能，并且各有擅长

去哪儿：中国旅客足迹遍布全球1035个城市，泰国最受欢迎

携程发布五一数据报告：入境游订单同比增长105%

MicroAssets - The marketplace focused on micro acquisitions | Product Hunt

Blazor流程编排的艺术：深入Z.Blazor.Diagrams库的使用与实践 - 许泽宇

Workshop on defense and security, logistics and ma... - SAP Community

中美AI的破冰时刻

About Joyk