STATIC : Surface Temporal Affine for TIme Consistency in Video Monocular Depth Estimation
Sunghun Yang, Minhyeok Lee, Suhwan Cho, Jungho Lee, Sangyoun Lee
视频单眼深度估计对于自动驾驶、AR/VR和机器人等应用至关重要。 最近的基于变压器的单图像单眼深度估计模型在单个图像上表现良好,但在跨视频帧的深度一致性方面挣扎。 传统方法旨在使用多帧时间模块或光学流和相机参数等先验信息来提高时间一致性。 然而,这些方法面临一些问题,如高内存使用,动态或不规则运动的性能降低以及运动理解受限。 我们提出了STATIC,一种独立学习静态和动态区域的时间一致性的新模型,无需附加信息。 与表面规范的差异掩码通过测量方向方差来识别静态和动态区域。 对于静态区域,蒙面静态(MS)模块通过关注稳定区域来增强时间一致性。 对于动态区域,表面正态相似性(SNS)模块通过测量帧之间的特征相似性来对齐区域并提高时间一致性。 最终的改进集成了独立学习的静态和动态区域,使STATIC能够在整个序列中实现时间一致性。 我们的方法无需更多信息即可在 KITTI 和 NYUv2 数据集上实现最先进的视频深度估计。
Video monocular depth estimation is essential for applications such as autonomous driving, AR/VR, and robotics. Recent transformer-based single-image monocular depth estimation models perform well on single images but struggle with depth consistency across video frames. Traditional methods aim to improve temporal consistency using multi-frame temporal modules or prior information like optical flow and camera parameters. However, these approaches face issues such as high memory use, reduced perfo...