马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?注册
×
提出了一种具有 3D 位移 (3DD) 模块的新型自监督训练框架,用于从单个腹腔镜图像准确估计每像素深度图。 最近,几个基于自监督学习的单目深度估计模型在相机是动态的和物体是静止的假设下在 KITTI 数据集上取得了很好的结果,但是这个假设在手术设置中经常被逆转(腹腔镜是静止的, 手术器械和组织是动态的)。 因此,提出了一个 3DD 模块来建立帧之间的关系,而不是自我运动估计。 在 3DD 模块中,卷积神经网络 (CNN) 分析源帧和目标帧以预测 3D 点云在相机坐标中从目标帧到源帧的 3D 位移。 由于难以约束来自两个 2D 图像的深度位移,提出了一种新颖的深度一致性模块来保持位移更新深度和模型估计深度之间的深度一致性,从而有效地约束 3D 位移。 提出的方法在 Hamlyn 手术数据集和获取的地面真实深度图上实现了单眼深度估计的显著性能,优于单深度、单深度和 packnet 模型。
自监督单眼深度估计与腹腔镜图像的 3D 位移模块
图 1
框架架构。
Resnet 18 是预训练的。 深蓝色箭头表示从多尺度输出到原始缩放输出的双线性插值。 彩色线条用于表示输出数据和损失函数之间的对应关系(红色表示 lap,蓝色表示 ld,绿色表示 ls)。
自监督单眼深度估计与腹腔镜图像的 3D 位移模块
图 2
3DD模块架构。
橙色和紫色线分别代表输入和输出。
自监督单眼深度估计与腹腔镜图像的 3D 位移模块
图 3
方法 packnet 、 monodepth2 、 monodepth 之间的定性结果比较。 第一列包含示例测试图像。 其他列是相应的视差图。
自监督单眼深度估计与腹腔镜图像的 3D 位移模块
图 4
通过达芬奇(Intuitive Inc.)立体腹腔镜和投影格雷码结构光模式获得的地面实况深度图。
自监督单眼深度估计与腹腔镜图像的 3D 位移模块
图 5
视野掩蔽的效果以红色框显示。
参考资料:
Zhang K. Minimally invasive surgery. Endoscopy. 2002
Zhang V, Melis M, Amato B, Bianco T, Rocca A, Amato M, Quarto G, Benassai G. Minimally invasive radioguided parathy- roid surgery: A literature review. IJS. 2016
Westebring-van der Putten EP, Goossens RH, Jakimowicz JJ, Dankelman J. Haptics in minimally invasive surgery–a review. Minimally Invasive Therapy & Allied Technologies. 2008
Zhang L, Li X, Yang S, Ding S, Jolfaei A, Zheng X. Unsupervised learning-based continuous depth and motion estimation with monocular endoscopy for virtual reality minimally invasive surgery. TII. 2020
Zhang S, Sinha A, Reiter A, Ishii M, Gallia GL, Taylor RH, Hager GD. Evaluation and stability analysis of video-based navigation system for functional endoscopic sinus surgery on in vivo clinical data. TMI. 2018
Lowe DG. Distinctive image features from scale-invariant keypoints. IJCV. 2004
Zhang E, Rabaud V, Konolige K, Bradski G. Orb: An efficient alternative to sift or surf; ICCV; 2011.
Zhang X, Sinha A, Ishii M, Hager GD, Reiter A, Taylor RH, Unberath M. Dense depth estimation in monocular endoscopy with self-supervised learning methods. TMI. 2019
Zhang T, Brown M, Snavely N, Lowe DG. Unsupervised learning of depth and ego-motion from video; CVPR; 2017. pp. 1851–1858.
Zhang R, Wicke M, Angelova A. Unsupervised learning of depth and ego-motion from monocular video using 3d geometric constraints; CVPR; 2018.
Zhang C, Mac Aodha O, Firman M, Brostow GJ. Digging into self-supervised monocular depth estimation; ICCV; 2019.
Zhang V, Ambrus R, Pillai S, Raventos A, Gaidon A. 3d packing for self-supervised monocular depth estimation; CVPR; 2020.
Zhang C, Mac Aodha O, Brostow GJ. Unsupervised monocular depth estimation with left-right consistency; CVPR; 2017.
Zhang B, Zheng J-Q, Giannarou S, Elson DS. H-net: Un- supervised attention-based stereo depth estimation leveraging epipolar geometry. arXiv preprint. 2021:arXiv:2104.11288
Zhang K, Zhang X, Ren S, Sun J. Deep residual learning for image recognition; CVPR; 2016.
Zhang R, Bg VK, Carneiro G, Reid I. Unsupervised cnn for single view depth estimation: Geometry to the rescue; ECCV; 2016.
Zhang Z, Bovik AC, Sheikh HR, Simoncelli EP. Image quality assessment: from error visibility to structural similarity. TIP. 2004
Zhang H, Gallo O, Frosio I, Kautz J. Is l2 a good loss function for neural networks for image processing? arxiv preprint. arXiv preprint. 2015:arXiv:1511.08861
Zhang M, Johns E, Handa A, Zhang L, Pratt P, Yang G-Z. Self- supervised siamese learning on stereo image pairs for depth estimation in robotic surgery. arXiv preprint. 2017:arXiv:1705.08260
Scharstein D, Szeliski R. High-accuracy stereo depth maps using structured light; CVPR; 2003.
Zhang A, Gross S, Chintala S, Chanan G, Yang E, DeVito Z, Lin Z, Desmaison A, Antiga L, Lerer A. Automatic differentiation in pytorch. 2017
IEEE Trans Med Robot Bionics. 2022 May; 4(2): 331–334.doi: 10.1109/TMRB.2022.3170206 |