心肺復蘇模型

新聞分類

ECCV 2022 | 從虛擬信息學習可泛化的三維人體姿勢預計模型

ECCV 2022 | 從虛擬信息學習可泛化的三維人體姿勢預計模型

發(fā)布日期:2022-10-24 作者:康為 點擊:

導 讀

本文是對刊登于計算機視覺行業(yè)高級聚會 ECCV 2022的論文 VirtualPose: Learning Generalizable 3D Human Pose Models from Virtual Data 的理解。該論文由北京大學王亦洲課題組與微軟亞洲研發(fā)院等單位協(xié)作,通過對現(xiàn)有基于深度學習的一定三維人體姿勢預計方式進行泛化功能研發(fā),對于性地提出以抽象幾何表示為旁邊表示的方式,能夠通過形成充足的虛擬信息訓練三維人體姿勢預計模型。試驗證實,該方式明顯提高了未見過情景中的泛化功能,以及不須要成對的圖片和三維人體姿勢真值進行訓練。

論文鏈接:https://arxiv.org/abs/2207.09949

01

背景簡介

在一定三維人體姿勢預計任務中,不單須要預計人體各關節(jié)點相針對根節(jié)點(往往為人體骨盆節(jié)點)的位子,還須要預計根節(jié)點在三維空間中的一定位子。這是1個擁有戰(zhàn)斗的問題,由于預計流程存在嚴重的歧義以及許多原因會牽連深度預計的結果,如圖1所示。


1.jpg


圖1. 小孔成像模型中的投影幾何。牽連深度預計的原因含蓋相機焦距、相機位姿、人的身高和姿勢等。

現(xiàn)有的方式大多直接學習從圖片到人體深度的映照聯(lián)系,雖然它們能在公然信息集上獲得較為好的成效,但因為信息集在相機位姿、人體姿勢并且圖片背景上缺少多樣化,訓練出的模型的泛化功能較弱。

為了解決這一問題,本工作提出了以抽象幾何表示(Abstract Geometry Representation,簡稱AGR)為旁邊表示的方式,將模型拆劃為兩部份進行訓練。此中,能夠通過形成批量充足的成對 <AGR, Pose> 信息來進行訓練,進而獲得泛化功能強的模型。

02

泛化功能研發(fā)

為了研發(fā)現(xiàn)有工作的泛化功能,本工作將基于深度學習的方式劃為三種,分別是(1)自頂向下基于探測框大小的方式(TBS),(2)自頂向下基于圖片特點的方式(TIF)并且(3)自底向上基于回歸的方式(BDR),并從中各選擇了1個擁有代表性的方式進行泛化功能研發(fā)。

在試驗中發(fā)掘,現(xiàn)有的方式對圖2中呈現(xiàn)的含蓋相機位姿、圖片背景并且人體姿勢這3個原因都不足魯棒,特別是當訓練信息與測驗信息的拍攝視角不相近時,偏差會明顯加大。


2.jpg


圖2. 牽連基于深度學習的方式的3個原因,含蓋 (a) 相機位姿,(b) 圖片背景并且 (c) 人體姿勢。

03

方式概覽

為了解決這一問題,本工作提出了以抽象幾何表示(Abstract Geometry Representation,簡稱 AGR)為旁邊表示的方式,VirtualPose,如圖3所示。AGR 是1個通常性的概念,拿來表示許多既能夠輔助修復一定三維人體姿勢,同時也能夠很魯棒地從圖片中被預計并且能夠依據(jù)三維人體姿勢形成出去的一類幾何表示。在本工作的實行中,AGR 含蓋了人體探測框圖并且二維人體姿勢熱圖 。

AGR 將網(wǎng)絡切分成兩部份,第一部份負擔對填寫圖片中的人進行探測和二維姿勢預計,第二部份則負擔依據(jù)人體探測框圖并且二維人體姿勢熱圖 預計出每個人的一定三維人體姿勢。這2個部份是單獨訓練的,第一部份只牽扯2D 任務,能夠借用批量的2D 信息集進行訓練,以確保模型的魯棒性。

在第二部份中,填寫的 AGR 中已然不含蓋填寫圖片中人物外貌和背景的數(shù)據(jù),而為了確保模型對相機位姿并且人體姿勢有很強的泛化功能,本工作提出了一類訓練信息形成方略。在形成訓練樣件時,會從人體姿勢比較充足的信息集 MuCo-3DHP 中隨機挑選許多人體姿勢并擺放在地面上,再通過隨機設置相機的位姿便可形成對應的人體探測框圖并且二維人體姿勢熱圖。

為了更好地預計一定三維人體姿勢,本工作還引入了人體根節(jié)點預計網(wǎng)絡(Root Estimation Network,簡稱 REN)并且人體姿勢預計網(wǎng)絡(Pose Estimation Network,簡稱 PEN)分別負擔對人體根節(jié)點進行定位并且預計其它關節(jié)點的位子,如圖3所示。


3.jpg


圖3. 本工作提出的以抽象幾何表示(AGR)為旁邊表示的三維人體姿勢預計方式VirtualPose的過程圖。

04

試驗論斷

本工作在2個基準信息集上評價了本文的方式,VirtualPose 均到達了最好程度以及擁有強力的跨信息集泛化本領。表1展現(xiàn)了在 CMU-Panoptic 上的體現(xiàn),評估指標是預判姿勢與真正姿勢的平均關節(jié)偏差值,單位為毫米。


4.jpg


表1. 本工作的方式與現(xiàn)有工作在CMU-Panoptic信息集上的定量偏差結果(越少越好)。

表2展現(xiàn)了 MuPoTS-3D 信息集上不同方式的結果,這類方式都只在 MuCo-3DHP 信息集并且 COCO 信息集上訓練。本文的方式比其余方式獲取了更好的 PCK 確切率,標明 VirtualPose 擁有較強的泛化功能,證明了以 AGR 為旁邊表示并形成批量充足的 <AGR, Pose>信息進行訓練的有效性。


5.jpg


表2. 本工作的方式與現(xiàn)有工作在MuPoTS-3D信息集上的定量結果(越大越好)。

圖4為本文的模型在 COCO 和 MuPoTS-3D 信息集上預計的三維姿勢,能夠看見本工作的方式能確切地預計出每個人的三維姿勢并且一定位子,對圖片背景并且人的姿勢都非常魯棒。而在圖中的人被遮擋如圖4(b),或人體身高與訓練信息不一致如圖4(c) 的狀況下,模型也較易顯現(xiàn)錯誤。


6.jpg


圖4. 本工作的方式在COCO并且MuPoTS-3D信息集上的可視化結果。此中 (b) (c) 展現(xiàn)了落敗的例子。

05

總 結

本工作進行了對現(xiàn)有基于深度學習的一定三維人體姿勢方式的泛化功能研發(fā),期望此研發(fā)能啟迪以后的工作多研究怎樣提高人體姿勢預計方式的泛化功能。其次,本工作提出了以抽象幾何表示為旁邊表示的方式,通過形成批量充足的成對 <AGR, Pose> 信息來訓練三維人體姿勢預計模型。本方式具有超越現(xiàn)有方式的功能,特別是訓練信息和測驗信息的情景差異較大的時候,這進一步呈現(xiàn)了本方式在自然情景中的泛化功能并且實用性。

考慮文獻

[1] Tu, Hanyue, Chunyu Wang, and Wenjun Zeng. "Voxelpose: Towards multi-camera 3d human pose estimation in wild environment." European Conference on Computer Vision. Springer, Cham, 2020.

[2] Ma, Xiaoxuan, et al. "Context modeling in 3d human pose estimation: A unified perspective." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.

[3] Moon, Gyeongsik, Ju Yong Chang, and Kyoung Mu Lee. "Camera distance-aware top-down approach for 3d multi-person pose estimation from a single rgb image." Proceedings of the IEEE/CVF international conference on computer vision. 2019.

[4] Lin, Jiahao, and Gim Hee Lee. "Hdnet: Human depth estimation for multi-person camera-space localization." European Conference on Computer Vision. Springer, Cham, 2020.

[5] Zhen, Jianan, et al. "Smap: Single-shot multi-person absolute 3d pose estimation." European Conference on Computer Vision. Springer, Cham, 2020.


7.jpg


圖文 | 蘇嘉俊

Computer Vision and Digital Art (CVDA)



本文網(wǎng)址:http://55swg.cn/news/1795.html

相關標簽:

最近瀏覽:

相關產(chǎn)品:

相關新聞:

在線客服
分享