心肺復(fù)蘇模型

新聞分類

YOLOv7與MediaPipe在人體姿態(tài)估計(jì)上的對(duì)比

YOLOv7與MediaPipe在人體姿態(tài)估計(jì)上的對(duì)比

發(fā)布日期:2023-02-21 作者:康為 點(diǎn)擊:

初期文章的分享,咱們簡(jiǎn)介了YOLOv7人體姿勢(shì)預(yù)計(jì)的文章并且MediaPipe人體姿勢(shì)預(yù)計(jì)方面的文章。因?yàn)閅OLOv7與MediaPipe都闊以進(jìn)行人體姿勢(shì)預(yù)計(jì),咱們本期就對(duì)照一下2個(gè)算法的不同點(diǎn)。

借用機(jī)械學(xué)習(xí),進(jìn)行人體33個(gè)2D姿勢(shì)探測(cè)與評(píng)價(jià)

人工自動(dòng)行業(yè)也卷了嗎——YOLO系列又被更新了,YOLOv7橫空出生


1.jpg


基于深度學(xué)習(xí)的人體姿勢(shì)預(yù)計(jì)

自2014年Google初次公布DeepPose此后,基于深度學(xué)習(xí)的姿勢(shì)預(yù)計(jì)算法已然獲得了較大的進(jìn)步。這類算法往往分2個(gè)階段工作。

職員探測(cè)

主要點(diǎn)定位

依據(jù)設(shè)施[CPU/GPU/TPU]的不同,不同框架的功能有所不同。有不少兩階段姿勢(shì)預(yù)計(jì)模型在基準(zhǔn)測(cè)驗(yàn)中體現(xiàn)優(yōu)良,比如:Alpha Pose、OpenPose、Deep Pose等等。但是,因?yàn)閮呻A模型相對(duì)高難,獲取的實(shí)時(shí)功能十分昂貴。這類模型在GPU上運(yùn)作得很快,而在CPU上運(yùn)作的較慢。就效益和確切性而言,MediaPipe是1個(gè)較好的姿勢(shì)預(yù)計(jì)框架。它在CPU上形成實(shí)時(shí)探測(cè),且速率很快。


2.jpg


YOLOv7

與傳統(tǒng)的姿勢(shì)預(yù)計(jì)算法不同,YOLOv7姿勢(shì)是1個(gè)單級(jí)多人主要點(diǎn)探測(cè)器。它擁有自頂向下和自底向上兩類方式中的好處。YOLOv7姿勢(shì)是在COCO信息集上訓(xùn)練的,初期的文章咱們也分享過(guò)YOLOv7人體姿勢(shì)探測(cè)的代碼。


3.jpg


YOLOv7 是 YOLO 系列中最超前的新式物體探測(cè)器。依據(jù)論文,它是迄今為止最快、最確切的實(shí)時(shí)物體探測(cè)算法。依據(jù) YOLOv7 論文,最佳的模型獲取了 56.8% 的平均精度(AP),這是一切已知目標(biāo)探測(cè)算法中最高的。各類模型的速率范疇為 5-160 FPS。與根基模型相比,YOLOv7 將參數(shù)數(shù)目減小到40%,計(jì)算量減小 50%。

MediaPipe人體姿勢(shì)探測(cè)

MediaPipe 是一款由 Google Research 開(kāi)發(fā)并開(kāi)源的多媒體機(jī)械學(xué)習(xí)模型運(yùn)用框架。在谷歌,一系列首要成品,如 、Google Lens、ARCore、Google Home 并且 ,都已深度整合了 MediaPipe。


4.jpg


MediaPipe 的中心框架由 C++ 實(shí)行,并供應(yīng) Java 并且 Objective C 等話語(yǔ)的撐持。MediaPipe 的首要概念含蓋信息包(Packet)、信息流(Stream)、計(jì)算單元(Calculator)、圖(Graph)并且子圖(Subgraph)。


5.jpg


MediaPipe Pose是用來(lái)高保真人體姿態(tài)追蹤的ML解決計(jì)劃,借用BlazePose研發(fā)成果,還從ML Kit Pose Detection API中獲取了RGB視頻幀的全部33個(gè)2D標(biāo)注(或25個(gè)上身標(biāo)注)。當(dāng)下最超前的方式首要依附壯大的桌面環(huán)境進(jìn)行推斷,而MediaPipe Pose的方式可在大多數(shù)當(dāng)代手機(jī),乃至是Web上實(shí)行實(shí)時(shí)功能。

MediaPipe中有3個(gè)模型用來(lái)姿態(tài)預(yù)計(jì)。


6.jpg


YOLOv7 vs MediaPipe特點(diǎn)對(duì)照


7.jpg


YOLOv7 

17 Keypoints COCO

33 Keypoints COCO + Blaze Palm + Blaze Face

YOLOv7是1個(gè)多人探測(cè)框架。MediaPipe是1個(gè)單人探測(cè)框架(首要原因是只用來(lái)CPU,速率較快),因而在咱們實(shí)行人體姿勢(shì)探測(cè)時(shí),須要存眷能否只探測(cè)多人,或者單人,固然對(duì)自行的設(shè)備配置也有很高的需要。

MediaPipe 代碼實(shí)行人體姿勢(shì)探測(cè)

cap = cv2.VideoCapture(0)

time.sleep(2)

               print("Ignoring empty camera frame.")

       image = cv2.cvtColor(cv2.flip(image, 1), cv2.COLOR_BGR2RGB)

       image = cv2.cvtColor(image, cv2.COLOR_RGB2BGR)

       cv2.imshow('MediaPipe Pose', image)

       if cv2.waitKey(5) & 0xFF == ord('q'):


8.jpg


因?yàn)镸ediaPipe是1個(gè)單人探測(cè)框架,因而在視頻中,MediaPipe只探測(cè)單個(gè)體的姿勢(shì),其余人體姿勢(shì)則會(huì)忽視,固然,軟件會(huì)探測(cè)哪個(gè)體體姿勢(shì),理論上是最前面的人體姿勢(shì),可是通過(guò)試驗(yàn)后,實(shí)則并非完都是如此。從上圖闊以看出,固然MediaPipe僅撐持應(yīng)用在CPU上,可是探測(cè)速率與精度相當(dāng)快,毛病是自動(dòng)進(jìn)行單人體姿勢(shì)探測(cè)。

YOLOv7 代碼實(shí)行人體姿勢(shì)探測(cè)

從 YOLOv7-Tiny 模型開(kāi)啟,參數(shù)剛剛超越 600 萬(wàn)。它的驗(yàn)證 AP 為 35.2%,打敗了擁有類似參數(shù)的 YOLOv4-Tiny 模型。擁有近 3700 萬(wàn)個(gè)參數(shù)的 YOLOv7 模型供應(yīng)了 51.2% 的 AP,再次打敗了擁有更多參數(shù)的 YOLOv4 和 YOLOR 的變體。


9.jpg


YOLO7 系列中較大的模型,YOLOv7-X、YOLOv7-E6、YOLOv7-D6 和 YOLOv7-E6E。一切這類都打敗了 YOLOR 模型,它們的參數(shù)數(shù)目類似,AP 分別為 52.9%、55.9%、56.3% 和 56.8%。

       img = letterbox(frame, input_size, stride=64, auto=True)[0]

               t1 = time.time()

               t2 = time.time()

               fps = 1/(t2 - t1)

                                                                                 0.25,       # Conf. Threshold.

                                                                                 0.65,       # IoU Threshold.

                                                                                 nc=1,     # Number of classes.

                                                                                 nkpt=17, # Number of keypoints.

       nimg = img[0].permute(1, 2, 0) * 255

       nimg = nimg.cpu().numpy().astype(np.uint8)

       nimg = cv2.cvtColor(nimg, cv2.COLOR_RGB2BGR)

       for idx in range(output.shape[0]):

               plot_skeleton_kpts(nimg, output[idx, 7:].T, 3)     

因?yàn)閅OLOv7是1個(gè)多人探測(cè)框架,因而在單個(gè)視頻幀中,YOLOv7框架會(huì)實(shí)時(shí)探測(cè)多人體姿勢(shì)。從上圖闊以看出,探測(cè)速率也是很快的,這是由于此例子應(yīng)用的是GPU模型運(yùn)作,若YOLOv7運(yùn)用在CPU上面,則探測(cè)速率很慢。


10.jpg


MediaPipe與YOLOv7對(duì)照探測(cè)

從以上的簡(jiǎn)介,咱們知曉,mediapipe是1個(gè)單人探測(cè)框架,因而探測(cè)速率特別快,一樣的的一段探測(cè)目標(biāo),一樣的應(yīng)用CPU進(jìn)行人體姿勢(shì)探測(cè),則mediapipe完全占一定優(yōu)勢(shì)。


11.jpg


CPU人體姿勢(shì)探測(cè)

可是一經(jīng)上GPU,yolov7的優(yōu)勢(shì)就會(huì)大大的提升,闊以看見(jiàn),一經(jīng)用上了GPU,yolov7的探測(cè)速率就到達(dá)了84FPS,而因?yàn)閙ediapipe只是用來(lái)CPU,就算加上GPU,也施展不到GPU的優(yōu)勢(shì)。


12.jpg


其余文章考慮

Transformer模型注重力體制的概念

借用機(jī)械學(xué)習(xí),進(jìn)行人體33個(gè)2D姿勢(shì)探測(cè)與評(píng)價(jià)

借用機(jī)械學(xué)習(xí),進(jìn)行人手的21個(gè)3D手關(guān)節(jié)坐標(biāo)探測(cè)

借用機(jī)械學(xué)習(xí)進(jìn)行人臉468點(diǎn)的3D坐標(biāo)探測(cè),并形成3D模型

MediaPipe 集成人臉辨認(rèn),人體姿勢(shì)評(píng)價(jià),人手探測(cè)模型

推翻2D目標(biāo)探測(cè)模型,MediaPipe 3D目標(biāo)探測(cè)復(fù)原真正的目標(biāo)特點(diǎn)

MediaPipe Face Detection可運(yùn)作在移動(dòng)設(shè)施上的亞毫秒級(jí)人臉探測(cè)

高大上的YOLOV3目標(biāo)探測(cè)算法,應(yīng)用python也可輕盈實(shí)行

應(yīng)用python輕盈實(shí)行高大上的YOLOV4目標(biāo)探測(cè)算法

基于python的YOLOV5目標(biāo)探測(cè)模型實(shí)行



本文網(wǎng)址:http://55swg.cn/news/2096.html

相關(guān)標(biāo)簽:根基模型,學(xué)習(xí)模型運(yùn)用,3個(gè)模型,GPU模型運(yùn)作,Transformer模型,3D模型,探測(cè)模型

最近瀏覽:

在線客服
分享