寧波材料所在姿態(tài)估計研究方面取得進展
試圖讓計算機具備自動理解圖像或者視頻序列中蘊含的人體行為信息的能力一直都是眾多機器學(xué)習(xí)相關(guān)領(lǐng)域研究的熱點問題。人體姿態(tài)估計是這些任務(wù)的重要基礎(chǔ),在行為識別、人機交互、人類重新識別、影音娛樂等領(lǐng)域均有廣泛的應(yīng)用。人體姿勢估計是指通過從圖像中定位身體關(guān)鍵點(頭部、肩部、肘部、手腕、膝蓋、腳踝等)來識別姿勢的任務(wù)。由于自然圖片中的背景與光照、人體外觀特征和姿勢結(jié)構(gòu)的復(fù)雜多變性,該任務(wù)面臨諸多挑戰(zhàn),當(dāng)場景推廣到多人時,問題進一步復(fù)雜化。中國科學(xué)院寧波材料技術(shù)與工程研究所計算機視覺團隊基于全局信息整合的姿態(tài)估計方面開展了深入的研究。
在這項工作中,團隊主要關(guān)注基于卷積神經(jīng)網(wǎng)絡(luò)的方法,采用兩步框架實現(xiàn)多人姿態(tài)估計。輸入一張尺寸為W×H×3的圖像,將其大小調(diào)整為CNN的輸入大小,經(jīng)過人體檢測器生成一組人體邊界框,獲得的人體邊界框被輸入“特征編碼(FEM)+姿態(tài)解碼(PPM)”模塊,依次預(yù)測每個人關(guān)鍵點的定位,生成k個尺寸為W’×H’的熱圖Mk來表示第k個關(guān)鍵點的位置置信度。最后,執(zhí)行非極大值抑制來消除冗余姿勢,得到最終的人體姿態(tài)。
團隊在獲得了良好的人體邊界框提議后,設(shè)計了一種基于全局信息提取的新型網(wǎng)絡(luò)結(jié)構(gòu),包含特征編碼與姿態(tài)解碼兩個部分?;谌中畔⒄系膱D像特征編碼模塊學(xué)習(xí)圖像中良好的特征,包括特定于實例的對外觀不變的信息,如顏色、樣式等。團隊使用的網(wǎng)絡(luò)結(jié)構(gòu)基于最常用的圖像特征提取骨干網(wǎng)絡(luò)ResNet,加入FEM子網(wǎng)絡(luò),采用與之前網(wǎng)絡(luò)不同的歸一化策略,提取更加詳盡的圖像特征,以預(yù)測更加精準(zhǔn)的關(guān)鍵點位置。另外提出了一種新穎的卷積結(jié)構(gòu)FEM,它可以學(xué)習(xí)捕捉和消除外觀變化,同時保持對學(xué)習(xí)特征的區(qū)分。
為了進一步降低人員的錯誤連接,團隊還將人體連接的先驗知識加入網(wǎng)絡(luò),實現(xiàn)連接精度的提高,設(shè)計了一個超邊幾何約束來模擬人類骨骼結(jié)構(gòu),旨在提高當(dāng)前深度網(wǎng)絡(luò)在建模結(jié)構(gòu)先驗中的能力,以進行姿態(tài)估計。這種策略改進了復(fù)雜或擁擠場景中被遮擋關(guān)鍵點的估計。相關(guān)研究工作發(fā)表于Journal of Physics Conference, 2019, 1302:032015。

圖1 框架概述,通過將一張圖片中多個人員實例檢測為單人檢測框提議,輸入特征編碼模塊(FEM)與姿態(tài)解析模塊(PPM),F(xiàn)EM接收人類提議,PPM生成姿勢提議;經(jīng)過非極大值抑制(NMS)以消除冗余姿勢估計,生成最終的多人姿勢提議

圖2 FEM和PPM策略的說明,輸入RGB圖片,通過集成IN與BN構(gòu)建塊的FEM子網(wǎng)絡(luò)進行下采樣提取特征,經(jīng)過PPM(包含三種不同策略)子網(wǎng)絡(luò)生成精確地人體關(guān)鍵點熱圖

圖3 人體關(guān)鍵點定位,左邊為basenet預(yù)測的姿態(tài)及關(guān)鍵點熱圖,右圖是采用團隊的“FEM+PPM”改進后的結(jié)果

圖4 COCO驗證的精確回憶曲線在所有,大和中等尺度上設(shè)置

圖5 團隊所建立的模型在COCO數(shù)據(jù)集上預(yù)測的一些結(jié)果:包含視點和外觀變化、遮擋、多個人和常見的成像工件
?。ㄏ冗M制造所 楊景翔 許根)