該競賽為與動作辨識相關之競賽,首次舉辦於CVPR2016年,截至目前為止已經舉辦了三次(CVPR2016 - 2018),而競賽的內容主要在於辨識日常、複雜以及較有目標明確性之動作影片,目前主要分為以下六個任務進行挑戰,任務1至任務3以及任務A至任務C 而任務1至任務3使用ActivityNet的資料庫進行競賽,任務A至任務C則使用Kinetics (Google DeepMind)AVA (Berkeley and Google)以及Moments in Time (MIT and IBM Research),該篇分別針對以下此6項挑戰任務進行介紹。

任務1: 時序動作提名生成 (Temporal Action Proposals)

任務2: 時序動作定位 (Temporal Action Localization)

任務3: 視頻密集描述生成 (Dense-Captioning Events in Videos)

任務A: 視頻動作分類 (Trimmed Action Recognition)

任務B: 時空動作定位 (Spatio-temporal Action Localization)

任務C: 視頻事件分類 (Trimmed Event Recognition)

 

任務1: 時序動作提名生成 (Temporal Action Proposals)

此任務是針對長視頻進行動作識別,此任務只需偵測出視頻中哪些時間點是有人在做動作,無須偵測出人正在做什麼動作,而下圖藍色條為Ground Truth,代表影片中實際有人在進行動作,綠色則是進行動作預測之結果,並針對藍色條以及綠色條的相似程度進行評分,可以看出若越為接近所得分數愈高。

任務2: 時序動作定位 (Temporal Action Localization)

此任務相較於任務1變得更加的困難,不單只是偵測出影片中是否有人在進行動作,還需要準確的偵測出影片中哪一段中的人正在進行什麼樣的動作,如下圖所示,可以看出影片在某個時間點作出了跳遠的這個動作,因此,針對長視頻需要偵測出該視頻在什麼時間點做了什麼樣的動作,且一個長視頻可能會包含多種動作。

任務3: 視頻密集描述生成 (Dense-Captioning Events in Videos)

任務3的視頻密集描述生成的挑戰是,當機器觀看完視頻後,需要透過文字的方式描述出該影片中的人在進行什麼樣的動作,於該例子中,可以看出右邊為該影片情境描述之Ground-truth,而下圖的影片下面為機器之預測結果,透過兩者相似度比較來進行評分。

任務A: 視頻動作分類 (Trimmed Action Recognition)

此挑戰任務使用的資料庫為Kinetics-600 dataset,該資料庫包含約500K的視頻剪輯以及600種不同之動作類別,而每個視頻約有10秒的長度且只有單一的標記,而該任務則是針對短視頻進行動作辨識,如下圖所示,為資料庫的影片內容以及該動作類別,挑戰者需正確的判斷出視頻中的動作。

任務B: 時空動作定位 (Spatio-temporal Action Localization)

此任務需針對空間以及時間進行偵測,以判別出長視頻中什麼人在什麼地方做了什麼事情,如下圖所示,可以看出視頻中有許多人被找出以及預測目前在做的動作,而該任務使用AVA atomic visual actions dataset (AVA Dataset version V2.1),包含430個約15分鐘的視頻,且長度約為15分鐘,235個為訓練集、64個驗證集以及131個為測試集,相較於上述之視頻動作分類,此任務需要使用RPN網路進行人類位置定位,並判別被定位的人類正在進行什麼樣的動作。

任務C: 視頻事件分類 (Trimmed Event Recognition)

視頻事件分類 (Trimmed Event Recognition)是針對複合性高的動作進行辨識,相較於視頻動作分類比賽的動作較為複雜許多,如滑雪、衝浪以及騎腳踏車等,而該視頻事件分類動作較為複雜,如圖中的打保齡球或是堆罐子的過程,需要針對一連串動作進行學習才得以判斷事件,無法像是視頻動作分類學習只識別較為單一的動作,因此辨識起來更加的困難。

 

arrow
arrow

    水面上的小草 發表在 痞客邦 留言(0) 人氣()