HMDB: a large human motion database

Nome: A large human motion database

Sigla: HMDB

Anno di creazione: 2011

URLHomePage: https://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/#overview

Introduzione

L'HMDB, raccolto da diverse fonti principalmente cinematografiche e, in minore misura, da archivi pubblici come l'archivio Prelinger, YouTube e video di Google, comprende 6849 clip suddivise in 51 categorie di azioni, ognuna con almeno 101 clip. Le categorie di azioni si dividono in cinque tipi:

- Azioni facciali generali: sorridere, ridere, masticare, parlare. - Azioni facciali con manipolazione di oggetti: fumare, mangiare, bere. - Movimenti corporei generali: fare la ruota, applaudire, arrampicarsi, salire le scale, tuffarsi, cadere a terra, fare la capriola all'indietro, stare in verticale sulle mani, saltare, fare trazioni, flessioni, correre, sedersi, alzarsi, fare la capriola, girarsi, camminare, salutare. - Movimenti corporei con interazione di oggetti: spazzolarsi i capelli, acchiappare, estrarre una spada, palleggiare, giocare a golf, colpire qualcosa, calciare una palla, raccogliere, versare, spingere qualcosa, andare in bicicletta, cavalcare, tirare a canestro, tirare con l'arco, sparare con una pistola, oscillare con una mazza da baseball, esercitarsi con la spada, lanciare. - Movimenti corporei per interazione umana: scherma, abbracciare, calciare qualcuno, baciare, pugilare, stringere mani, combattere con la spada.

Dataset, meta etichette, statistiche e stabilizzazione

Oltre all'etichetta della categoria di azione, ogni clip è annotata con un'etichetta di azione e una meta-etichetta che descrive la proprietà della clip. Poiché le sequenze video HMDB51 sono estratte da film commerciali e da YouTube, rappresentano una vasta varietà di condizioni di luce, situazioni e contesti in cui l'azione può apparire, catturati con diversi tipi di telecamere e tecniche di registrazione. Il punto di vista è un altro criterio di suddivisione supportato dall'HMDB. Per una copertura completa, sono distinguibili le prospettive frontale, laterale (destra e sinistra) e posteriore dei movimenti. Inoltre, esistono due categorie distinte, ovvero "nessun movimento" e "movimento della telecamera". La qualità dei video è valutata su tre livelli, e solo i campioni video classificati come "buoni" soddisfano il requisito di identificare le singole dita durante il movimento. I campioni che non soddisfano questo requisito sono valutati come "medi" o "cattivi" se parti del corpo o arti scompaiono durante l'esecuzione dell'azione. Il dataset include anche una sfida maggiore associata all'uso di clip video estratte da video reali: la presenza potenziale di significativi movimenti di telecamera/sfondo, che si presume interferiscano con il calcolo del movimento locale e debbano essere corretti. Per rimuovere il movimento della telecamera, sono state utilizzate tecniche standard di stitching delle immagini per allineare i fotogrammi di una clip.

Nei seguenti file vengono illustrate le 51 azioni

Links

https://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/#overview