Nourrir 3 cadres vidéo consécutifs à un CNN pour suivre une balle de tennis

https://datascience.stackexchange.com/questions/53030

01-11-2019
|

Question

Je veux utiliser CNN Transfer Learning pour suivre une balle de tennis à partir des émissions de télévision de matchs de tennis. J'ai utilisé l'outil annotant VGG lien d'outil d'annotation (Utilisez la version 1 de l'outil pour la compatibilité avec le code Matterport) et avez environ 200 images annotées avec l'emplacement de la balle et les coordonnées X, Y données par l'outil pour le cercle de délimitation.

Comme ça:

Mais, le ballon est occlus par le corps du joueur inférieur ou le ruban de filet parfois et à d'autres pratiquement invisible parce qu'il bouge trop vite (d'autres fois, il est elliptique dans la direction de son mouvement).

Une solution potentielle que j'ai vue utilisée est ci-dessous dans un algorithme appelé TrackNet. Tracknet: Suivi de balle TrackNet J'ai contacté les créateurs de celui-ci et on m'a dit qu'ils seraient ouverts, mais cela fait plus d'un an, donc je veux essayer de l'imiter.

EDIT: Mon Q et A via e-mail avec l'équipe TrackNet:

Non.

Nous concatenons trois images qui sont de 9 tranches au total, puis les entrons dans un réseau, mais gardons le reste du réseau. Dans une telle méthode, la surcharge de calcul est uniquement sur la première couche.

Si vous souhaitez avoir un design comme le chiffre dans votre e-mail précédent, nous vous suggérons d'appliquer un RNN ou un LSTM pour suivre le ballon.

Meilleur, TSI-UI

"9 tranches au total" ... cela signifie-t-il RVB pour chacun des 3 images consécutives?

De plus, je sais de Karpathy Pong, comment alimenter les cadres de différence, mais comment nourrir 3 images consécutives comme fait dans TrackNet?

Je sais que 2 images ne suffisent pas à les avoir traversées manuellement et que 3 semble être le minimum nécessaire pour avoir au moins une balle de tennis visible.

En outre, Adrian Rosebrock a été informé par Adrian Rosebrock de Pyimage que j'aurais besoin d'estimation de la trajectoire et d'une caméra FPS élevée, c'est donc une autre avenue pour l'enquête, bien que TrackNet ne semble pas le faire avec aucune de ces fonctionnalités.

EDIT: Je lis les chapitres de livre de Deep Learning sur CNNS pour en savoir plus sur la façon dont ils traitent les informations d'entrée à un niveau bas afin que je puisse comprendre ce que signifie les tranches du concaténate 9. Chapitre du livre: Chapitre CNN
En tant que pensée, je pensais calculer une collection de cadres de différence à t - (t-1), t - (t-2), ..., t- (tn) qui pourrait aider à approximer l'emplacement du ballon.

Edit: Je viens de voir cette vidéo par Andrew Ng sur la sortie des nombres réels à partir d'un NN pour la détection et la localisation d'objets: Coursera VideoDonc, si cela est possible, je peux sortir y = [x_0, y_0, x_1, y_1, x_2, y_2] qui sont les coordonnées x, y du centre de la balle à t, t + 1, t + 2 et Prenez l'erreur quadratique moyenne entre Y-Hat et Y pour une perte. Remarque: Lors de l'alimentation du réseau, je pourrais avoir des cadres qui se chevauchent, c'est-à-dire. Nourrir [t, t + 1, t + 2] puis nourrir [t + 1, t + 2, t + 3] qui a l'intersection de t + 1, t + 2. Aussi pour les cadres pour lesquels la balle est trop floue, je vais entraîner un NN séparé qui obtient des entrées de l'emplacement de la balle à T_0 et T + N concaténées et sort l'emplacement du ballon à T_J où J est entre 0 et n. L'utilisation de ces sorties pour annoter les cadres "Ball invisible", puis utilisez cet ensemble "complet" de cadres de vérité au sol concaténés comme ensemble d'entraînement pour le NN principal qui suit la balle en vidéo.

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange