ACL

Connexion

Association des Centraliens de Lyon

   Retour au dossier
wikimedia
Vue 156 fois
13 novembre 2018

Les données sportives : terrain de jeu idéal pour la Recherche

Les données relatives au sport sont extrêmement utiles pour mener à bien des travaux de recherche. Elles sont en effet à la fois similaires, hétérogènes et complexes; s’appliquent à des problèmes réels; et sont connues et maîtrisées par des experts, ce qui permet la validation empirique de résultats scientifiques.


Des données hétérogènes et complexes

Les données sportives peuvent être regroupées en trois grandes catégories : événements de match/compétitions; données de tracking (trajectoires); et méta-données.

Les événements de match/compétitions sont celles dérivées de règles et permettent d’identifier fautes, tirs et buts. Leur volume est relativement faible et elles sont peu complexes. Les meta-données servent quant à elles à contextualiser les données de match avec des informations statiques, telles que le nom des équipes ou la description des joueurs.

Les données de tracking sont par contre plus riches car elles décrivent les positions au millimètre près des joueurs. Ce sont les plus récentes car les technologies d’acquisition n’ont été déployées que récemment dans les stades. Elles peuvent être aussi très volumineuses.

Les données de tracking ont le plus de potentiel car il s’agit des données les plus élémentaires à partir desquelles on peut dériver de nouveaux attributs descriptifs (vitesse, accélération). Elles permettent aussi de cartographier les joueurs : position en temps réel, parcours, sur plusieurs matches voire sur des saisons.

Ces données ne nous sont cependant pas inconnues : tout élément en mouvement génère de telles données (que soient des avions, ou des clients dans un magasin). Le contexte par contre change ainsi que l’objectif du mouvement (but à atteindre).

Toutes ces données (dont celles de foot) restent cependant des objets de recherche car elles ne sont pas immédiatement analysables. En particulier à cause de problèmes de qualité : dans quelle mesure l’information enregistrée est-elle fiable ? Manque-t-il des données ? Certaines données sont-elles anormales ? Il est nécessaire de répondre à ces questions avant de réaliser toute forme d’analyse.

Le sport offre un cadre idéal car de plus en plus de données sont disponibles, ainsi que différents points de vues (capteur, flux vidéos) qui les rendent à la fois plus accessibles et plus contrôlables sous différents angles d’analyse.

Nous avons commencé des travaux de visualisation de très grands volumes de trajectoires [1] et nos méthodes, initialement développées pour l’analyse de trajectoires aériennes ou des connexions neuronales, sont immédiatement applicables aux déplacements de joueurs de rugby sur un terrain !

Des problèmes réels

Le sport se basant sur des données réelles, les problèmes sont réels eux aussi. Il s’agit de répondre à des besoins identifiés en amont avec les coaches, ou directement avec les sportifs qui cherchent à optimiser leurs performances, et indirectement leurs processus d'entraînement collectifs ou individuels.

L’analyse de telles données est aussi utile pour le management des clubs sportifs afin d’identifier des opportunités économiques : mieux ajuster le salaire des joueurs, recruter des joueurs sous-évalués et optimiser leur valeur de transfert, etc.

Ce processus a déjà été mis en oeuvre dans l’équipe de baseball de Oakland et a montré que les données sportives permettaient d’identifier des joueurs sous-côtés (lire le livre Moneyball: The Art of Winning an Unfair Game par Michael Lewis, 2003).

La recherche menée autour du sport permet également de s’attaquer à des problèmes qui auront une application dans d’autres domaines que scientifiques : économiques, ressources humaines, etc.

Ainsi, en matière de recherche, la phase de dissémination de travaux est facilitée car les travaux auront été validés en amont et en aval par des experts. A titre d’exemple les travaux précédents que j’ai publiés autour des classements des équipes de foot se sont montrés similaires aux classement des pays en fonction de leur développement économique [2].

Une validation empirique rigoureuse

La plupart des travaux autour du sport cherchent une validation quantitative : prédire les résultats de match, les performances individuelles, etc. Ce sont des métriques séduisantes mais qui ne reflètent pas la richesse des événements d’un match. Ces métriques sont remises en question car les performances sont souvent liées à des facteurs externes (météo, contexte du match, ..).

De nouvelles métriques sont d’ailleurs développées au foot afin de qualifier les “non-événements”, c’est-à-dire des événements potentiels qui n’ont pas eu lieu (par exemple les expected goals).

Il est donc nécessaire de se tourner vers une évaluation plus qualitative, via des experts qui sauront utiliser les résultats de recherche à bon escient et permettre ainsi leur mise en contexte. Ce “contexte” est souvent présent dans l’esprit des experts, mais malheureusement absent des données. C’est peut être la principale limite mais aussi opportunité de recherche : au delà d’inclure plus de données, et même de meilleures données, comment contextualiser la performance sportive (avec des informations sur le terrain, mais aussi au-delà du terrain ?) afin de mieux la comprendre.

Travailler autour des données sportives possède un réel intérêt : les experts sont partout ! Nous inclus ! Il s’agit donc autant de testeurs potentiels des outils et méthodes d’analyse de données. Mais aussi des étudiants ou amis, pourtant éloignés de la recherche, connaîtrons mieux des travaux complexes grâce au sport. Cela permet aussi une communication facile des problématiques et sensibilisera éventuellement ces personnes aux métiers de la recherche.

Une dernière perspective prometteuse des méthodes d’analyses de données sportives est de recentrer l’analyse sur l’humain dans un contexte non-compétitif. Ainsi, mieux comprendre ses déplacements quotidiens, sa santé et mieux gérer ses efforts sont autant de défis pour lesquels les travaux sur les sports en compétitions peuvent être directement applicables.

 

Pour aller plus loin romain.vuillemot.net


[1] Christophe Hurter, Nathalie Riche, Steven Drucker, Maxime Cordeil, Richard Alligier, Romain Vuillemot. FiberClay: Sculpting Three Dimensional Trajectories to Reveal Structural Insights. IEEE Transactions on Visualization and Computer Graphics, IEEE VIS 2018, Berlin. DOI : 10.1109/TVCG.2018.2865191

[2] Romain Vuillemot, Charles Perin. Investigating the Direct Manipulation of Ranking Tables. Proceedings of the 2015 Annual Conference on Human Factors in Computing Systems (CHI 2015), Apr 2015, Seoul, Korea. ACM.

Auteur

Romain Vuillemot est enseignant en informatique au département Math-Info de l’Ecole Centrale de Lyon depuis 2016. Il effectue sa recherche au LIRIS (UMR CNRS) en visualisation interactive de données. Il est diplômé d’un doctorat de l’INSA Lyon, a réalisé un post-doc a Inria Paris et travaillé en tant que Research Fellow a l’Université d’Harvard (Etats-Unis)

Articles du dossier


Ajoutez un message personnel