Fantasy Football & Data Science

DataRobot Superbowl

Le terme « Fantasy » se décline sous de multiples concepts et sports comme le (football, basket, hockey sur glace, baseball, cricket …).

Mais qu’est-ce que c’est ? Ce sont des ligues sportives virtuelles jouées sur Internet. Son principe est le suivant : une ligue regroupe un certain nombre de joueurs pouvant jouer le rôle de l’entraîneur d’une équipe, chaque joueur étant en charge de la composition de sa propre équipe. Grâce à des finances prédéfinies ou un budget virtuel, il peut interagir avec les autres participants et négocier une vente ou une acquisition de joueurs. A chaque journée, son équipe reçoit un certain nombre de points qui varie en fonction des vraies performances des joueurs qui composent son équipe.

⚽ Dans le Football Fantasy, les points peuvent fluctuer en fonction du nombre de buts marqués, du nombre de passes décisives réalisées ou encore, en fonction de la moyenne des notes reçues par chaque footballeur qui compose son équipe. Le but du jeu est simple : devenir le meilleur entraîneur virtuel de la saison en cumulant le maximum de points alloués. Les récompensent en jeu peuvent être multiples : cadeaux, argent ou plus simplement fierté d’avoir battu ses amis car c’est bien l’aspect communautaire des « Fantasy League » qui fait la force du concept. En France un des jeux référence est « Mon Petit Gazon (MPG) »

Alors quel rapport avec la Data Science ? Interrogeons Matt Marzillo, Data scientist chez DataRobot basé à Chicago : 

« En tant que fan de football qui est également un scientifique des données, la seule question que mes amis me posent le plus est la suivante : Pouvez-vous m’aider à gagner ma ligue de Fantasy Football en utilisant l’analyse prédictive et la modélisation, M. Data Scientist?  » 

Bien que je sois fan de football depuis toujours, Je n’ai jamais joué au Fantasy Football (et oui c’est possible…). Au lieu de former une équipe de joueurs réels et de suivre leur production tout au long de la saison comme le sont les ligues de Fantasy Football typiques; des sociétés comme DFS (DraftKings et FanDuel) ont tenté de renforcer la compétition et l’excitation en tournant cette saison en de longues compétitions quotidiennes et hebdomadaires où les joueurs peuvent former autant d’équipes qu’ils le souhaitent. Les cagnottes de ces concours sont également énormes; les joueurs peuvent gagner jusqu’à 1 million de dollars en étant bons à DFS !

Malheureusement, n’ayant jamais joué … Je ne suis probablement pas très bon en DFS. Mais cela m’a semblé être un problème bien adapté à la modélisation prédictive. Une fois que j’ai vu à quel point la plate-forme DataRobot facilite la création de modèles en automatisant d’énormes parties du processus, j’ai pensé que ce serait une bonne expérience de modélisation pour voir si avec les bonnes données, une puissante plateforme d’IA et quelques conseils d’expert en la matière, ce novice DFS pourrait rivaliser !

Ma méthode 😎 :

 

Comme tout bon scientifique des données, la première étape de mon projet a été de définir et de comprendre le « problème commercial » en parlant à un expert en la matière; dans ce cas, un employé de DataRobot, Gareth Goh, qui était auparavant un joueur DFS professionnel et un qualifié pour le Championnat du Monde DraftKings 2018. Il a décrit le cadre de base de ce que nous essayions de résoudre:

  • Prédire quels joueurs joueraient bien un dimanche donné, en fonction de leur match et d’autres facteurs contextuels.
  • Identifier les joueurs qui fourniraient le plus grand rapport qualité / prix (production de points fantastiques par rapport au salaire DraftKings qui leur a été attribué).
  • Construire une liste dans les limites du «plafond salarial» de 50 000 $.
  • Utiliser les principes de la théorie des jeux pour «zig tandis que les autres zag». Ces tournois à large champ sur DraftKings étaient littéralement remplis de dizaines de milliers de compositions fantastiques différentes et les prix étaient si élevés qu’il était important de différencier votre programmation et votre stratégie le mieux possible afin d’avoir un tir en premier lieu.

Dans cet esprit, j’ai décidé de construire un modèle à l’aide de DataRobot pour prédire les performances des joueurs. Accéder aux données et aux projections de divers fournisseurs de données fantastiques et utiliser une approche de «sagesse de la foule»  ainsi que des statistiques hebdomadaires décalées des joueurs remontant plusieurs semaines afin d’améliorer les projections. J’ai préparé et nettoyé ces données et chargé dans DataRobot pour construire mon modèle prédictif. Je laisse DataRobot gérer toute l’ ingénierie des fonctionnalités supplémentaires .

Les plans de DataRobot offrent différentes couches de visibilité sur la façon dont les fonctionnalités sont conçues.

J’ai ensuite construit un optimiseur simple qui appliquait des contraintes – le plafond salarial de 50000 $, ainsi que les postes (un quart-arrière, deux dos à dos, trois récepteurs larges, un extrémité serrée, un flexible et une équipe de défense / spéciale) – et j’ai pris le prédictions du modèle pour construire une gamme. Je l’ai inscrit à un tournoi sur DraftKings la semaine 1 … et j’ai gagné zéro dollar! Retour à la planche à dessin pour la semaine 2.

Gareth a mentionné que la plupart des joueurs entreront dans plusieurs files d’attente, jusqu’à 150 dans un tournoi, pour créer plusieurs combinaisons. Dans cet esprit, j’ai avancé l’optimiseur pour créer plus de files d’attente, ajustant le projet pour inclure des estimations d’intervalle de prédiction ainsi que des estimations ponctuelles. En utilisant ces estimations, je pouvais maintenant construire des distributions pour chaque joueur. J’ai également ajouté une nouvelle contrainte à l’optimiseur qui prenait en compte les distributions de chaque joueur mais en faisant attention à ne pas être surendetté sur un seul joueur (par exemple, ne pas avoir Tom Brady dans plus de 50% des files d’attente de mon optimiseur).

Le modèle et l’optimiseur ont généré des dizaines de files d’attente, dont j’ai choisi une poignée pour participer aux tournois de la semaine 2… pour de bien meilleurs résultats ! Ma meilleure formation a gagné 55 $ sur un droit d’entrée de seulement 3 $, un retour sur investissement assez important. 💸🖖

                 

 

Leçons tirées :

Le reste de la saison, comme pour tout type de jeu (en particulier dans le football), a vu beaucoup de hauts et de bas, alors que j’essayais d’en savoir plus sur les nuances du jeu tout en peaufinant continuellement mon modèle. Je suis resté convaincu qu’il s’agissait d’un problème de science des données très naturel: utiliser des données historiques avec des contraintes et un contexte approprié pour faire des prédictions, puis utiliser ces prédictions pour prendre des décisions axées sur le ROI « métier » était exactement ce que nous aidons les entreprises à faire chez DataRobot.

Le modèle DataRobot a eu du mal à prédire avec précision les performances des équipes de défense / spéciales  pas une énorme surprise; même au milieu du hasard sauvage de la Ligue nationale de football, les performances défensives sont particulièrement pleines de variance.

En revanche, le modèle Running Back s’est révélé très précis dans ses prévisions et projections de points.

Mais le football reste un sport notoirement varié, et la nature de la théorie des jeux (et la difficulté globale) des sports de fantaisie m’a fait réaliser que l’expertise en la matière en conjonction avec les meilleurs modèles prédictifs est toujours cruciale. Le modèle DataRobot a fait un bon travail en prédisant le retour en arrière et le score du récepteur large, tout en luttant davantage avec les défenses / équipes spéciales. Intuitivement, cela a du sens; le retour en arrière de la production est en grande partie fonction du volume, où plus un porteur de ballon est porteur, plus il est susceptible d’accumuler du métrage, des touchés et des points fantastiques. La production défensive est quant à elle l’un des aspects les plus aléatoires d’un sport très aléatoire; le score de fantaisie pour les défenses est généralement inférieur à celui des autres positions,

Au-delà de la précision du modèle, la plateforme DataRobot m’a également permis de construire un workflow assez complexe en très peu de temps, en itérant rapidement et en explorant des situations plus complexes en plus de cracher des prédictions. Le Fantasy Football est un jeu extrêmement aléatoire dans un sport très aléatoire, mais l’automatisation et la précision de DataRobot permettent à un novice avec l’accès à certaines données de qualité de tenter sa chance en jouant à Daily Fantasy Sports.

 

Author Profile

Mathieu RONDEAU
Mathieu RONDEAU

Laissez un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.