La détection d’anomalies expliquée avec le football

Temps de lecture : 4 minutes

C’est dimanche matin, vous prenez votre café et vous lisez le journal comme d’habitude. En tant que fan de football, vous allez à la page des sports pour voir les derniers résultats des matchs et alors… quelque chose attire votre attention (et vous manquez de renverser votre café!)… Une équipe de deuxième division a remporté le championnat d’Europe le plus compétitif ! Une seule chose vous vient à l’esprit : « Mais quoiiiii ?! ».

En effet, l’acte de remarquer ou de découvrir quelque chose d’assez inhabituel ou étrange pour être remarqué (c’est-à-dire être surpris !) est ce que nous appelons la détection d’anomalies (Cambridge Dictionary N.A.).

La détection d’anomalies est une technique qui peut être appliquée à différentes situations (Dutta & Vallabhajosyula, 2017) :

  • Télécommunications : détection des abus d’itinérance, des fraudes aux recettes et des interruptions de service
  • Banque : identifier les achats/dépôts anormalement élevés et détecter les cyber-intrusions
  • Finances et assurances : détecter et prévenir les patterns de dépenses frauduleuses et les frais de voyage
  • Santé : détecter les fraudes dans les demandes de remboursement et les paiements
  • Industrie : détecter le comportement anormal des machines pour prévenir l’augmentation des coûts de production
  • Réseaux sociaux : détecter les comptes compromis et les bots qui produisent de faux avis
  • Réseau : détecter les intrusions réseaux
  • Maison intelligente : détecter les fuites d’énergie
  • Surveillance vidéo : détecter ou suivre des objets et des personnes d’intérêt

Analytique comme vous l’êtes, vous êtes curieux de voir comment utiliser cette technique pour identifier les événements atypiques de votre équipe de foot préférée. Par exemple, les victoires inattendues ou les défaites avec des scores inhabituels. Mais, avant de commencer à chercher des données, il est important de comprendre un autre concept clé pour appliquer les techniques de détection des anomalies. Ce concept est appelé séries temporelles.

Une série temporelle « est un ensemble d’observations régulières ordonnées dans le temps (…) prises à des périodes/moments successifs, le plus souvent équidistants » (OECD.org, N.A.). Dans notre exemple de football, les données des séries temporelles sont les données historiques de tous les matches et le nombre de buts, marqués en faveur de son équipe ou contre.

En fusionnant les concepts de détection d’anomalies et de séries temporelles, on pourrait dire que la détection d’anomalies en séries temporelles est l’identification d’événements rares qui présentent des caractéristiques différentes de la majorité des données traitées dans le temps (DeepAI.org, N.A.).

Pour revenir à notre exemple, nous pourrions avoir pour objectif de d’identifier, à partir des données historiques, les matches où notre équipe a gagné ou perdu avec une différence de score inhabituelle.

Pour simplifier l’analyse, nous allons créer une nouvelle variable appelée « nombre de buts nets » (num_goals_net) qui représentera le nombre de buts en faveur moins le nombre de buts contre. Après avoir effectué des recherches sur Internet pour obtenir l’ensemble de données, et avoir procédé au data wrangling (préparation des données à partir de leur format brut), nous arrivons au graphique ci-dessous pour notre équipe. Il illustre les valeurs de nos nouvelles variables dans le temps.

Un rapide coup d’œil sur le graphique montre que la plupart des résultats dans le temps se situent entre -2 et 2, en termes de nombre de buts nets. La valeur la plus faible correspond aux matchs perdus par l’équipe avec une différence de 2 buts, et la valeur la plus élevée correspond aux matchs gagnés avec une différence de 2 buts. Il semble que tout ce qui se situe en dehors de cette fourchette soit des événements considérés comme inhabituels/atypiques/moins fréquents. Après avoir utilisé les techniques de détection des anomalies, nous avons pu voir clairement que l’interprétation semble correcte :

La zone verte montre la majorité des événements (environ 90 % des cas), et les points rouges sont les anomalies détectées par l’algorithme.

Vous êtes curieux d’en savoir plus sur les techniques de détection des anomalies ? Comment pouvez-vous les utiliser dans vos cas d’usage métier ? N’hésitez pas à nous contacter pour une discussion plus approfondie !

Références – vérifiées le 22 Février 2021 :

  • Cambridge Dictionary, N.A. ‘Anomaly’ [ONLINE]. Disponible ici
  • Cambridge Dictionary, N.A. ‘Detection’ [ONLINE]. Disponible ici
  • DeepAI.org, N.A. ‘Anomaly Detection’ [ONLINE]. Disponible ici
  • Dutta, S., Vallabhajosyula, R. R., 2017. ‘Anomaly Detection – Real World Scenarios, Approaches and Live Implementation’ [SLIDESHARE]. Disponible ici.
  • OECD.org, N.A. ‘Time Series’ [ONLINE]. Disponible ici

Commentaires :

A lire également sur le sujet :