https://frosthead.com

Un modèle statistique peut-il prédire avec précision le nombre de médailles olympiques?

Si quelqu'un vous demande de prédire le nombre de médailles que chaque pays remportera aux Jeux olympiques de cette année, vous tenterez probablement d'identifier les athlètes favorisés dans chaque épreuve, puis additionnez les gains attendus de chaque pays pour obtenir un résultat.

Les frères Tim et Dan Graettinger, à l'origine de la société d'exploration de données Discovery Corps, Inc., ont une approche assez différente. Ils ignorent complètement les athlètes.

Au lieu de cela, leur modèle pour les jeux de Sotchi prend en compte la zone géographique de chaque pays, le PIB par habitant, la valeur totale des exportations et la latitude permettant de déterminer le nombre de médailles remportées par chaque pays. Au cas où vous vous le demanderiez, cela prédit que les États-Unis l'emporteront avec 29 médailles au total.

Les Graettingers ne sont pas les premiers à utiliser ce type d’approche descendante basée sur les données pour prédire le nombre de médailles. Daniel Johnson, professeur d'économie au Colorado College, a construit des modèles similaires pour les cinq Jeux olympiques de 2000 à 2008 - atteignant une précision globale de 94% en matière de prévision du nombre de médailles de chaque pays - mais n'a pas créé de modèle pour Sochi.

Dan et Tim sont plus récents dans la partie. Dan, qui travaille généralement sur des projets d’exploration de données plus classiques, par exemple en prédisant les clients potentiels d’une entreprise, s’intéresse d’abord à l’utilisation de modèles pour prédire les compétitions il ya quatre ans, lors des Jeux olympiques d’hiver de Vancouver. "J'utilise des données sur le passé pour prédire l'avenir tout le temps", dit-il. "Chaque soir, ils montraient le décompte des médailles à la télévision et je me suis demandé si nous pouvions le prédire."

Même si les performances des athlètes individuels peuvent varier de manière imprévisible, a-t-il expliqué, il pourrait exister une relation globale entre les caractéristiques fondamentales d'un pays (sa taille, son climat et son montant de richesse, par exemple) et le nombre de médailles qu'il remporterait probablement. Ce type d’approche ne permettrait pas de déterminer quel concurrent pourrait remporter une épreuve donnée, mais avec suffisamment de données, il pourrait peut-être prédire avec précision le nombre total de médailles pour chaque pays.

Initialement, lui et son frère se sont mis au travail pour développer un modèle préliminaire pour les jeux de 2012 à Londres. Pour commencer, ils ont rassemblé une grande variété de types de jeux de données, allant de la géographie d'un pays à son histoire, sa religion, sa richesse et sa structure politique. Ils ont ensuite utilisé des analyses de régression et d'autres méthodes de traitement de données pour déterminer les variables les plus étroitement liées aux données historiques sur les médailles olympiques.

Ils ont constaté que, pour les jeux d'été, un modèle incorporant le produit intérieur brut, la population, la latitude et la liberté économique globale d'un pays (mesuré par l'indice de la Heritage Foundation) correspondait mieux au nombre de médailles de chaque pays pour les deux Jeux olympiques d'été précédents (2004). et 2008). Mais à ce stade, leur modèle préliminaire ne pouvait prédire que les pays qui gagneraient deux médailles ou plus, pas le nombre de médailles par pays.

Ils ont décidé de l’améliorer pour les jeux de Sotchi, mais ne pouvaient pas compter sur leur modèle précédent, car les pays qui réussissent bien en hiver diffèrent tellement de l’été. Leur nouveau modèle à Sotchi s'attaque au problème de la prévision du nombre de médailles en deux étapes. Étant donné qu'environ 90% des pays n'ont jamais remporté une seule médaille aux Jeux olympiques d'hiver (aucun athlète du Moyen-Orient, d'Amérique du Sud, d'Afrique ou des Caraïbes n'a jamais gagné), il sépare d'abord les dix pour cent susceptibles de gagner au moins une, puis prédit chacun va gagner.

"Certaines tendances correspondent à peu près à ce à quoi vous vous attendriez - à mesure que la population d'un pays s'agrandit, il est plus probable qu'il remporte une médaille", a déclaré Tim. "Cependant, vous aurez éventuellement besoin d'un appareil statistique plus puissant, capable de gérer un grand nombre de variables et de les classer en fonction de celles qui sont les plus prévisibles."

Finalement, ils sont tombés sur quelques variables qui séparent avec précision les 90% de pays non médaillés des 10% probables: taux de migration, nombre de médecins par habitant, latitude, produit intérieur brut et si le pays a a remporté une médaille lors des jeux d'été précédents (aucun pays n'avait jamais remporté une médaille d'hiver sans en avoir gagné une l'été, en partie parce que le bassin de vainqueurs d'été est bien plus grand que celui d'hiver). En utilisant ce modèle lors des deux derniers Jeux olympiques d’hiver, ce modèle a permis de déterminer les nations ayant remporté une médaille avec une précision de 96, 5%.

Avec 90% des pays éliminés, les Graettingers ont utilisé des analyses de régression similaires pour créer un modèle qui prédit, de manière rétroactive, le nombre de médailles remportées par chaque pays restant. Leur analyse a révélé qu'une liste légèrement différente de variables correspond le mieux aux données historiques sur les médailles. Ces variables ainsi que les prévisions pour les jeux de Sotchi sont les suivantes:

Image 4-Tableau des médailles prédites 2 - avec bordures.png Les prédictions du modèle pour les jeux de Sotchi (Graph, avec la permission du Discovery Corps, Inc.)

Certaines des variables qui se sont révélées corrélatives ne sont pas un choc énorme - il est donc logique que les pays des latitudes plus élevées réussissent mieux lors des épreuves disputées pendant les jeux d'hiver - mais certaines étaient plus surprenantes.

"Nous pensions que la population, et non la superficie, serait importante", déclare Dan. Ils ne savent pas pourquoi les zones géographiques finissent par s’ajuster plus étroitement aux données historiques, mais cela tient peut-être au fait que quelques pays très peuplés qui ne remportent pas de médailles hivernales (comme l’Inde et le Brésil) perdent ces données. En utilisant plutôt la superficie des terres, le modèle évite l'influence démesurée de ces pays, tout en conservant une association grossière avec la population, car dans l'ensemble, les pays ayant des zones plus étendues ont une population plus nombreuse.

Bien sûr, le modèle n’est pas parfait, même en comparant les données historiques. "Notre approche est l'approche de 30 000 pieds. Il y a des variables que nous ne pouvons pas prendre en compte", a déclaré Tim. Certains pays ont régulièrement surperformé les prévisions du modèle (notamment la Corée du Sud, qui remporte un nombre disproportionné d'événements de patinage de vitesse sur piste courte), tandis que d'autres sous-performent régulièrement peut-être parce que, malgré sa latitude, il reçoit beaucoup plus de pluie que de neige).

De plus, une exception constante qu'ils ont trouvée aux prédictions du modèle est que le pays hôte remporte plus de médailles qu'il ne le ferait autrement, simplement en se basant sur les données. L'Italie (lors des jeux de Turin 2006) et le Canada (lors des jeux de Vancouver de 2010) ont surpassé le modèle, le Canada établissant son record absolu en remportant 14 médailles d'or.

Néanmoins, sur la base de leur approche statistiquement rigoureuse, les Graettingers sont convaincus que, dans l’ensemble, leur modèle prédira le décompte final des médailles avec un degré de précision relativement élevé.

Comment leurs prévisions se comparent-elles à celles des experts qui utilisent des stratégies plus conventionnelles? Les experts ne diffèrent pas radicalement, mais ils ont quelques pays à succès traditionnels (Norvège, Canada, Russie) remportant un plus grand nombre de médailles, ainsi que quelques autres (Chine, Pays-Bas, Australie), chacun gagnant un peu moins.

À ce jour, les Graettingers n’ont pas parié sur leurs pronostics, mais ils prévoient de comparer la sortie de leur modèle aux cotes de pari juste avant le début des matchs. S'ils voient des anomalies qu'ils aimeraient exploiter, ils pourraient finir par mettre leur argent à la bouche.

Un modèle statistique peut-il prédire avec précision le nombre de médailles olympiques?