Predictores para la Premier League: Posición en la tabla

Si pudieras elegir un superpoder ¿cuál sería? Estoy seguro que el que muchos elegirían sería la precognición. Tan sólo imagina todo lo que podrías hacer si pudieras ver un minuto en el futuro. Esto es parte de la trama de la película «Next» protagonizada por Nicolas Cage y la novela postapocalíptica «The Golden Man». Pero volviendo al mundo real, esta es una habilidad totalmente alejada de la capacidad humana hasta donde sabemos, pero en cambio tenemos la predicción. Continuamente predecimos la respuesta emocional de nuestros seres queridos, el clima, el tráfico y hasta los resultados de nuestro equipo favorito. Sabemos que la fiabilidad de nuestra predicción está relacionada con la fuerza con la que se presentan ciertos indicadores. Por ejemplo, la presencia de nubes oscuras es un indicador de lluvia, dada la fuerza con la que se presenta este indicador. En cambio, un día puede estar nublado, pero si este indicador no se presenta con fuerza, nos permitimos dudar de un pronóstico de lluvia.

En lo que concierne al fútbol, existen distintos tipos de indicadores y hasta modelos matemáticos que permiten determinar con cierta precisión lo que ocurrirá en un partido. Entre los indicadores y modelos matemáticos, están los más simples y obvios, y están los que buscan el bosque entre la maraña. En esta serie de artículos, abordaremos algunos de los más obvios y su efectividad al momento de predecir. Claro está que los indicadores y modelos matemáticos están para servir al pronosticador y no al revés, por lo que es sabio tener reservas al momento de usarlos. Así que, sin más, comencemos.

La posición en la tabla

Primero recopilamos los datos para analizar si realmente esta comparación tiene capacidad de predicción. Analizamos las temporadas de la Premier League desde el año 2012 hasta el 2023 dejando fuera la temporada 2019-2020 y la temporada 2020-2021. Los datos se recopilan de la siguiente manera:

dato = puntos del local - puntos del visitante
si el local gana, el dato se agrega al grupo verde
si el local pierde, el dato se agrega al grupo rojo

De esta manera obtenemos dos grupos, los cuales son representados en la Figura 1. En esta figura se puede apreciar que del lado izquierdo la línea roja está por encima la línea verde y del lado derecho este orden se invierte. La prueba t respalda lo que se aprecia del gráfico, por lo que se asume que en efecto hay diferencia significativa. Otro detalle que se puede apreciar es que los tamaños de las barras presentan una mayor diferencia del lado derecho. Esto se debe a la ventaja del local que ya discutimos anteriormente.

Figura 1. Diferencias de puntos entre el equipo local y el equipo visitante para todas las temporadas analizadas.

Ahora vamos a explorar algunas ideas sobre cómo aprovechar de mejor manera este predictor.

Primer enfoque: comparación simple

Digamos que si predices el ganador de cada partido basándote únicamente en la tabla acertarás un poco más del 50% de las veces. Estos resultados se muestran en la Tabla 1. Si el equipo A tiene más puntos que el equipo B, lo elegimos como favorito. Pero si tanto A como B tienen los mismos puntos, no se realiza la predicción. Por esta razón las columnas no necesariamente suman los 380 partidos que se llevan a cabo por temporada.

Temporadas2012-20132013-20142014-20152015-20162016-20172017-20182018-20192021-20222022-2023Total
Aciertos1651951711611931732031851841630
Errores1841571831891651761571621761549
Aciertos (%)47.2855.448.3146.053.9149.5756.3953.3151.1151.27
Tabla 1. Aciertos y errores tras predecir el resultado de cada partido tomando como indicador la tabla de posiciones.

Si predices el ganador de cada partido basándote únicamente en la tabla, acertarás un poco más del 50% de las veces

Segundo enfoque: compensación para el visitante

Otra forma de hacerlo es «regalarle» una cantidad de puntos al visitante (dada la ventaja del local que ya discutimos) y hacer la comparación entre los puntos para decidir quién va a ganar. Si hacemos esto, la Tabla 2 representa los aciertos y errores por temporada. Cabe destacar que que estos puntos que se agregan a los del visitante es un valor que se calculó partido a partido, algo imposible en la práctica, pero que no debe afectar significativamente en los resultados.

Temporadas2012-20132013-20142014-20152015-20162016-20172017-20182018-20192021-20222022-2023Total
Aciertos1852031891712091882041922021743
Errores1941751902081701911751871771667
Aciertos (%)48.8153.7049.8745.1255.1549.6053.8350.6653.3051.11
Tabla 2. Aciertos y errores al predecir el resultado de cada partido tomando como indicador la tabla de posiciones y regalando puntos al visitante.

Una manera posiblemente simple y, al mismo tiempo, efectiva de utilizar este sistema consiste en comparar directamente los puntos en la tabla de posiciones (más abajo exploramos un método más efectivo pero también más complicado). Determinar cuántos puntos sumar al equipo visitante para contrarrestar la ventaja del equipo local es algo que solo se puede conocer retrospectivamente. No obstante, como alternativa, se podría calcular esta compensación justo a mitad de temporada, a partir del partido 190, y comenzar las predicciones desde ese punto. En este escenario, los resultados se reflejarían en la Tabla 3. Sin embargo, cabe destacar que la mejora en la precisión de las predicciones no es significativa.

Temporadas2012-20132013-20142014-20152015-20162016-20172017-20182018-20192021-20222022-2023Total
Aciertos87101968610110410793105880
Errores10288931038885829684821
Aciertos(%)46.0353.4450.7945.553.4455.0356.6149.2155.5651.73
Tabla 3. Aciertos y errores al predecir el resultado de cada partido tomando como indicador la tabla de posiciones y haciendo predicciones a partir de media temporada.

Tercer enfoque: la zona gris

Tomando como muestra la temporada 2022-2023, te mostramos los siguientes polígonos de frecuencia (Figura 2). Un enfoque adicional podría ser delimitar una zona de no predicción, la cuál se ubicaría en donde los intervalos de los histogramas tienen más o menos la misma altura, que en este caso sería desde -26 hasta -3. Es decir, cuando la diferencia entre los puntos del local y los puntos del visitante sea mayor a -3, se predice que ganará el local. Y por contraparte, cuando la diferencia sea menor a -26, se predice que ganará el visitante.

Utilizando el enfoque de la zona gris obtenemos los resultados de la Tabla 4. Para cada temporada se utilizó la misma zona gris, por lo que no se puede argumentar sobreajuste. Ahora, algo interesante es que la prueba de bondad de ajuste para independencia entre temporadas da un valor-p de 0.0917, por lo que se puede utilizar la misma zona gris para diferentes temporadas y obtener un porcentaje de aciertos al rededor del 57.16%.

Temporadas2012-20132013-20142014-20152015-20162016-20172017-20182018-20192021-20222022-2023Total
Aciertos1301441361261511461501331491265
Errores12094105123981099911090948
Aciertos (%)52.0060.5056.4350.6060.6457.2560.2454.7362.3457.16
Tabla 4. Aciertos y errores para cada temporada usando el enfoque de la zona gris.

Cuando se localiza una zona de no-predicción, se puede acertar casi el 60% de las veces

Conclusión

La diferencia de puntos de la tabla de posiciones cumple con cierta precisión al momento de predecir el resultado de un partido. Haciendo una comparación simple nos olvidamos de cualquier análisis y podemos esperar cerca del 50% de precisión. Agregar puntos al visitante para compensar la ventaja del local (segundo enfoque) no demostró una mejora significativa, además de requerir cierto análisis, por lo que no termina de valer la pena. Por último, el enfoque de la zona gris fue el mejor de todos, pero es un poco más complicado de utilizar y hay que tener cierto criterio tanto para evitar el sobreajuste como para elegir el número de intervalos de los histogramas. Siendo honesto, la zona gris propuesta fue la primera que encontramos, no exploramos ninguna otra opción ni muchos límites de este, sólo elegimos 13 intervalos y probamos, por lo que, aunque se obtuvieron buenos resultados, estos podrían mejorar. Ya para concluir, cabe mencionar que la efectividad no lo es todo. Alguien puede tener una efectividad mayor si sólo predice a favor del Manchester City y el Liverpool siendo locales. Lo interesante es tener una alta efectividad a la vez que se realizan muchas predicciones. Por esta y muchas razones, sigo habiendo interés en explorar otros predictores.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio