Predictores para la Premier League: Diferencia de Goles

Si tuvieras que predecir el resultado de un partido cuya liga no conoces, quizá la elección más obvia sea comparar los puntos en la tabla de posiciones. No obstante, al reflexionar un poco más, se revela una posible limitación en este enfoque. La tabla de posiciones, a pesar de reflejar las victorias, no discrimina el rendimiento de manera detallada; ya sea que el equipo ganador triunfe por un gol o por cinco, acumula la misma cantidad de puntos.

Consideremos un escenario hipotético: el equipo A llega con un historial de 3 victorias en 3 partidos anteriores, todas ellas con una ventaja mínima y frente a equipos que han ocupado posiciones bajas en la tabla en temporadas previas. Por otro lado, el equipo B llega con dos victorias contundentes y un empate, también ante los mismos oponentes. En este contexto, aunque el equipo A tiene más puntos, su diferencia de goles es menor en comparación con el equipo B. Entonces, ¿cuál crees que es el resultado más probable? Como mencionamos, la diferencia de goles cuantifica indirectamente la calidad de las victorias, pero ¿realmente puede desempeñar el papel de un predictor confiable? Es una pregunta intrigante que exploraremos a continuación.

La diferencia de goles

Tal como hicimos en la entrada anterior, primero recolectamos los datos y vemos si en realidad este valor puede desempeñar el papel de un predictor. Los datos se recolectan de la siguiente manera:

dato = diferencia de goles del local - diferencia de goles del visitante
Si el equipo local gana, el dato se agrega al grupo verde
Si el equipo local pierde, el dato se agrega al grupo rojo

Con este procedimiento obtenemos la Figura 1, y vemos que en la parte izquierda de los histogramas domina la línea roja mientras que en la parte derecha domina la línea verde. Esto fundamenta la hipótesis de que realimente existe diferencia significativa entre ambos grupos, y esto se refuerza con la prueba t que da un valor-p prácticamente de cero.

Figura 1. Diferencias en las diferencias de goles asociadas a la victoria o derrota del equipo local para todas las temporadas analizadas.

Una vez comprobado el potencial predictivo de este indicador, procedemos a explorar ideas de cómo aprovecharlo de la mejor manera. Para esto proponemos tres enfoques: comparación simple, compensación al visitante y zona gris.

Primer enfoque: comparación simple

Ahora, basta con comparar la diferencia de goles del equipo A con la del equipo B, la predicción se inclinará por el equipo que tenga mejor diferencia de goles. Si dos equipos tienen la misma diferencia de goles, nos abstendremos de la predicción. En la Tabla 1 se muestran los aciertos y errores obtenidos por temporada usando este sistema.

Temporadas2012-20132013-20142014-20152015-20162016-20172017-20182018-20192021-20222022-2023Total
Aciertos1731971701652001752011921851658
Errores1831681951901661851611711701589
Aciertos (%)48.6053.9746.5846.4854.6448.6155.5252.8952.1151.06
Tabla 1. Aciertos y errores por temporada usando la diferencia de goles como predictor.

Los resultados son muy similares a los obtenidos tomando como predictor la posición en la tabla de posiciones. Haciendo una comparación simple, podemos esperar una efectividad un poco mayor al 50%.

Haciendo una comparación simple, podemos esperar una efectividad un poco mayor al 50%.

Segundo enfoque: compensación al visitante

Ahora, en este enfoque, regalamos una cantidad de goles al equipo visitante, dada la ventaja del local. A diferencia de la entrada anterior, en esta ocasión la compensación es fija y se obtiene por los polígonos de frecuencia de la Figura 2, puntualmente donde la línea verde supera definitivamente a la línea roja. Algo así como 10.5. Los resultados de este experimento se muestran en la Tabla 2.

Figura 2. Diferencias entre las diferencias de goles entre el equipo local y el equipo visitante.
Temporadas2012-20132013-20142014-20152015-20162016-20172017-20182018-20192021-20222022-2023Total
Aciertos1872061861792131982161962091790
Errores1931741942011671821641841711630
Aciertos (%)49.2154.2148.9547.1156.0552.1156.8451.5855.0052.34
Tabla 2. Aciertos y errores por temporada usando la diferencia de goles como predictor y «regalando» goles al equipo visitante.

La mejora es sutil pero existe. El valor-p para independencia entre columnas es de 0.0739, por lo que se puede asumir con ciertas reservas que el porcentaje de aciertos que podemos esperar obtener por temporada oscila al rededor de 52.34%. Si nos abstenemos 100 partidos de cualquier predicción podemos esperar una leve mejora, como los que se muestran en la Tabla 3.

Temporadas2012-20132013-20142014-20152015-20162016-20172017-20182018-20192021-20222022-2023Total
Aciertos1431541371301601511611431561335
Errores1361251421491191281181361231176
Aciertos (%)51.2555.2049.1046.5957.3554.1257.7151.2555.9153.17
Tabla 3. Aciertos y errores para cada temporada después de compensar al visitante y esperar 100 partidos para empezar a predecir.

En este caso, podemos esperar acertar un 53.17% de las veces. Lo único que tenemos que hacer es esperar 100 partidos y compensar al visitante con 10 goles y medio. Bien, continuemos.

Tercer enfoque: la zona gris

La zona gris es un intervalo en el que nos abstenemos de hacer una predicción. Podemos aprovechar la Figura 2 para delimitar la zona gris. Según los histogramas, la zona gris abarcaría desde el -17.7 hasta -2, lo que significa que si obtenemos una diferencia de, digamos, -5, nos abstenemos de predecir. Los resultados que obtenemos con este enfoque se muestran en la Tabla 4.

Temporadas2012-20132013-20142014-20152015-20162016-20172017-20182018-20192021-20222022-2023Total
Aciertos1431671351401761591701631651418
Errores1331211221381081201131271141096
Aciertos (%)51.8157.9952.5350.3661.9756.9960.0756.2159.1456.40
Tabla 4. Aciertos y errores para cada temporada usando la mismo zona gris.

De nuevo, se puede asumir independencia entre temporadas, por lo que se puede esperar una eficiencia de al rededor de 56.40% en cualquier temporada.

Delimitando un intervalo de no-predicción podemos esperar una eficiencia de al rededor de 56.40%

Conclusiones

Primero que nada, la comparación de la diferencia de goles entre dos equipos demuestra ser un buen predictor. Haciendo una comparación simple, se puede esperar tener una efectividad ligeramente mayor al 50%. Compensando al visitante por la ventaja del local se puede aumentar ligeramente esta efectividad. Es hasta el tercer enfoque que vemos una efectividad bastante considerable. De nuevo, la zona gris se propuso a partir de una temporada, por lo que no hay sobreajuste. Cabe señalar que los límites de la zona gris no están optimizados, por lo que este enfoque tiene margen de mejora, como por ejemplo, evitar la predicción hasta después del partido 100.

Debo admitir que, en un principio, creí que este indicador sería más eficiente que la posición en la tabla, sin embargo, aunque los límites no están optimizados, ahora no creo que la diferencia entre uno u otro indicador sea realmente significativa. Aún queda mucho por explorar y mucho por mejorar. Quizás en una futura entrada utilicemos los dos indicadores combinados.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio