Σελίδες

Τετάρτη 4 Φεβρουαρίου 2015

Ένα απλό μοντέλο Αναμενόμενων Γκόλ για το ποδόσφαιρο



Ένα απο τα ποιό φρέσκα, ανερχόμενα και δημοφιλή εργαλεία στην ανάλυση ενος ποδοσφαιρικού αγώνα τα τελευταία χρόνια είναι τα Expected Goals ή Αναμενόμενα Γκολ στα Ελληνικά.
Εμπειρικά όσοι παρακολουθούμε ποδόσφαιρο  γνωρίζουμε πως ενας παίκτης που σουτάρει για παράδειγμα απο το ύψος του πέναλτι ,εχει περισσότερες πιθανότητες το σούτ που θα επιχειρήσει να καταλήξει στην εστία (σουτ στο στόχο) και είτε να το εξουδετερώσει ο τερματοφύλακας,είτε να σημειώσει κάποιο γκολ,σε σχέση με ενα σουτ που πραγματοποιείται π.χ αρκετά έξω απο την μεγάλη περιοχή.
Το μοντέλο των Αναμενόμενων Γκόλ έρχεται πλέον να κατηγοριοποιήσει ακριβώς αυτή την εμπειρική παρατήρηση με αριθμητικά δεδομένα.

Δίνοντας ένα βασικό ορισμό θα μπορούσα να πώ πως τα ExpG (όπως θα τα αναφέρω απο εδώ και πέρα για οικονομία χώρου)  φιλοδοξούν να μας δώσουν την πιθανότητα που έχει ενα σουτ να καταλήξει σε γκόλ,σε συσχετισμό με το σημείο του γηπέδου απο το οποίο επιχειρείται.



Δημιουργώντας ενα βασικό μοντέλο Αναμενόμενων Γκόλ 


Το λεγόμενο football  metric community στο διαδίκτυο έχει κάνει εξαιρετική δουλειά στον τομέα αυτό ,πάντα με την πολύτιμη βοήθεια (αφιλοκερδώς στην συντριπτική των περιπτώσεων) εταιριών που ειδικεύονται στην συλλογή λεπτομερών δεδομένων κατα την διάρκεια του παιχνιδιού.
Φυσικά αυτή η “δωρεάν” βοήθεια των εταιριών με δεδομένα που αξίζουν αρκετές χιλιάδες ευρώ,έχει σκοπό την διείσδυση αλλά και την καθιέρωση της αναγκαιότητας των  football metrics στην συνείδηση του μέσου οπαδού του αθλήματος και άρα την μεγαλύτερη αύξηση ζήτησης για τέτοια στατιστικά,τομέα οπου το πδοσφαιρο είναι αρκετά πίσω σε σχέση με αθλήματα όπως το μπάσκετ ή το μπέησμπολ.
Λέγοντας λοιπόν πως το football metric community του διαδικτύου έχει κάνει εξαιρετική δουλειά στον τομέα αυτό,ας ρίξουμε μια ματιά στην μεθοδολογία που ακολουθείται στην δημιουργία ενός τέτοιου μοντέλου μέτρησης.
Αρχικά είναι ο χωρισμός του γηπέδου σε αρκετά μικρότερες ζώνες.
Έπειτα η κοινότητα ταιριάζοντας τα δεδομένα των σούτ που πραγματοποιούνται σε αυτές τις ζώνες και το ποσοστό τους που καταλήγει σε γκόλ,χρησιμοποιώντας ένα δείγμα αρκετών χιλιάδων αγώνων ,έχουμε μια καλή γενική εικόνα για το πόσα γκόλ μπορούμε να περιμένουμε  ,ανάλογα με την θέση που γίνεται το σούτ στο γήπεδο.
Φυσικά αυτά τα δεδομένα διαφοροποιούνται με αποτέλεσμα να λαμβάνονται πολλές φορές διαφορετικά συμπεράσματα ,καθώς τόσο το πρωτάθλημα για το οποίο γίνεται αυτή η εργασία αλλά και κάποιες φορες η ασυμφωνία δεδομένων των εταιριών,παράγουν διαφορετικά αποτελέσματα.
Λίγο πολύ πάντως υπάρχει συμφωνία στις περιοχές του γηπέδου οι οποίες θεωρούνται ως ιδανικές ως προς τις πιθανότητες ενός σουτ να καταλήξει στα δίχτυα.
Εχοντας υπ όψιν λοιπόν αυτά τα δεδομένα και συνδυάζοντάς τα ανάλογα ,πάντα με κύριο γνώμονα την απλότητα στο τελικό αποτέλεσμα ,θεώρησα ως  καλύτερο να ελαττώσω τις ζώνες του γηπέδου στις 3.Η απεικόνιση των ζωνών είναι η παρακάτω.



Η ζώνη με το γαλάζιο χρώμα παράγει κατα μέσο όρο 0,20 γκόλ ανα σούτ.
Η ζώνη με το κιτρινο χρώμα παράγει κατα μεσο όρο 0,06 γκόλ ανα σουτ
Η ζώνη με το κόκκινο χρώμα παράγει κατα μέσο όρο 0,03 γκόλ ανα σουτ.


Στα παραπάνω να σημειώσω πως οι κεφαλιές παράγουν διαφερετικό μέσο όρο γκόλ ,ο οποίος είναι κατά πολύ μικρότερος.
Σαφώς και θα μπορούσα να χωρίσω το γήπεδο σε περισσότερες ζώνες και άρα θα είχα περισσότερο λεπτομερή εικόνα για το κάθε σούτ,αλλά όπως προείπα η απλότητα είναι το Α και το Ω σε ενα τέτοιο ερασιτεχνικό μοντέλο.Οι παραπάνω πιθανότητες είναι προϊόν ενός συνδυασμού  πηγών που βρήκα στο διαδίκτυο,που σαφώς είναι πολύ ποιο λεπτομερείς ως προς τις πιθανότητες τους ,λόγω και των περισσοτέρων ζωνών .Η συνηθέστερη απεικόνιση είναι συνήθως των 6,7 ή και 8 ζωνών




Ποιότητα εναντίον ποσότητας και η αποκάλυψη μιας ενδεχομένως ανέλπιστης εικόνας


Με μιά γρήγορη ματιά παρατηρούμε οτι 1 σουτ που πραγματοποιείται στην γαλάζια ζώνη αξίζει όσο 3.3 σουτ απο την κίτρινη και όσο 6.6 απο την κόκκινη  και είναι ενδεικτικό το πόσο μπορούν να παραπλανήσουν για την εικόνα ενος ματς, «σκέτοι» αριθμοί όπως τα συνολικά σουτ για τις 2 ομάδες.
Ας θεωρήσουμε οτι δεν είδαμε τηλεοπτικά ενα ματς ,αλλά κοιτώντας τα στατιστικά βλέπουμε οτι η ομάδα Α είχε μόλις 2 σουτ και η ομάδα Β 13 και το τελικό αποτέλεσμα ήταν 0-0.
Λογικά μια πρώτη εκτίμηση που θα κάναμε θα ήταν πως η ομάδα Β μάλλον είχε περισσότερες πιθανότητες να κερδίσει το ματς και μαλλον το αποτέλεσμα την αδικεί.
Επειτα παρατηρούμε απο που πραγματοποιήθηκαν τα σουτ για τις 2 ομάδες.
Ανακαλύπτουμε οτι η ομάδα Α είχε και τα 2 της σουτ απο την γαλάζια ζώνη ενώ η ομάδα Β είχε ολα της τα σούτ απο την κόκκινη ζώνη...
Η ομάδα λοιπόν που  είχε 2 σουτ απο την γαλάζια ζώνη στην ουσία είχε τα ίδια ExpG με την ομάδα που είχε 13 σουτ απο την κόκκινη και άρα μάλλον το αποτέλεσμα ήταν δίκαιο




Ενα πρακτικό παράδειγμα :Τσέλσι- Μαντσεστερ Σιτυ 1-1

Στις 31 Γενάρη του 2015 πραγματοποιήθηκε το μάτς της Τσέλσι με την Μάντσεστερ Σιτυ,που δυστυχώς δεν είχα την δυνατότητα να το παρακολουθήσω τηλεοπτικά.
Η εικόνα των σουτ είναι αυτή της παρακάτω εικόνας (τα δεδομένα απο το site του whoscored)


.





















Εισάγοντας τις θέσεις των σούτ στις κατάλληλες ζώνες και εφαρμόζοντας την Σολομώντειο λύση του 0.5 για τα σουτ που είναι στα όρια των ζωνών έχω τα παρακάτω


Τσέλσι

Γαλάζια Ζωνη :2 σουτ
Κιτρινη ζώνη:0,5 σουτ
Κοκκινη ζώνη:0,5 σουτ

Μαν Σιτυ

Γαλάζια Ζωνη :3 σουτ
Κιτρινη ζώνη:4 σουτ
Κοκκινη ζώνη:1 σουτ

Φυσικά η δυνατότητα της κάθε ομάδας να μετατρέπει τα σουτ σε γκόλ δεν είναι ίδια,ακόμα και σε σουτ που μπορεί να προέρχονται απο το ίδιο σημείο του γηπέδου.
Η ικανότητα των επιθετικών της σε συνδυασμό με την αμυντική λειτουργία της αντίπαλης ομάδας είναι σίγουρα 2 καταλυτικοί παράγοντες.
Αυτό σίγουρα θα πρέπει να ενσωματωθεί  με κάποιο τρόπο στο μοντέλο μου.
Εχοντας κατα νού τους 2 παραπάνω «καταλύτες» μιά απλή λύση θα ήταν ο υπολογισμός για την κάθε ομάδα του conversion rate σε γκόλ ,τόσο των σούτ που επιχειρεί,όσο και των σουτ που δέχεται.
Ετσι λοιπόν θα έχουμε ένα μετρήσιμο μέγεθος,σε σχέση με τα σούτ πάντα,της επιθετικής όσο και της αμυντικής αποτελεσματικότητάς της.Το συγκεκριμένο μέγεθος θα το ονομάσουμε GEff για οικονομία χώρου και θα είναι η επιθετική και αμυντική αποτελεσματικότητα της κάθε ομάδας πάντα σε σχέση με την επιθετική και αμυντική αποτελεσματικότητα του αντιπάλου της.
Συγκρίνοντας την επιθετική και αμυντική αποτελεσματικότητα της Τσέλσι σε σχέση με την Μαν Σιτυ και αντίστροφα έχουμε τα παρακάτω GEff:

GEff Τσέλσι :1,04
GEff Μαν Σιτυ: 0,96


Αρα συνδυάζοντας τα παραπάνω δεδομένα λαμβάνουμε τα αναμενόμενα γκολ και για τις 2 ομάδες

ExpG για την Τσέλσι:0,46
ExpG  για την Μαν Σιτυ:0,82

Τα παραπάνω νούμερα δίνουν ένα πλεονέκτημα 0,36 γκολ στην Μαν Σιτυ ,με αναμενόμενα συνολικά γκόλ στο παιχνίδι 1,28.
Σε αποδόσεις μεταφράζονται:

Τσέλσι 5.20 και περίπου 19% πιθανότητες νίκης
Ισοπαλία: 2.54 και περίπου 39% πιθανότητα
Μαν Σιτυ:2,41 και περίπου 41.5% πιθανότητες νίκης

Under 2.5:1.18 και πιθανότητες 85% περίπου
Over 2.5: 6.65 και πιθανότητες 15% περίπου.


Οι αποδόσεις και τα αναμενόμενα γκόλ ηταν πολύ διαφορετικά λιγο πριν απο το μάτς 

Με την Τσέλσι να δίνεται στο 2.12 και η ισοπαλία με την Μαν Σιτυ στο 3.47 και 3.84 αντίστοιχα,ενώ το under over δινόταν 1.92 και 2.00 αντίστοιχα.

Το συγκεκριμένο μάτς λοιπόν όχι μόνο δεν αποτύπωσε την πεποίθηση της αγοράς,στον αγωνιστικό χώρο αλλά μάλλον άφησε και μια αίσθηση πικρίας στην Σιτυ σε σχέση πάντα με τις αρχικές αποδόσεις που της έδινε η αγορά,μια και στον αγωνιστικό χώρο τα δεδομένα αλλάξανε.

Η παραπάνω εικόνα,πάντα με βάση το απλό μοντέλο μου, μου έδειξε μια συγκεκριμένη εικόνα του μάτς:Ενα βαρετό παιχνίδι,χωρίς ρυθμό και ευκαιρίες ,όπου παρά τα προγνωστικά η Σιτυ τελικά ήταν καλύτερη απο την γηπεδούχο και το ματς,είχε περίπου 80.5% πιθανοτητες είτε να μείνει στην ισοπαλία (όπως και εγινε),είτε να το κερδίσει η φιλοξενούμενη

Διαβάζοντας τα διάφορα ριπόρτς απο το νετ,νομίζω οτι η εικόνα ήταν σχετικά κοντά στην πραγματικότητα .

Θεωρώ λοιπόν οτι έστω και ενα απλό μοντέλο σαν το παραπάνω, μπορεί να είναι χρήσιμο εργαλείο όσο αφορά την αξιολόγηση της πραγματικής εικόνας ενός μάτς αλλά και την αξιολόγηση της πραγματικής φόρμας μιας ομάδας και κατα πόσο τα αποτελέσματα της ήταν προϊόν τύχης ή ποδοσφαιρικής δικαιοσύνης.



Το ποδόσφαιρο δεν είναι τόσο απλό.

Σαφώς το παραπάνω μοντελο είναι μια απλοϊκή προσέγγιση και δεν τρέφω αυταπάτες γι αυτό.Δεν έχω την γνώση και φυσικά ουτε τα πανάκριβα δεδομένα για κάτι ποιο σύνθετο.
Έτσι τα major flaws είναι πιστεύω αυτονόητα με την πρώτη ματιά για κάποιον που παρακολουθεί ποδόσφαιρο.
Αλλο να σουτάρει ο Ντιέγκο Κόστα απο το ύψος του πέναλτι και άλλο ο...Διαμαντάκος.
Αλλη συμπεριφορά αναμένεται να έχει για το υπόλοιπο του μάτς μια ομάδα που προηγείται 3-0 απο το 20 λεπτο,όπως και διαφορετική η ποιότητα ενός σουτ με αμυντική πίεση απο ότι ενα σούτ με πλήρη άνεση. 
Σίγουρα εκεί εξω υπάρχουν απείρως ποιο εξελιγμένα μοντέλα ExpG ,με πρόσβαση σε λεπτομερή ποσοτικά και ποιοτικά - πανάκριβα-δεδομένα για το κάθε σουτ αλλά πιστεύω για ερασιτέχνες παίκτες και λάτρεις του ποδοσφαίρου όπως εγω ,έστω και το παραπάνω υπερ απλουστευμένο μοντέλο μπορεί να προσφέρει μια ματιά,απο την αίγλη των μοντέλων που χρησιμοποιούν επαγγελματίες παίκτες και betting syndicates ,αλλά και προπονητές και σκαουτερ μεγάλων συλλογων.
Ενδεχομένως να επανέλθω είτε απο αυτόν το χώρο,είτε απο το φόρουμ του infobeto στην ανάλυση κάποιων σημαντικών ματς ,βασιζόμενος στα ExpG απο την εικόνα των σουτ του κάθε μάτς και την σύγκρισή τους με το πραγματικό αποτέλεσμα... 
Γιατί το ποδόσφαιρο δεν είναι πάντα δίκαιο και ίσως εκεί κρύβεται η άγρια ομορφιά του...

Δεν υπάρχουν σχόλια:

Δημοσίευση σχολίου