Νίκη της τεχνητής νοημοσύνης της Google επί του παγκόσμιου πρωταθλητή του «Γκο»

Το πρόγραμμα τεχνητής νοημοσύνης «AlphaGo» της Google νίκησε την Τετάρτη στο πρώτο από μια σειρά πέντε παιχνιδιών με τον Λι Σεντόλ από τη Νότια Κορέα, 18 φορές παγκόσμιο πρωταθλητή του παιχνιδιού «Γκο».

Ο Λι Σεντόλ παραδέχτηκε την ήττα του σε ένα παιχνίδι που προβλήθηκε ζωντανά μέσω του YouTube, το οποίο παρακολούθησαν δεκάδες χιλιάδες άνθρωποι από όλο τον κόσμο.

Υπενθυμίζεται πως το AlphaGo είναι δημιούργημα της DeepMind του Ντέμη Χασάμπη, που ανήκει στην Google, και απασχόλησε τη διεθνή ειδησεογραφία και τον Οκτώβριο, όταν είχε γίνει το πρώτο πρόγραμμα που νίκησε άνθρωπο επαγγελματία παίκτη (Φαν Χούι) του αρχαίου ασιατικού παιχνιδιού. Ωστόσο, η πρόκληση του παιχνιδιού απέναντι στον Λι ήταν πολύ μεγαλύτερη, καθώς πρόκειται για τον παγκόσμιο πρωταθλητή ενός παιχνιδιού που θεωρείται ότι είναι το πιο πολύπλοκο που υπάρχει, παρά τους εύκολους κανόνες του.

Σύμφωνα με το BBC, ο Λι φαινόταν να έχει το πάνω χέρι στο μεγαλύτερο μέρος του παιχνιδιού, αλλά στα τελευταία 20 λεπτά το AlphaGo πήρε προβάδισμα, με αποτέλεσμα ο αντίπαλός του να παραδοθεί. Μέσα στις επόμενες ημέρες θα παιχτούν και τα υπόλοιπα τέσσερα παιχνίδια, με έπαθλο ένα εκατομμύριο δολάρια.

Παρά τους απλούς κανόνες του, το παιχνίδι είναι ιδιαίτερα πολύπλοκο, λόγω του ασύλληπτα τεράστιου αριθμού θέσεων και συνδυασμών που είναι δυνατοί- και ως εκ τούτου είναι πάρα πολύ δύσκολο για την Τεχνητή Νοημοσύνη. «Οι παραδοσιακές μέθοδοι Τεχνητής Νοημοσύνης- με τη δημιουργία ενός “δέντρου αναζήτησης” με όλες τις δυνατές θέσεις- δεν έχουν ελπίδα στο Γκο. Οπότε, όταν ξεκινήσαμε για να “σπάσουμε” το Γκο, πήραμε διαφορετική προσέγγιση. Φτιάξαμε ένα σύστημα, το AlphaGo, το οποίο συνδυάζει ένα προηγμένο tree search με βαθιά νευρικά δίκτυα (deep neural networks). Αυτά τα νευρικά δίκτυα παίρνουν μια περιγραφή του ταμπλό του Γκο ως πληροφορία/ input και την επεξεργάζονται μέσα από 12 διαφορετικά στρώματα δικτύου, που περιέχουν εκατομμύρια συνδέσεις στα πρότυπα νευρώνων. Ένα νευρικό δίκτυο, το “δίκτυο πολιτικής”, επιλέγει την επόμενη κίνηση. Το άλλο νευρικό δίκτυο, το “δίκτυο αξίας” προβλέπει τον νικητή του παιχνιδιού» αναφέρεται σε παλαιότερη δημοσίευση του κ. Χασάμπη στο επίσημο blog της Google.

Εν συνεχεία, τα δίκτυα εκπαιδεύτηκαν πάνω σε 30 εκατ. κινήσεις από παιχνίδια που παίχτηκαν από ανθρώπους παίκτες, μέχρι που το πρόγραμμα ήταν σε θέση να προβλέψει την ανθρώπινη κίνηση στο 57% των περιπτώσεων (το προηγούμενο ρεκόρ ήταν 44%). «Αλλά ο στόχος μας ήταν να νικήσουμε τους καλύτερους ανθρώπους παίκτες, όχι να τους μιμηθούμε» γράφει ο Χασάμπης. Οπότε, το AlphaGo έμαθε να ανακαλύπτει μόνο του νέες στρατηγικές, παίζοντας χιλιάδες παιχνίδια μεταξύ των νευρικών δικτύων του, και προσαρμόζοντας τις συνδέσεις μέσω μιας διαδικασίας trial and error, γνωστή ως reinforcement learning.