Chi ha avuto un cucciolo in casa sa cosa significa addestrarlo: con una sequenza di crocchette se azzecca il comportamento corretto, con metodi meno gentili se sporca o ci mangia l’ennesimo paio di ciabatte. Dopo qualche mese di crocchette al momento giusto e di sgridate in caso di guai, a seconda della razza, avremo un cane più o meno in grado di comportarsi correttamente.
Questa descrizione corrisponde ad un importante tipo di machine learning, quello focalizzato sul feedback (reinforcement learning): premi per comportamenti o risultati positivi, punizioni per l’opposto. Come coi cani, anche coi robot non siamo sempre sicuri che un comportamento corretto porti ad un risultato pienamente accettabile, quindi occorre un po’ di statistica in questi algoritmi.
In matematica questo susseguirsi di decisioni incerte si risolve con le catene di Markov, con cui si riesce a modellare un gran numero di problemi diversi: dai giochi, alla ricerca operativa, agli investimenti a razionalità limitata. Mentre l’analisi di questo tipo di matematica la possiamo lasciare a studenti o weekend freddi e piovosi, è più interessante vedere cosa si può fare col reinforcement learning. Premiando e punendo un robot, cosa succede?
Innanzitutto impara a giocare meglio delle persone, dagli scacchi al più recente Go, perché impara a fregare l’avversario con delle mosse inattese. Ovviamente alcuni giochi restano esclusivo appannaggio nostro, come una briscola o scopone a coppie dove i giocatori comunicano con segni e smorfie che gli avversari non conoscono.
Più interessante è il caso del traffico, dove si possono usare alcuni di questi robot per predirre con estrema precisione l’evoluzione del traffico nelle zone e fasce orarie più caotiche. Serviranno sempre dei vigili urbani a controllare gli automobilisti più corsaioli, ma se i robot riescono a mantenere il flusso scorrevole, è già un bel viaggiare.
Molto attuale il caso della biochimica, dove questi algoritmi hanno dato un grande aiuto alla sperimentazione di nuove molecole ricavate dalla combinazione di altri composti già provati in passato per la loro efficacia. Per chi volesse smanettare e provare qualche gioco, raccomando questo link per accedere ad un sistema libero e ben documentato. Potete anche giocare ad Atari.
Ma se poi la passione si accendesse, da qui potete anche modellare e costruire dei veri robot, quelli che un domani potreste mandare a lavorare al posto vostro. Un domani, perché già insegnargli ad aprire una porta è un bel traguardo, come peraltro a Fido.