...formano la doppia elica, che sua volta codifica le proteine ed insegna alle nostre cellule cosa fare per costruire e manutenere il nostro corpo. Il progetto è terminato solo lo scorso dicembre, con il completamento della mappatura di tutto il genoma umano, incluso il cromosoma Y dei maschietti, l’ultimo a rivelare i suoi segreti.
Alla fine, abbiamo scoperto che il nostro genoma è di una complessità devastante, data da 50.000 geni che svolgono molteplici funzioni: l’ipotesi iniziale su tempi e costi del progetto s’è rivelata assolutamente ottimista, ma l’innovazione degli strumenti digitali, sia in termini di performance sia di efficienza, ha risolto il problema. Siamo passati dai $100.000 richiesti per mappare un genoma vent’anni fa, a $0.4 oggi: in pratica, ogni ospedale può permettersi di mappare i geni dei propri pazienti per diagnosticare al meglio i malanni.
Se paragoniamo il genoma ad un software, i geni sono le istruzioni che prima costruiscono, e poi fanno funzionare, la macchina che è il nostro corpo. Pensiamo che ognuno di usa una ventina di lettere per formulare le circa 20.000 parole che usiamo abitualmente, e ne conosciamo il doppio (l’inglese ne ha 170.000 in uso). A questo punto capite l’interesse per usare ChatGPT, per modellare i venti aminoacidi che fanno i 50.000 vocaboli che sono i nostri geni. Con questo strumento possiamo capire meglio le proteine esistenti e, specialmente, crearne di nuove. ChatGPT non è il primo modellatore di linguaggio usato per questo scopo: da qualche anno ProtGPT2 e ProGen sono usati da scienziati che inventano nuove proteine sulla base di circa 300 milioni nel loro database. La differenza fenomenale è nella facilità d’uso: con ChatGPT modellare proteine è alla portata di tutti.
Ecco che in un paio di settimane, utilizzando 2.000 GPU e funzionando 60 volte più velocemente dei modelli da laboratorio, gli informatici di Meta (Facebook) hanno prodotto 600 milioni di nuove proteine. Queste potrebbero essere usate per costruire antibiotici, enzimi, nuovi carburanti, veri e propri organismi artificiali: la cosa interessante è che il 10% di queste nuove molecole non assomiglia a nessuna delle proteine conosciute. Non sappiamo se ci stiamo cacciando in un grosso guaio, costruendo sostanze che potrebbero essere micidiali, o se la scampiamo andando a selezionare solo quelle che ci servono. Già solo sviluppare nuovi antibiotici, che l’industria farmaceutica non ha interesse a fare dati i costi tradizionali di ricerca ed approvazione, avremmo un bel vantaggio. Vi raccomando questo per un facile approfondimento.
Spero vi sia venuto freddo nel leggere che degli informatici, senza esperienza dei protocolli clinici, abbiano modellato così tante nuove proteine. Come ho scritto in passato, la semplicità introdotta da ChatGPT e dai nuovi strumenti di intelligenza artificiale, è un’arma a doppio taglio. Da un lato la rapidità ed efficienza nel progettare nuove sostanze, che potenzialmente ci curano dai malanni, aiutano nella lotta al cambiamento climatico, o ci consentono di abbuffarci di cioccolata senza prender peso, chi lo sa. Dall’altro il rischio di non riuscire a valutare tossicità, danni collaterali e problemi indotti da qualcosa che non comprendiamo appieno. Cosa potrà mai andar storto?