ChatGPT è sicuramente il più famoso ed utilizzato tra gli LLM, ed una ragione della sua performance sta proprio nel modo in cui i suoi creatori hanno progettato il consumo energetico. Al contrario di quanto dicono le aziende coinvolte, GPT-4 non è un modello unico, ma tanti federati assieme. Questo da un lato modera la sua eccezionalità rispetto ai concorrenti, nel senso che le matematiche sottostanti sono simili alle altre, dall’altro dimostra un ottimo disegno architetturale e funzionale, una maturità maggiore degli altri LLM.
Open AI è riuscita a tenere segreto questo aspetto a lungo, facendo credere al mercato di aver scoperto una ricetta innovativa ed inarrivabile, e su questo ha costruito il successo commerciale. Nulla di male: oggi sappiamo che ChatGPT non ha formule speciali rispetto agli altri, ma ha un’architettura disegnata per l’efficienza ed il risparmio energetico che consentono migliori performance.
GPT-4, con mille miliardi di parametri nei propri modelli federati, è grosso sei volte il suo predecessore, il cui costo di sviluppo si era aggirato sui $4.5 milioni, mentre questo è costato circa $100 milioni: una sproporzione notevole. Ed oltre al costo di sviluppo, aumenta in modo spropositato anche quello per allenare la nuova generazione di LLM, con un raddoppio ogni sei mesi. Questa smania di grandezza è arrivata alla frutta: non è più conveniente sviluppare modelli sempre più grandi, ma occorre collegarne tanti diversi a seconda dell’utilizzo richiesto.
Se non si federano diversi modelli assieme, l’alternativa per risparmiare resta quella di usare meno parametri, ma questa richiede una massa di dati molto maggiore e tempi più lunghi per l’allenamento, e visto che abbiamo quasi finito i dati in lingua inglese con cui allenare gli LLM, abbiamo un problema. L’anno scorso Google ha allenato il suo Chinchilla, costruito con 70 miliardi di parametri, con mille e quattrocento miliardi di parole. Funziona meglio di GPT-3, costruito con 175 miliardi di parametri ed allenato con soli 300 miliardi di vocaboli, e questo ha anche dimostrato che seppur l’allenamento prende più tempo, performance e consumi migliori valgono la candela.
Per ottenere un forte risparmio energetico, ed un continuo miglioramento nelle performance degli LLM, abbiamo intuito la strada: specializzazione ed orchestrazione di componenti diversi. Da un lato la specializzazione dei modelli in determinati campi del sapere, in modo che diano le risposte più efficaci al costo inferiore. Parallelamente, serve lo sviluppo di nuovi chip focalizzati sulla capacità di fare inferenza, ovvero di far girare un modello nel modo più rapido ed efficiente dopo la fase di formazione. Questo significa usare le GPU tradizionali per lavori su grafica e topologia, e le nuove TPU per dare efficienza e velocità al modello. D’altro lato abbiamo la necessità di avere un LLM che, come un direttore d’orchestra, non prova a dare risposte dirette, ma cerca solo di coordinare ed integrarsi con gli LLM specialistici, migliori nel dare la risposta a seconda del contesto.
La competizione in questo campo è efferata: Google, Microsoft, Meta, Amazon nell’angolo d’occidente, la Cina nell’angolo d’oriente, capitale privato contro politiche d’innovazione statali, concorrenza contro dirigismo. L’Europa pensa giustamente ad etica, privacy e turismo, attende fiduciosa che i due contendenti proseguano nello sviluppo di questa tecnologia per poi comprarla al giusto prezzo, che ovviamente non capirà non sapendo come funziona, facendosi fregare. Non a caso Google ha deciso di non vendere il proprio Bard in Europa, proprio per non perder tempo con le complicanze della preziosissima privacy del vecchio continente. Farà come Microsoft un paio di mesi orsono: quando decide di mungere i 400 milioni di consumatori europei si copre il capo di cenere, fa due presentazioni ad effetto, e tutto passa in cavalleria, con buona pace della nostra capacità di fare innovazione.