I ricercatori Microsoft costruiscono un robot che disegna ciò che dici

Ogni essere umano è dotato della capacità di immaginare oggetti, paesaggi, persone, cose reali e astratte. Se mettessimo per iscritto ciò che immaginiamo, potremmo essere tutti quanti degli scrittori. Alcuni artisti hanno utilizzato degli scritti, per realizzare quadri e statue meravigliose. Altri quando provano a realizzare ciò che immaginano, realizzano un quadro astratto, che richiede altra immaginazione per dimostrare che rappresenta davvero quanto programmato. Nel Blog inglese di Microsoft, scopriamo un articolo scritto da John Roach dedicato a una gradita novità legata alla ricerca sull’Intelligenza Artificiale. I ricercatori Microsoft hanno realizzato un robot capace di disegnare le parole che sente o legge.

Guardate l’immagine di apertura. Si vede un uccellino giallo che prende forma digitalmente. La descrizione utilizzata da questo robot parlava di un uccello con un corpo giallo, ali nere e un becco corto. Eppure, il robot ha abbozzato il ramo di un albero su cui poggia l’uccello.

“Se vai su Bing e cerchi un uccello, ottieni l’immagine di un uccello. Ma qui le immagini vengono create dal computer, pixel per pixel, da zero’, ha affermato Xiaodong He, ricercatore principale e direttore della ricerca presso il Deep Learning Technology Center di Microsoft a Redmond, nello stato di Washington. “Questi uccelli potrebbero non esistere nel mondo reale: sono solo un aspetto dell’immaginazione degli uccelli del nostro computer”.

La generazione di immagini è più impegnativa rispetto al sottotitolaggio automatico delle immagini, ha aggiunto Pengchuan Zhang, un ricercatore associato del team, perché il processo richiede al bot del disegno di immaginare dettagli che non sono contenuti nella didascalia. “Ciò significa che hai bisogno dei tuoi algoritmi di apprendimento automatico che eseguono la tua intelligenza artificiale per immaginare alcune parti mancanti delle immagini”, ha affermato.

Il cuore del robot di disegno di Microsoft è una tecnologia nota come rete di avversione generativa, o GAN. La rete è composta da due modelli di apprendimento automatico, di cui uno genera immagini da descrizioni di testo, e l’altro, chiamato discriminatore, che utilizza descrizioni di testo per giudicare l’autenticità delle immagini generate. Il generatore tenta di ottenere immagini false oltre il discriminatore; il discriminatore non vuole mai essere ingannato. Lavorando insieme, il discriminatore spinge il generatore verso la perfezione.

Il robot progettato da Microsoft forse ci farà pensare a Data, l’androide di Star Trek: The Next Generation che amava dipingere, realizzando quadri appartenenti a diversi generi. Microsoft ha addestrato il proprio robot utilizzando set di dati che contengono immagini e didascalie accoppiate, che consentono ai modelli di imparare come abbinare le parole alla rappresentazione visiva di quelle parole. Il GAN, ad esempio, impara a generare un’immagine di un uccello quando una didascalia dice uccello e, allo stesso modo, impara come dovrebbe apparire l’immagine di un uccello. “Questo è un motivo fondamentale che ci porta a credere che una macchina possa imparare”, ha affermato Pengchuan Zhang.

A differenza di Data, che poteva decidere che cosa disegnare e che realizzava quadri molto complessi, le GAN funzionano bene solo quando le descrizioni sono semplici, menzionando ad esempio un uccello blu o un albero sempreverde, ma la qualità si perde con descrizioni di testo più complesse come un uccello con una corona verde, ali gialle e una pancia rossa. L’intera frase funge da singolo input per il generatore. Le informazioni dettagliate della descrizione sono perse. Di conseguenza, l’immagine generata sarà un uccello sfocato di colore verdastro-giallastro-rossastro, invece che dettagliato e corrispondete al testo.

Mentre gli umani disegnano, fanno ripetutamente riferimento al testo e prestano molta attenzione alle parole che descrivono ciò che stanno disegnando. Per catturare questa caratteristica umana, i ricercatori hanno creato ciò che chiamano un GAN attentivo, o AttnGAN, che rappresenta matematicamente il concetto umano di attenzione. Lo fa suddividendo l’input scritto in singole parole che abbina a zone specifiche dell’immagine.

“L’attenzione è un concetto umano; usiamo la matematica per rendere l’attenzione computazionale” (Xiaodong He).

Dicevamo sopra che la descrizione dell’uccello giallo non menzionava il ramo dell’albero, eppure è stato disegnato. Perché? Quando una persona disegna, tende a utilizzare dei “luoghi comuni”, ossia a inserire delle parti standard nel disegno per abitudine o per altre ragioni. Per esempio, se voglio disegnare un uomo, il metodo delle righe stilizzate mi farà disegnare cerchietto, da cui partirà verso il basso una riga verticale; da poco sopra il centro di questa riga, partiranno due righe oblique per lato verso l’alto o il basso (o una verso l’alto e l’altra verso il basso; dal punto più in basso della stessa riga, invece, farò partire altre due righe oblique verso il basso. Per rendere l’idea che ho disegnato un uomo, sul cerchio aggiungere due puntini e un segno per indicare la bocca.

Mancano alcune parti: le mani, i piedi, le orecchie, i capelli, pancia e petto pieni. Ma capisco che il disegno rappresenta una persona, pur non essendo possibile riconoscere il sesso.

Lo stesso fa il robot di Microsoft. Se l’AttnGAN ha imparato che gli uccelli si appoggiano sul ramo di un albero e nella descrizione non trova scritto nulla di specifico, automaticamente disegnerà quel ramo su cui posizionerà l’uccello.

Come hanno reso il disegno più complesso? Indicando che l’uccello si trova su una corriera oppure su una barca. Nel primo caso, il bot doveva capire di dover aggiungere una strada su cui appoggiare il mezzo di trasporto; nel secondo caso, serviva l’acqua. E poi, si trattava di una barchetta da pesca, di uno yacht, di un transatlantico, ecc.? L’immaginazione del bot qui doveva entrare in funzione per decidere la complessa ambientazione del disegno.

I ricercatori Microsoft avvertono che non stanno realizzando un sostituto ai pittori umani, ma un assistente, per raffinare i loro lavori. Si spera che alcuni potranno disegnare le basi di un quadro, di un progetto, di un qualsiasi tipo di disegno, dettando a voce poche parole e poi completando con le proprie capacità. Aumentando la potenza di calcolo, sarà possibile generare film di animazione basati su sceneggiature, semplificando il lavoro dei cineasti. Pensate che un disegno animato fatto a mano richiede almeno 24 disegni per ciascun secondo di visione. I film di animazione spesso durano la metà o comunque di meno di un live action. Per 60 minuti di animazione serviranno, quindi, ben 86.400!

Nel lontano 1984, Awake! dichiarò:

La tecnologia farà altri passi avanti, come ad esempio la tecnica della coloritura mediante computer. Ma esisteranno sempre animatori che eseguiranno disegni secondo lo stile disneyano. Solo la mano dell’uomo ha la capacità di eseguire un delicato disegno con tutte quelle sottili espressioni che vi fanno credere che il personaggio sia reale. Se faccio bene il mio lavoro, non si vede il disegno; si vede il personaggio, qualcuno che ride o piange e a cui vi affezionate. Quando nel film Bambi muore la madre di Bambi, gli spettatori non piangono per un disegno, ma per un personaggio reale.

Per ora, la tecnologia di Microsoft è imperfetta. L’esame ravvicinato delle immagini rivela quasi sempre difetti, come gli uccelli con becchi blu invece che neri e frutti che sembrano banane mutanti. Questi difetti sono una chiara indicazione che un computer, non un essere umano, ha creato le immagini. Tuttavia, la qualità delle immagini di AttnGAN è un miglioramento di quasi tre volte rispetto alla precedente GAN e rappresenta una pietra miliare sulla strada verso un’intelligenza generica, umana, che aumenta le capacità umane, secondo He.

Chissà se AttnGAN vorrà fare come Data, ossia cercare di diventare umano, diventando un Pinocchio elettronico?

“Perché l’intelligenza artificiale e gli esseri umani vivano nello stesso mondo, devono avere un modo per interagire fra loro”, ha spiegato He. “E il linguaggio e la visione sono le due modalità più importanti per gli esseri umani e le macchine per interagire tra loro.”

Oltre a Xiaodong He, Pengchuan Zhang e Qiuyuan Huang di Microsoft, i collaboratori includono ex stagisti Microsoft quali Tao Xu della Lehigh University e Zhe Gan della Duke University; e Han Zhang della Rutgers University e Xiaolei Huang della Lehigh University.

Articoli Correlati

Come avviare una distro live di KUbuntu per salvare i propri dati

Come rimuovere Google Drive dall’Accesso Rapido

File JPG e PNG non associabili a nessuna app in Windows 11