DALL·E 2, l'IA che dà forma all'immaginazione

L’IA che dà forma all’immaginazione: DALL·E 2

Avevamo già parlato di DALL·E, l’applicazione IA sviluppata dal team di OpenAI, capace di generare immagini partendo da un qualsiasi input testuale. Pochi giorni fa è uscita una versione aggiornata del modello, DALL·E 2. L’applicazione è ancora in fase di ottimizzazione ma può essere già messa alla prova da ricercatori e sviluppatori che ne facciano richiesta, come si nota dalle tante immagini bizzarre che sono spuntate su Twitter negli ultimi giorni, generate proprio da DALL·E 2.

Rispetto all’IA originale, DALL·E 2 sembra riuscire a comprendere meglio le richieste che gli vengono fornite e sembra aver maggiori capacità di generazione immagini, sia in termini di risoluzione e realismo che in termini di varietà di soggetti e scene. Al contrario del primo DALL·E, inoltre, si prevede che venga rilasciata al pubblico, probabilmente entro l’anno.

##Di cosa si tratta

Come nel caso del suo predecessore, DALL·E 2 è un’Intelligenza Artificiale generativa, capace cioè di creare qualcosa di nuovo e originale, in questo caso immagini, a partire da un input più o meno correlato.

Si tratta inoltre di un’IA multimodale, che, cioè, integra in sé varie funzioni intelligenti e riesce ad apprendere concetti in modalità differenti. DALL·E 2 integra capacità di comprensione del linguaggio naturale, utili per interpretare e decodificare l’input testuale che gli viene fornito, con capacità di riconoscimento, classificazione e generazione immagini, necessarie per creare foto e illustrazioni di qualità. Tecnicamente, tuttavia, DALL·E 2 si discosta dal suo predecessore: non si fonda infatti più sul modello autoregressivo per il linguaggio GPT-3, ma bensì sul modello di linguaggio e classificazione immagini CLIP, combinato con un “Diffusion Model”, una rete neurale generalmente impiegata per riportare alla forma originale immagini alterate.

Sviluppato da OpenAI, CLIP sa appaiare a un’immagine la descrizione testuale più appropriata; nel sistema di DALL·E 2, una sua variante (unCLIP) viene usata per interpretare lo spunto testuale e tradurlo in un input e in una serie di requisiti (“embedding”) che il Diffusion Model può decodificare per generare immagini. La rete neurale infatti, abituata a riparare immagini corrotte ma già esistenti, dev’essere guidata da CLIP, pixel per pixel, per generare un’ immagine originale che soddisfi i requisiti stabiliti in precedenza da CLIP stesso.

Il risultato è un sistema IA capace di apprendere non solo come raffigurare i singoli soggetti descritti nell’input testuale ma anche di inferire la relazione tra i vari soggetti e di rappresentarla poi efficacemente e verosimilmente nell’immagine finale.

##Le differenze con DALL·E

DALL·E 2 riesce a sviluppare immagini migliori, più realistiche, più accurate, più coerenti rispetto a quelle generate dal DALL·E originale: alcuni degli esempi presentati dai programmatori di OpenAI sono illustrazioni e foto del tutto indistinguibili da un’opera d’arte umana -e sono tutte immagini ad altissima risoluzione.

La funzione più incredibile implementata nella nuova versione, però, è quella di editing, chiamata “in-painting”, che permette di perfezionare o modificare un’immagine facendo una semplice richiesta scritta al programma. DALL·E 2 infatti riesce a modificare o sostituire un singolo elemento o una piccola porzione di un’immagine in risposta a un semplice spunto testuale: può aggiungere un corgi al posto di un vaso di fiori o modificare la foto di un panda per fargli indossare un cappello. Può inoltre ottimizzare un’immagine per migliorarne la grana o i colori o ancora creare delle variazioni della stessa immagine, sviluppando immagini con lo stesso soggetto ma stile, posa o composizione completamente diversi.

##Oltre DALL·E

Sostanzialmente DALL·E 2 potrebbe presto cambiare il mercato dell’illustrazione e della grafica, con la sua strabiliante capacità di generare immagini credibili in pochi minuti utilizzando solo delle semplici indicazioni testuali: potrebbe diventare uno strumento di grafica essenziale, sia per dare forma alle fantasie di utenti poco dotati artisticamente, sia per semplificare e ottimizzare il lavoro di grafici e artisti. D’altra parte lo sviluppo di DALL·E 2 apre a orizzonti più ampi anche in ambito IA: l’integrazione tra abilità linguistiche e visive infatti è uno degli sviluppi necessari per arrivare, un giorno, a creare un’Intelligenza Artificiale più generale e complessa, in grado di comprendere effettivamente il mondo intorno a sé.

In Aidia sviluppiamo modelli di Deep Learning come quelli alla base di DALL·E 2, da applicare per la risoluzione e l’automazione dei processi delle imprese. Se vuoi saperne di più, scrivi ad info@aidia.it o contattaci e fissa una consulenza gratuita con noi.

Fonte: OpenAI

13 aprile 2022

DALL·E 2, l'IA che dà forma all'immaginazione

I miglioramenti rispetto alle versioni precedenti

L’IA che dà forma all’immaginazione: DALL·E 2

Veronica Remitti

Ultime notizie