DALL·E 2, l'IA che dà forma all'immaginazione

13 aprile 2022

L'IA che dà forma all'immaginazione

DALL·E 2

Avevamo già parlato di DALL·E, l’applicazione IA sviluppata dal team di OpenAI, capace di generare immagini partendo da un qualsiasi input testuale. Pochi giorni fa è uscita una versione aggiornata del modello, DALL·E 2.

L’applicazione è ancora in fase di ottimizzazione ma può essere già messa alla prova da ricercatori e sviluppatori che ne facciano richiesta, come si nota dalle tante immagini bizzarre che sono spuntate su Twitter negli ultimi giorni, generate proprio da DALL·E 2.

Rispetto all’IA originale, DALL·E 2 sembra riuscire a comprendere meglio le richieste che gli vengono fornite e sembra aver maggiori capacità di generazione immagini, sia in termini di risoluzione e realismo che in termini di varietà di soggetti e scene. Al contrario del primo DALL·E, inoltre, si prevede che venga rilasciata al pubblico, probabilmente entro l’anno.

DI COSA SI TRATTA

Come nel caso del suo predecessore, DALL·E 2 è un’Intelligenza Artificiale generativa, capace cioè di creare qualcosa di nuovo e originale, in questo caso immagini, a partire da un input più o meno correlato.

Si tratta inoltre di un’IA multimodale, che, cioè, integra in sé varie funzioni intelligenti e riesce ad apprendere concetti in modalità differenti. DALL·E 2 integra capacità di comprensione del linguaggio naturale, utili per interpretare e decodificare l’input testuale che gli viene fornito, con capacità di riconoscimento, classificazione e generazione immagini, necessarie per creare foto e illustrazioni di qualità.

Tecnicamente, tuttavia, DALL·E 2 si discosta dal suo predecessore: non si fonda infatti più sul modello autoregressivo per il linguaggio GPT-3, ma bensì sul modello di linguaggio e classificazione immagini CLIP, combinato con un “Diffusion Model”, una rete neurale generalmente impiegata per riportare alla forma originale immagini alterate.

Sviluppato da OpenAI, CLIP sa appaiare a un’immagine la descrizione testuale più appropriata; nel sistema di DALL·E 2, una sua variante (unCLIP) viene usata per interpretare lo spunto testuale e tradurlo in un input e in una serie di requisiti (“embedding”) che il Diffusion Model può decodificare per generare immagini. La rete neurale infatti, abituata a riparare immagini corrotte ma già esistenti, dev’essere guidata da CLIP, pixel per pixel, per generare un’ immagine originale che soddisfi i requisiti stabiliti in precedenza da CLIP stesso.

Il risultato è un sistema IA capace di apprendere non solo come raffigurare i singoli soggetti descritti nell’input testuale ma anche di inferire la relazione tra i vari soggetti e di rappresentarla poi efficacemente e verosimilmente nell’immagine finale.

LE DIFFERENZE CON DALL·E

DALL·E 2 riesce a sviluppare immagini migliori, più realistiche, più accurate, più coerenti rispetto a quelle generate dal DALL·E originale: alcuni degli esempi presentati dai programmatori di OpenAI sono illustrazioni e foto del tutto indistinguibili da un’opera d’arte umana -e sono tutte immagini ad altissima risoluzione.

La funzione più incredibile implementata nella nuova versione, però, è quella di editing, chiamata “in-painting”, che permette di perfezionare o modificare un’immagine facendo una semplice richiesta scritta al programma.

DALL·E 2 infatti riesce a modificare o sostituire un singolo elemento o una piccola porzione di un’immagine in risposta a un semplice spunto testuale: può aggiungere un corgi al posto di un vaso di fiori o modificare la foto di un panda per fargli indossare un cappello. Può inoltre ottimizzare un’immagine per migliorarne la grana o i colori o ancora creare delle variazioni della stessa immagine, sviluppando immagini con lo stesso soggetto ma stile, posa o composizione completamente diversi.

OLTRE DALL·E

Sostanzialmente DALL·E 2 potrebbe presto cambiare il mercato dell’illustrazione e della grafica, con la sua strabiliante capacità di generare immagini credibili in pochi minuti utilizzando solo delle semplici indicazioni testuali: potrebbe diventare uno strumento di grafica essenziale, sia per dare forma alle fantasie di utenti poco dotati artisticamente, sia per semplificare e ottimizzare il lavoro di grafici e artisti.

D’altra parte lo sviluppo di DALL·E 2 apre a orizzonti più ampi anche in ambito IA: l’integrazione tra abilità linguistiche e visive infatti è uno degli sviluppi necessari per arrivare, un giorno, a creare un’Intelligenza Artificiale più generale e complessa, in grado di comprendere effettivamente il mondo intorno a sé.

In Aidia sviluppiamo modelli di Deep Learning come quelli alla base di DALL·E 2, da applicare per la risoluzione e l’automazione dei processi delle imprese. Se vuoi saperne di più, scrivi ad info@aidia.it o contattaci e fissa una consulenza gratuita con noi.

Fonte: OpenAI

Autore

Lisa Bartali

Marketing Specialist in AIDIA, laureata in Studi Internazionali a Firenze, appassionata di storia, economia e delle cose bizzarre del mondo.

Ultime notizie

Nuvola di punti, concettualizzazione delle reti neurali
Tendenze e novità dal mondo dell'Intelligenza Artificiale

Facciamo il punto su quali saranno i i modelli e le applicazioni al centro del discorso pubblico nei prossimi mesi

Foto di due persone a lavoro in un workspace da start-up
Intervista con il CEO di Aidia

Il CEO Riccardo Celli condivide le sue riflessioni sui risultati di Aidia nella prima metà del 2023 e offre qualche anticipazione sui prossimi sviluppi dell'azienda.

Foto di un team in un ufficio da start-up
Intervista con il COO Francesco Lombardi

In vista dei tre anni di Aidia, parliamo per la prima volta con il COO Francesco Lombardi, per parlare del trascorso dell'azienda, ma anche di IA generative e di opportunità di investimento per le aziende.

Intelligenza Artificiale
IA|TREND, FUTURO E USI CONCRETI

L'Intelligenza Artificiale al centro del dialogo pubblico - Tra applicazioni "chiacchierate" e impieghi preziosi

Lavora con noi al tuo prossimo progetto

Il nostro team è pronto a mettere a tua disposizione tutte le nostre esperienze e conoscenze per la miglior riuscita del tuo prossimo lavoro.

Parla con i nostri esperti

Hai un nuovo progetto da realizzare?