Trasformare il linguaggio in immagini con Dall-E

Immagini e linguaggio

Una delle applicazioni più diffuse dell’IA riguarda il linguaggio e la conversione di immagini in linguaggio: con una foto al documento che si vuole interpretare il programma di IA può analizzare i singoli segni o simboli e darne una “traslitterazione”, che può essere letterale, orale o in traduzione. E’ un’applicazione utile per convertire vecchi file, aiutare con la traduzione e interpretazione di altre lingue, anche antiche, e facilitare l’accesso ai documenti scritti a persone non vedenti. Qualche mese fa OpenAI ha presentato un’applicazione in direzione inversa: un nuovo modello IA è in grado di creare immagini originali da un testo.

Dall·E

L’algoritmo è stato chiamato DALL·E, portmanteau tra il nome di Salvador Dalì e quello del famoso robottino della Pixar, ed è stato allenato a generare immagini da un qualsiasi input testuale elaborato con linguaggio naturale. Riesce a combinare concetti molto distanti tra loro per creare immagini credibili, seppur in alcuni casi bizzarre. Il modello genera diverse immagini contemporaneamente, ognuna differente dall’altra, e le realizza nello stile richiesto dalla frase di input: può generare immagini simili a foto, con soggetti realistici, o illustrazioni di scene improbabili. Alcune delle sue creazioni più divertenti sono l’emoji di una rapa con tutù che porta a spasso un cane e l’illustrazione di una chimera mezza giraffa e mezza tartaruga.

Su cosa si fonda Dall·E

Il nuovo modello di OpenAi è basato sul loro modello autoregressivo di linguaggio, GPT-3. GPT-3 è un sistema di elaborazione del linguaggio naturale (NLP) che si fonda su un’architettura di reti neurali (Deep Learning) per produrre testi che imitano l’uso del linguaggio umano. Distinguere un testo sviluppato da GPT-3 da uno scritto da una persona in carne e ossa è per lo più impossibile. DALL·E utilizza lo stesso modello ma con qualche parametro in meno (12 miliardi al posto dei 175 miliardi di GPT-3) e istruzioni differenti riguardo addestramento e output. L’intero addestramento è avvenuto sfruttando accoppiate di testi-immagini estrapolate da Internet e come output sono stati richiesti pixel invece di parole.

Altri usi del NLP

Come ben dimostra DALL·E l’applicazione di sistemi NLP va ormai al di là della semplice comprensione di testi e offre molte opportunità. Modelli NLP appositi possono comprendere il tono e lo stato d’animo dell’autore di una frase, gestire dei dialoghi per fornire assistenza clienti, generare riassunti di testi, tradurre automaticamente frasi da una lingua all’altra, produrre autonomamente analisi e report, classificare i documenti in categorie predefinite.

14 Ottobre 2021

Trasformare il linguaggio in immagini con Dall-E

Il nuovo modello di OpenAI

Immagini e linguaggio

Dall·E

Su cosa si fonda Dall·E

Altri usi del NLP

Lisa Bartali

Ultime notizie