14 Ottobre 2021

Trasformare il linguaggio in immagini con Dall-E

Immagini e linguaggio

Una delle applicazioni più diffuse dell’IA riguarda il linguaggio e la conversione di immagini in linguaggio: con una foto al documento che si vuole interpretare il programma di IA può analizzare i singoli segni o simboli e darne una “traslitterazione”, che può essere letterale, orale o in traduzione. E’ un’applicazione utile per convertire vecchi file, aiutare con la traduzione e interpretazione di altre lingue, anche antiche, e facilitare l’accesso ai documenti scritti a persone non vedenti. Qualche mese fa OpenAI ha presentato un’applicazione in direzione inversa: un nuovo modello IA è in grado di creare immagini originali da un testo.

Dall·E

L’algoritmo è stato chiamato DALL·E, portmanteau tra il nome di Salvador Dalì e quello del famoso robottino della Pixar, ed è stato allenato a generare immagini da un qualsiasi input testuale elaborato con linguaggio naturale. Riesce a combinare concetti molto distanti tra loro per creare immagini credibili, seppur in alcuni casi bizzarre. Il modello genera diverse immagini contemporaneamente, ognuna differente dall’altra, e le realizza nello stile richiesto dalla frase di input: può generare immagini simili a foto, con soggetti realistici, o illustrazioni di scene improbabili. Alcune delle sue creazioni più divertenti sono l’emoji di una rapa con tutù che porta a spasso un cane e l’illustrazione di una chimera mezza giraffa e mezza tartaruga.

Su cosa si fonda Dall·E

Il nuovo modello di OpenAi è basato sul loro modello autoregressivo di linguaggio, GPT-3. GPT-3 è un sistema di elaborazione del linguaggio naturale (NLP) che si fonda su un’architettura di reti neurali (Deep Learning) per produrre testi che imitano l’uso del linguaggio umano. Distinguere un testo sviluppato da GPT-3 da uno scritto da una persona in carne e ossa è per lo più impossibile. DALL·E utilizza lo stesso modello ma con qualche parametro in meno (12 miliardi al posto dei 175 miliardi di GPT-3) e istruzioni differenti riguardo addestramento e output. L’intero addestramento è avvenuto sfruttando accoppiate di testi-immagini estrapolate da Internet e come output sono stati richiesti pixel invece di parole.

Altri usi del NLP

Come ben dimostra DALL·E l’applicazione di sistemi NLP va ormai al di là della semplice comprensione di testi e offre molte opportunità. Modelli NLP appositi possono comprendere il tono e lo stato d’animo dell’autore di una frase, gestire dei dialoghi per fornire assistenza clienti, generare riassunti di testi, tradurre automaticamente frasi da una lingua all’altra, produrre autonomamente analisi e report, classificare i documenti in categorie predefinite.

Lisa Bartali

Lisa Bartali

Marketing Specialist in AIDIA, laureata in Studi Internazionali a Firenze, appassionata di storia, economia e delle cose bizzarre del mondo.

Aidia

In Aidia sviluppiamo soluzioni software basate su IA, soluzioni di NLP, Big Data Analytics e Data Science. Soluzioni innovative per ottimizzare i processi ed efficientizzare i flussi di lavoro. Per saperne di più, contattaci o inviaci una mail a info@aidia.it.

Transizione 4.0 e credito d'imposta
Articolo 8 di 29
DALL·E 2, l'IA che dà forma all'immaginazione

Ultime notizie