Sora: l’AI che realizza ogni tua fantasia
L’evoluzione dei sistemi di intelligenza artificiale generativa non accenna ad arrestarsi, come mostra il recente annuncio di OpenAI della disponibilità, per ora a un ristretto numero di tester, di un nuovo sistema text-to-video, dunque un’applicazione che, come un chatbot, parte dal testo scritto da un utente e produce non una risposta testuale ma un video con contenuti generati a partire dal testo dell’utente.
Il sistema si chiama “Sora”, dalla parola giapponese per “cielo”, e la sua pagina di presentazione contiene vari esempi di qualità davvero notevole. Sapendo quanto è complesso generare video realistici con immagini in alta definizione, possiamo anche supporre che si tratti di dimostrazioni particolarmente ben riuscite, scelte fra tante di qualità peggiore.
Il messaggio è chiaro
Ma il segnale è chiaro: la multi-modalità è attualmente una linea di sviluppo importante della GenAI, e dopo i sistemi text-to-image, come Dall-E e Midjourney (video) , sta diventando possibile produrre video a partire da descrizioni testuali (Sora non è il primo sistema a questo scopo – si vedano per esempio Lumiere di Google e Make-A-Video di Meta – ma promette di essere un miglioramento significativo rispetto ai precedenti).
Che cosa accadrà all’informazione?
Al di là delle questioni tecniche – Sora è un diffusion transformer ecc. – e delle pur delicate questioni a proposito dei cambiamenti che potrebbero essere indotti nel mondo del lavoro, una linea di evoluzione di questo genere merita qualche riflessione a proposito del ruolo che ha l’informazione, e l’informazione visuale in particolare, nel plasmare la cultura della nostra società.
Il giornalismo è destinato a morire
L’informazione – e dunque il giornalismo – è condannata a morte. E ora vi spiego il perché: in condizioni di asimmetria di informazione, vale a dire quando l’informazione sul prodotto posseduta da colui che acquista, o usa, non è pari all’informazione posseduta da chi vende, o produce, l’assenza di istituzioni che garantiscono la qualità dei beni scambiati sul mercato può portare al fallimento del mercato stesso. E questo perché chi desidera acquistare un bene, in assenza di informazione e garanzie sulla qualità del bene, avrà maggiori ritrosie all’acquisto.
Punto numero uno
Noi esseri umani siamo fatti in modo tale che la parte preponderante dell’informazione che in ogni istante riceviamo dall’ambiente circostante tramite i nostri sensi è nella forma di immagini. In un secondo, per mezzo degli occhi acquisiamo dieci milioni di bit, per mezzo della pelle un milione di bit, e per mezzo delle orecchie solo centomila bit. Questi numeri mostrano che il nostro essere nel mondo dipende in modo importante dall’informazione visuale che acquisiamo e supportano l’assunzione, codificata in molte lingue, di una connessione privilegiata tra vedere e conoscere. Inoltre, mostrano quanto sia significativo l’impatto che le informazioni visuali hanno sui nostri sistemi di credenza: siamo portati a considerare vero ciò che percepiamo mediante i sensi e questo in parte preponderante deriva da ciò che percepiamo mediante la vista.
Punto numero due
A partire dalle prime forme di arte, uno dei tratti distintivi delle culture umane è proprio la produzione di immagini, che però, proprio perché prodotte da esseri umani, non sono state caricate della pretesa di essere rappresentazioni veritiere di ciò che accade nel mondo. In questo le cose cambiarono profondamente con l’invenzione della macchina fotografica e della cinepresa, che ci hanno reso possibile rispecchiare la realtà in immagini, per quanto sempre da uno specifico punto di vista e quindi inevitabilmente con una particolare interpretazione.
Punto numero tre
Se finora produrre immagini, e ancora di più video, realistici ma appunto non fedeli alla realtà, ha richiesto tempo e competenze tecniche avanzate, sistemi di GenAI come Sora ci lasciano intravvedere un prossimo futuro in cui, solo scrivendo dei prompt appropriati, chiunque potrà diventare autore di questo genere di entità di informazione, con la conseguenza che, in prospettiva, le immagini e i video diffusi su internet potrebbero non avere più a priori alcun contenuto affidabile. In altri termini, le immagini e i video sintetici, e in particolare contraffatti, potrebbero diventare la regola, e non più l’eccezione.
Cosa sono i deepfake
La differenza tra un’immagine catturata da una macchina fotografica e una prodotta per esempio da un pittore sta nel fatto che la prima è causata dalla scena che viene ripresa: alle fotografie si può perciò sensatamente attribuire la pretesa di essere rappresentazioni veritiere del mondo. Per questo, fino ad oggi, e per quanto siamo consapevoli della possibilità di fotomontaggi, la prima reazione che molti di noi hanno di fronte a un’immagine fotografica realistica, e non palesemente contraffatta, è che sia la raffigurazione di come le cose sono in effetti successe: vedere in un’immagine causata dal mondo è infatti come vedere il mondo stesso. Per questo, la prima preoccupazione che accompagna il fenomeno della produzione artificiale di immagini realistiche è di chiedersi in che modo sia possibile discriminare tra immagini e video realistici che rappresentano veramente il mondo e immagini e video realistici ma non veritieri ottenuti mediante sistemi di deep learning, i cosiddetti deepfake.
Non potrete mai più fidarvi
Il rischio fondamentale della diffusione dei sistemi di generazione artificiale di immagini è che chi desidera informarsi, ossia acquisire informazione, in assenza di informazioni o di garanzie sulla qualità dell’informazione che potrebbe acquisire, e quindi in particolare sulla sua veridicità, tenderà a smettere di acquistare, ossia a non fidarsi più delle informazioni presenti sul mercato.
Come fronteggiare il rischio?
Le firme, accompagnate da sanzioni sulla contraffazione, e le assicurazioni sui prodotti. Il primo genere di istituzione mira a garantire la qualità dei prodotti dotando gli acquirenti di un potere di ritorsione: una scarsa qualità sarà accompagnata dalla perdita dei clienti, che si rivolgeranno a un altro fornitore. Il secondo genere di istituzione mira a garantire la qualità dei prodotti dotando gli acquirenti di un potere di sostituzione del bene acquisito.
In riferimento alla GenAI, il primo genere di istituzione è già in atto, con lo scopo di massimizzare i benefici dell’innovazione dei sistemi text-to-image e text-to-video e nello stesso tempo cercare di minimizzarne i rischi. Oggi è infatti possibile introdurre nei file delle immagini e dei video dell’informazione crittografata e perciò non facilmente alterabile. In questo modo immagini e video possono contenere una “firma” del sistema con cui sono stati prodotti (per esempio una certa macchina fotografica o un certo sistema di GenAI) insieme con dati come la data di creazione e la storia delle eventuali modifiche, il tutto in condizioni sufficientemente sicure quanto all’autenticità di questa informazione. O perlomeno, fino a quando non troveranno un modo per falsificare anche queste firme.
Guarda gli spettacolari video realizzati con Sora
"The camera lowers and widens to a grand panoramic view overlooking the beautiful ocean and the historical buildings along the a stunning coastal picturesque town perched on the cliffs…"
— Bill Peebles (@billpeeb) February 17, 2024
Video generated by Sora. pic.twitter.com/d35Zebo4vc
"a walking figure made out of water tours an art gallery with many beautiful works of art in different styles"
— Tim Brooks (@_tim_brooks) February 17, 2024
Video generated by Sora
Sora has object permanence – the paintings stay consistent before and after the water man walks in front pic.twitter.com/lQgmlhHbir
"realistic video of people relaxing at beach, then a shark jumps out of the water halfway through and surprises everyone"
— Tim Brooks (@_tim_brooks) February 17, 2024
Video generated by Sora pic.twitter.com/WRVnrguCif
https://t.co/rPqToLo6J3 pic.twitter.com/nPPH2bP6IZ
— Sam Altman (@sama) February 15, 2024
https://t.co/uCuhUPv51N pic.twitter.com/nej4TIwgaP
— Sam Altman (@sama) February 15, 2024
https://t.co/qbj02M4ng8 pic.twitter.com/EvngqF2ZIX
— Sam Altman (@sama) February 15, 2024