Un nuovo servizio alimentato dall’intelligenza artificiale trasforma i ritratti in teste parlanti

Leads di qualità che si trasformano in affari I programmi di marketing di TechNewsWorld offrono lead pronti per la vendita. Segmentate per area geografica, settore, dimensioni dell’azienda, mansione e altro ancora. Inizia subito.

D-ID ha annunciato lunedì un nuovo servizio basato sull’intelligenza artificiale in grado di trasformare i ritratti in teste parlanti.

Chiamata Creative Reality Studio, l’applicazione self-service è in grado di trasformare l’immagine di un volto in un video, completo di parlato.

Il servizio è rivolto ai creatori di contenuti aziendali – unità di apprendimento e sviluppo, dipartimenti di risorse umane, marketer, pubblicitari e team di vendita – ma chiunque può provare la tecnologia sul sito web di D-ID.

La piattaforma riduce i costi e i problemi legati alla creazione di contenuti video aziendali e offre una varietà illimitata di presentatori – invece di avatar limitati – comprese le foto degli utenti o qualsiasi immagine di cui abbiano i diritti d’uso, secondo l’azienda, che ha guadagnato un po’ di notorietà quando la sua tecnologia è stata utilizzata in un’applicazione chiamata Deep Nostalgia. Il software è stato presentato come un modo per animare vecchi ritratti.

L’azienda ha aggiunto che la tecnologia consente ai clienti e agli utenti di scegliere l’identità di un presentatore, compresa l’etnia, il sesso, l’età e persino la lingua, l’accento e l’intonazione. “Questo offre una maggiore rappresentazione e diversità, che porta a un più forte senso di inclusione e appartenenza, spingendo a un maggiore coinvolgimento e interazione con le aziende che la utilizzano”, ha dichiarato in un comunicato stampa.

“I casi d’uso includono la possibilità per i creatori di contenuti aziendali di integrare perfettamente i video negli spazi digitali e nelle presentazioni con l’esclusivo plug-in per PowerPoint, generando contenuti più coinvolgenti grazie a narratori video aziendali personalizzati”, ha dichiarato a TechNewsWorld Matthew Kershaw, vicepresidente marketing di D-ID.

Servizi impressionanti

La qualità di questi servizi è piuttosto impressionante e continua a migliorare, sostiene Daniel Castro, vicepresidente della Information Technology and Innovation Foundation, un’organizzazione di ricerca e politica pubblica di Washington.

“Questo servizio non è ancora al livello di sostituire completamente un presentatore, ma non c’è motivo di aspettarsi che ci arrivi relativamente presto”, ha dichiarato a TechNewsWorld.

D-ID ha spiegato che l’uso dei video da parte delle aziende è aumentato drasticamente e che un numero sempre maggiore di esse li sta integrando nelle proprie strategie di formazione, comunicazione e marketing.

Ad accelerare questa tendenza, ha proseguito, sono i mondi in rapida evoluzione degli avatar e del metaverso, che richiedono un approccio ai contenuti più creativo, coinvolgente e interattivo da parte dei creatori digitali. I budget di produzione, tuttavia, possono essere proibitivi e richiedono un notevole impiego di tempo e talento.

“Il servizio è un’evoluzione degli avatar e degli emoji che si usano oggi, ma può essere utilizzato per una discussione o una presentazione più lunga”, ha osservato Ross Rubin, analista principale di Reticle Research, una società di consulenza sulle tecnologie di consumo di New York.

“L’idea è quella di risparmiare tempo, soprattutto se si deve leggere un copione”, ha dichiarato a TechNewsWorld. “Può essere più coinvolgente per il pubblico rispetto all’audio o alla lettura di diapositive”.

Democratizzare l’IA

L’amministratore delegato e cofondatore di D-ID, Gil Perry, ha dichiarato in un comunicato stampa che la tecnologia dell’azienda, finora limitata alle imprese, è stata utilizzata per generare 100 milioni di video.

“Ora che offriamo la nostra piattaforma di Realtà Creativa self-service, il potenziale è enorme”, ha continuato. “Consente alle grandi imprese, alle aziende più piccole e ai liberi professionisti di produrre video personalizzati per una serie di scopi su scala massiccia”.

Kershaw ha aggiunto che la tecnologia di D-ID democratizzerà ulteriormente la creatività. “Dico ‘ulteriormente’ perché in realtà la tecnologia sta già democratizzando le arti da decenni”, ha affermato.

“Dagli esordi di sintetizzatori, campionatori e sequencer nella musica a Photoshop e Illustrator nella fotografia e nell’illustrazione, fino a Premier e al desktop editing e motion graphics nella produzione cinematografica, la possibilità di creare produzioni di alta qualità al di fuori di studi specializzati di alto livello è iniziata fin dagli anni ’80”, ha dichiarato. “Questo è solo l’ultimo episodio di questa lunga serie”.

“È sicuramente un passo avanti verso la democratizzazione dell’IA”, ha concordato Avivah Litan, analista di sicurezza e privacy presso Gartner. Ha dichiarato a TechNewsWorld: “Ci sono molti casi d’uso importanti nell’istruzione, nella sanità e nella vendita al dettaglio”. “È un modo migliore per comunicare con le persone. Stiamo diventando una società molto più visiva. Nessuno ha il tempo di leggere nulla”.

Preoccupazioni per Deepfake

Con la crescente preoccupazione per l’uso di “deepfake” per diffondere disinformazione e portare l’ingegneria sociale a nuovi livelli, c’è sempre il potenziale di abuso che incombe sulle nuove soluzioni di media sintetici come D-ID.

“Come ogni altra tecnologia, anche la nostra può essere usata da malintenzionati, ma la nostra piattaforma si rivolge a imprese legittime, che non hanno alcun interesse in questo tipo di utilizzo”, ha dichiarato Kershaw.

“Inoltre”, ha continuato, “non siamo deepfake. Non mettiamo il volto di qualcun altro sul corpo di un’altra persona e non cerchiamo di far dire a qualcuno qualcosa che non ha detto”.

“All’interno della piattaforma di D-ID, abbiamo introdotto diverse salvaguardie per assicurarci che la nostra tecnologia non venga utilizzata in questo modo”, ha aggiunto. “Non replichiamo la voce delle celebrità o senza il permesso di una persona”.

L’azienda filtra anche le parolacce e i commenti razzisti e impedisce che la piattaforma venga utilizzata per creare video politici.

“D-ID sta mettendo dei paletti alla sua piattaforma, ma sappiamo tutti che i paletti non sono mai perfetti”, ha osservato Litan.

“È un ottimo strumento per diffondere la disinformazione, perché questi siti di social media non sono preparati per i deepfakes”, ha aggiunto. “Anche se i siti di social media diventassero bravi a identificare i deepfakes, non lo diventerebbero mai abbastanza. È come lo spam. Lo spam passa sempre. Anche questo passerà, ma le conseguenze saranno peggiori”.

Necessità di provenienza

Litan sostiene che individuare i deepfakes è una proposta perdente nel lungo periodo. Anche oggi, gli algoritmi di rilevamento non sono generalmente in grado di identificare più del 70% dei deep fake.

Ha aggiunto che gli avversari determinati terranno il passo con il rilevamento dei deepfake utilizzando reti generative avversarie, cosicché i tassi di rilevamento finiranno per scendere fino al 50%.

Prevede che nel 2023 il 20% degli attacchi di successo per l’acquisizione di account utilizzerà i deepfake per indurre gli utenti a consegnare dati sensibili o a trasferire denaro su conti criminali.

“Molte salvaguardie devono essere applicate a livello di settore, ed è per questo che stiamo lavorando con gli organismi di settore e le autorità di regolamentazione per mettere in atto salvaguardie legali che rendano il settore, in generale, più sicuro e affidabile”, ha dichiarato Kershaw. “Pensiamo che, in particolare, un sistema di watermarking invisibile dei contenuti attraverso l’uso della steganografia eliminerebbe quasi tutti i potenziali problemi”.

“Si potrebbe vedere un supporto e, cliccando su un pulsante, vederne anche la provenienza, la provenienza e il contenuto”, ha osservato. “La trasparenza è la soluzione”.

“Ci sono molti modi per affrontare i falsi, ma il più importante è conoscere la provenienza e l’autenticità dei supporti”, ha aggiunto Castro.