Le Voci dell’IA di Oggi: Innovazioni, Rischi e Applicazioni
Weiquan Lin/Getty Images
Puoi distinguere un essere umano da un robot? In un sondaggio, Podcastle, creatore di servizi vocali basati su IA, ha scoperto che due persone su tre non riuscivano a capire se una voce fosse umana o generata dall’intelligenza artificiale. Questo significa che le voci generate dall’IA sono sempre più difficili da distinguere da quelle delle persone reali.
Per le aziende che desiderano fare affidamento sulla generazione di voci artificiali, è promettente. Per il resto di noi, è un po’ inquietante.
La sintesi vocale non è una novità
Molte tecnologie di IA esistono da decenni. Ma nel caso delle voci, la sintesi vocale esiste da secoli. Non è una cosa nuova.
Ad esempio, vi invito a consultare il documento Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine, datato 1791. Questo documento spiega come Johann Wolfgang Ritter von Kempelen de Pázmánd abbia utilizzato dei mantici per creare una macchina parlante nell’ambito della sua celebre burla degli automi, il Turco. È così che è nato il termine “turco meccanico”.
Una sintesi vocale computerizzata ha dato al fisico Stephen Hawking la sua voce. Questa voce è stata creata con un computer desktop del 1986, fissato alla sua sedia a rotelle. Non l’ha mai sostituita con qualcosa di più moderno. Ha dichiarato: «La conservo perché mi identifico con essa».
Anche i software di sintesi vocale non sono nuovi. Negli anni ’80, il TI 99/4 integrava la sintesi vocale in alcune cartucce di gioco. E l’Apple II aveva una sintesi vocale.
La maggior parte di queste implementazioni, fino alla metà degli anni 2010, utilizzava fonemi di base per creare la voce sintetica. Tutte le parole possono essere scomposte in circa 24 consonanti e 20 vocali. Questi suoni venivano sintetizzati o registrati, e poi, quando una parola doveva essere “pronunciata”, i fonemi venivano assemblati nell’ordine e riprodotti.
Funzionava. Era affidabile ed efficiente. Ma non suonava come Alexa o Siri.
Le voci AI di oggi
Oggi, grazie alle tecnologie di IA e a una potenza di elaborazione molto maggiore, la sintesi vocale può assomigliare a voci reali. In effetti, la generazione di voci AI di oggi può creare voci che sembrano quelle di persone che conosciamo. Il che può essere una cosa buona o cattiva. Esaminiamo entrambi gli aspetti.
Truffe vocali
A gennaio, un fornitore di servizi vocali ha effettuato migliaia di telefonate fraudolente utilizzando una voce generata dall’IA simile a quella del presidente Joe Biden. La voce diceva agli elettori che se avessero votato alle primarie dello Stato, non sarebbero stati autorizzati a votare alle elezioni generali di novembre. Questo tipo di falsa dichiarazione è illegale e il fornitore di servizi vocali ha accettato di pagare una multa di un milione di dollari allo Stato.
Creazione di contenuti e clonazione vocale
Questo processo, chiamato clonazione vocale, ha applicazioni sia pratiche che malevoli. Ad esempio, il servizio di montaggio video Descript dispone di una funzione di overdub che consente di clonare la tua voce. Poi, se modifichi un video, può sovrapporre la tua voce alle modifiche, in modo che tu non debba tornare indietro e registrare nuovamente i cambiamenti che hai apportato. Il software di Descript sincronizza persino i movimenti delle labbra, così sembra che tu stia dicendo ciò che scrivi nell’editor.
Trascorro troppo tempo a modificare e correggere errori video, quindi capisco l’interesse di questa soluzione. Ma non posso fare a meno di immaginare il male che questa tecnologia può fare. Con la clonazione vocale e l’IA generativa, mamma potrebbe ricevere una chiamata da sua figlia Jane. E la voce sembrerà proprio quella di Jane. Dopo una breve conversazione, mamma scoprirà che Jane è bloccata in Messico e ha bisogno di migliaia di euro per tornare a casa. Era davvero la voce di Jane, quindi mamma ha inviato i soldi. Si scopre che Jane sta benissimo e non sa nulla della truffa di cui sua madre è stata vittima.
Aggiungi anche la sincronizzazione labiale. Ora puoi prevedere un’esplosione di false truffe di rapimento. Perché rischiare di catturare uno studente in viaggio all’estero quando un video completamente falso sarebbe sufficiente? Funziona sempre? No, ma non è necessario. È comunque spaventoso.
Aiuti per l’accessibilità
Ma non tutto è così oscuro. Proprio come la vecchia PC del 1986 ha dato la sua voce al professor Hawking, la moderna generazione vocale basata sull’IA aiuta i pazienti di oggi. NBC ha pubblicato un reportage su una tecnologia sviluppata presso l’Università di Davis che permette a un paziente affetto da sclerosi di recuperare la parola. Il progetto utilizza:
- Impianti cerebrali che elaborano i modelli neurali
- L’IA che converte questi modelli in parole che il paziente vuole dire
- Un generatore di voce AI che parla con la voce reale del paziente.
La voce del paziente affetto da sclerosi è stata clonata a partire da registrazioni della sua voce prima che la malattia gli togliesse la capacità di parlare.
Agenti vocali per il servizio clienti
L’IA nei call center è un argomento molto delicato. In realtà, è l’argomento stesso dei call center a essere delicato. C’è la sensazione di impersonale che si prova quando si deve farsi strada attraverso un albero telefonico e la frustrazione di dover aspettare altri 40 minuti prima di poter parlare con un agente. Poi c’è la frustrazione di trattare con un agente che chiaramente non è formato o che segue uno script che non risolve il tuo problema. C’è anche la frustrazione quando tu e l’agente non riuscite a capirvi a causa della vostra comprensione della lingua. E quante volte sei stato disconnesso perché un agente di primo livello non è riuscito a trasferirti a un responsabile?
Sì, l’IA nei call center può davvero aiutare. Di recente mi sono imbattuto in un’IA mentre dovevo risolvere un problema tecnico. Avevo già aperto un ticket di supporto e ho aspettato una settimana per ottenere una risposta poco utile. L’assistenza vocale non era disponibile. Per frustrazione e un po’ per curiosità, ho deciso finalmente di cliccare sul pulsante “AI Help”. Si è rivelata un’IA molto ben addestrata, in grado di rispondere a domande tecniche piuttosto complesse e di comprendere e implementare le modifiche di configurazione di cui il mio account aveva bisogno. Non c’è stata attesa e il mio problema, che era rimasto irrisolto per più di una settimana, è stato risolto in circa 15 minuti.
Un altro esempio è Fair Square Medicare. Questa società utilizza assistenti vocali per aiutare le persone anziane a scegliere il piano sanitario giusto. L’assicurazione sanitaria è complessa e le scelte non sono evidenti. Le persone anziane spesso si sentono sopraffatte dalle opzioni a loro disposizione. Fair Square ha sviluppato una piattaforma vocale AI generativa basata su GPT-4 che può guidare gli anziani attraverso il processo.
Certo, a volte è piacevole poter parlare con un essere umano. Ma se non riesci a entrare in contatto con un essere umano competente e disponibile, l’IA potrebbe essere una valida alternativa.
Assistenti intelligenti
Poi ci sono gli assistenti intelligenti come Alexa, Google e Siri. Per questi prodotti, la voce è l’elemento centrale del prodotto. Siri, quando è arrivato sul mercato nel 2011, era incredibile per le sue capacità. Alexa, nel 2014, era altrettanto impressionante. Anche se entrambi i prodotti sono evoluti, gli elementi di intelligenza artificiale sembrano essere stagnanti. Nessuno dei due prodotti può competere con le capacità di chat vocale di ChatGPT, soprattutto con ChatGPT Plus e GPT-4. La versione dell’assistente vocale di ChatGPT è straordinaria. Può gestire conversazioni complete, ottenere risposte (anche se a volte inventate) e seguire le linee guida della conversazione. Se la qualità della voce di Alexa (e, in misura minore, di Siri e Google Assistant) è buona, le intonazioni vocali di ChatGPT sono più sfumate.
Ovviamente, il riconoscimento vocale è una delle altre funzioni più notevoli degli assistenti vocali. Questi dispositivi sono dotati di microfoni che consentono loro non solo di distinguere le voci umane dai rumori di fondo, ma anche di ascoltare e interpretare il discorso umano, almeno abbastanza da creare risposte.
Come funziona la generazione vocale AI?
Per fortuna, la maggior parte dei programmatori non ha bisogno di sviluppare la propria tecnologia di generazione vocale da zero. La maggior parte dei grandi attori del cloud offre servizi di generazione vocale AI che funzionano come microservizi o eseguono un’API dalla tua applicazione. Tra questi ci sono Google Cloud Text-to-Speech, Amazon Polly, Azure AI Speech di Microsoft, il framework vocale di Apple, ecc.
In termini di funzionalità, i generatori di voce iniziano con il testo. Questo testo può essere generato da un redattore umano o da un’IA come ChatGPT. Questo testo viene poi convertito in linguaggio umano, ovvero onde sonore che possono essere percepite dall’orecchio umano e dai microfoni. Abbiamo già parlato dei fonemi. Le IA elaborano il testo generato ed eseguono un’analisi fonetica, producendo suoni vocali che rappresentano le parole del testo.
Come vengono addestrate le IA specializzate nella sintesi vocale?
Dal punto di vista dell’addestramento delle IA specializzate, le reti neurali (codice che elabora i modelli di informazione) utilizzano modelli di apprendimento profondo per ingerire ed elaborare enormi set di dati di discorsi umani. Da questi milioni di esempi di discorsi, l’IA può modificare i suoni di base delle parole per riflettere l’intonazione, l’accento e il ritmo, rendendo i suoni più naturali e olistici.
Alcuni generatori di voce AI personalizzano poi il risultato, regolando l’altezza e il tono per rappresentare voci diverse e persino applicando accenti che riflettono il discorso proveniente da una regione particolare. Al momento, l’app per smartphone di ChatGPT non offre questa possibilità, ma puoi chiedere a Siri e Alexa di utilizzare voci diverse o voci provenienti da regioni diverse.
Come funziona il riconoscimento vocale?
Il riconoscimento vocale funziona al contrario. Deve catturare i suoni e convertirli in testo che può poi essere inserito in una tecnologia di elaborazione come ChatGPT o nel back-end di Alexa. Come
Fonte: « ZDNet.com »