Voce ‘Kyutai’: il nuovo modello di trattamento della voce dal laboratorio parigino di intelligenza artificiale
Kyutai lancia Moshi. Questi due nomi carini ma criptici prendono in prestito le parole giapponesi “sfera” e “ciao”. Uno si riferisce a un laboratorio parigino di intelligenza artificiale (IA) fondato a novembre e l’altro è il suo primo strumento reso pubblico, un modello di elaborazione vocale.
Come ChatGPT o Gemini per il testo, come Dall-E o Midjourney per le immagini, questo si colloca nel campo degli assistenti virtuali, ma vocali. Capace di decodificare un’istruzione orale e generare una risposta in stile conversazionale, Moshi si propone come alternativa agli strumenti equivalenti di OpenAI (il creatore di ChatGPT), Google o Apple (Siri). Ma si proclama fabbricato in Francia e open source, cioè utilizzabile e modificabile liberamente.
Moshi è la prima pubblicazione di Kyutai dal suo lancio pomposo il 17 novembre. Questo laboratorio con un budget di 300 milioni di euro è atipico sulla scena parigina, poiché finanziato da mecenati: i francesi Xavier Niel (fondatore dell’operatore di telecomunicazioni Iliad e azionista de Monde) e Rodolphe Saadé, CEO dell’armatore CMA-CGM, nonché l’americano Eric Schmidt, ex-CEO di Google diventato investitore.
Un modello “ibrido” finanziato da mecenati
È stato creato reclutando sei ricercatori in intelligenza artificiale provenienti dai giganti americani come Meta o Google DeepMind. Il loro obiettivo è di “creare modelli di base innovativi in AI e pubblicarli”, riassume il direttore, Patrick Pérez. “L’idea alla base di Kyutai è di creare un ibrido che beneficia del meglio di entrambi i mondi, la ricerca accademica per la sua libertà e il mondo aziendale per le sue risorse.”
Moshi si propone quindi come innovativo, anche rispetto alla concorrenza mondiale. Kyutai ha scelto il campo del suono, meno affollato di quello dei modelli di generazione di testo (dove operano già OpenAI, Google o Anthropic, ma anche i francesi Mistral o LightOn). “Di solito, le IA vocali utilizzano diversi modelli successivi: uno per rilevare la presenza di un’istruzione sonora, uno per trascribirla in testo, un altro per comprendere la richiesta, un altro per produrre la risposta e un ultimo per trasformarla in voce. Ma questo produce un ritardo di tre a cinque secondi, sgradevole in una conversazione”, spiega il ricercatore Neil Zeghidour, che ha lavorato presso Google sul modello di IA musicale AudioLM.
Per ottenere risposte “in tempo reale” (in poche centinaia di millisecondi), Moshi si basa su un modello di IA unico, addestrato direttamente su estratti sonori. Questo consente di decodificare e imitare meglio le emozioni o gli accenti, assicurano i ricercatori. Moshi potrebbe adottare “settanta stili e toni”: sussurrare, assumere una “voce da pirata”, parlare in inglese come un francese… Tante sfumature ispirate alla voce di un’attrice registrata.
Ti rimane il 38,81% di questo articolo da leggere. Il resto è riservato agli abbonati.
Fonte : www.lemonde.fr