Per il suo capo, il ChatGPT 4 francese è un “traguardo straordinario!”

Il 3 luglio scorso, Kyutai ha svelato Moshi, un modello di intelligenza artificiale dotato di capacità vocali inedite. Il prototipo del chatbot ha fatto i suoi primi passi con la stampa, ma è anche disponibile per tutti a questo indirizzo. La particolarità di questo prototipo è di poter comunicare oralmente in modo il più naturale ed espressivo possibile, rimanendo allo stesso tempo attento al suo interlocutore.

Il modello multimodale di Moshi può anche essere installato localmente e funzionare senza connessione a internet. La fondazione Kyutai rilascia questo modello in open source, per contribuire alla ricerca e allo sviluppo dell’ecosistema IA. Abbiamo voluto saperne di più su Moshi e sul laboratorio con il suo CEO, Patrick Perez.

Moshi è un assistente vocale con capacità che superano quelle di GPT-4o in alcuni settori chiave: parla e ascolta simultaneamente, continuando a generare un “flusso di pensiero”, il che a volte è sconcertante nell’uso. Moshi è ciò che più si avvicina a un’esperienza di conversazione umana?

Moshi.chat non è un assistente vocale, ma un prototipo sperimentale costruito su Moshi, un modello multimodale generico testo-voce che abbiamo sviluppato da zero. Questo prototipo dimostra, infatti, capacità di interazione orale senza precedenti in termini di naturalezza e fluidità.

Quali sono i possibili utilizzi di Moshi? In quali settori vi piacerebbe che questa tecnologia trovasse il suo posto?

Le applicazioni potenziali di questo modello multimodale sono numerose:

1/ Dialogo orale naturale con un’IA (assistente o compagno) per l’inclusione e l’accessibilità, l’educazione, il coaching, il gioco, il servizio clienti, la ricerca di informazioni, la robotica interattiva, ecc.

2/ Sintesi vocale espressiva e multi-locutore per l’accesso audio a contenuti scritti, la creazione di artefatti culturali e artistici, il gioco, ecc.

3/ Traduzione audio simultanea per la comunicazione e l’accessibilità.

Moshi ha richiesto sei mesi di sviluppo da parte di un team di 8 persone, che sembra poco, considerando le proporzioni. Questo significa che oggi è relativamente facile progettare un assistente come Moshi?

In realtà è un’impresa! Richiede competenze molto avanzate e complementari, oltre a un lavoro estremamente intenso e mirato, e la disponibilità di sufficienti risorse di calcolo. Per quest’ultimo punto, affittiamo macchine molto potenti da Scaleway, grazie ai generosi contributi dei nostri tre fondatori.

Moshi comprende numerosi accenti, ma l’assistente al momento parla solo inglese. È previsto l’inserimento di altre lingue in futuro e, domanda supplementare, è complicato far apprendere nuove lingue a un LLM?

Prevediamo di includere altre lingue, a partire dal francese e dallo spagnolo. Detto questo, l’idea è di condividere liberamente i nostri modelli e i codici che permettono di riaddestrarli in tutto o in parte. L’inclusione di altre lingue, anche se non triviale, potrà quindi essere realizzata da altri attori dell’ecosistema che dispongono delle risorse necessarie (dati, competenze, macchine) e di casi d’uso appropriati.

Helium, il LLM su cui si basa Moshi, conta 7 miliardi di parametri, che possono sembrare molti, ma come si confronta con altri LLM (non conosciamo il numero di parametri di GPT-4) e, soprattutto, la qualità di un LLM si limita al numero di parametri? E quali sono i dati di addestramento che avete utilizzato?

È un modello di dimensioni medie. I “piccoli” modelli hanno piuttosto tra i 2 e i 3 miliardi di parametri, mentre i “grandi” possono avere dimensioni che vanno da decine a centinaia (o addirittura migliaia?) di miliardi di parametri. La dimensione non è tutto, ma con i dati giusti (volume e qualità) e le tecniche di apprendimento più recenti, una maggiore dimensione permette generalmente di ottenere migliori prestazioni su una gamma più ampia di compiti. Per il pre-addestramento di Helium utilizziamo un mix abbastanza classico di dati dal web, in particolare provenienti dal progetto CommonCrawl. Dell’ordine di mille miliardi (un bilione) di parole scritte.

Il processo di apprendimento di Moshi ha anche coinvolto 100.000 conversazioni orali e un motore “Text-to-Speech”. Qui ho bisogno che mi spieghi come funziona!

Helium “scrive” questi 100.000 dialoghi, e una versione precedente di Moshi, che permette la sintesi vocale con voci date, li trasforma in conversazioni audio.

C’è qualcuno dietro la “voce” di Moshi?

Abbiamo lavorato con un’artista vocale i cui registrazioni, fatti insieme, hanno permesso di fissare la voce dell’IA nelle 100.000 conversazioni menzionate in precedenza.

Kyutai ha anche sviluppato una variante di Moshi destinata a funzionare in locale, quindi senza connessione a internet. Sarà possibile utilizzarla sul proprio computer personale tramite GPU. Due domande: perché non con l’NPU, che equipaggia sempre più PC e Mac? E una versione tipo “nano” per smartphone è fattibile?

I nostri modelli sono attualmente progettati per essere addestrati e poi utilizzati su GPU di Nvidia. La dimostrazione di una versione locale compressa è stata quindi naturalmente realizzata sullo stesso tipo di chip, ma più piccolo. Come laboratorio di ricerca, cercavamo soprattutto di dimostrare la fattibilità di versioni embedded dei nostri modelli. Speriamo che la condivisione di questi modelli e dei codici associati permetta ad altri di andare oltre in termini di portabilità, in base alle loro esigenze. Sì, si può immaginare in futuro un Moshi più piccolo e più specializzato che giri su un mobile.

Quando si parla di IA generativa, la questione della sicurezza si pone abbastanza rapidamente. Come si può essere sicuri che Moshi non verrà utilizzato a fini malintenzionati?

Come per altre IA generative, parte del “finetuning” (fase di apprendimento supervisionato che segue il pre-addestramento non supervisionato su larga scala) è dedicata a rafforzare la sicurezza insieme ad altre capacità. Inoltre, stiamo lavorando al watermarking invisibile dei contenuti generati dai nostri modelli, un problema di ricerca allo stesso tempo difficile e importante.

Infine, crediamo fermamente nei benefici dell’open-source in materia di sicurezza (tra l’altro): più attori possono ispezionare, valutare e mettere in sicurezza i modelli così condivisi. Nella misura in cui l’uso malintenzionato di modelli generativi sempre più potenti (in termini di controllo e realismo) e sempre più numerosi è impossibile da evitare, divulgare e informare costantemente su questi argomenti tecnici è cruciale per limitare i danni.

Quale futuro per Moshi?

Continuiamo a svilupparlo per migliorare alcune delle sue capacità (pertinenza, espressività, lingue)… e non vediamo l’ora di vedere come l’ecosistema lo utilizzerà e lo modificherà non appena avremo condiviso modelli, codici e informazioni tecniche (lavoro in corso).

Kyutai ha una posizione piuttosto unica in Francia e in Europa, poiché il laboratorio è stato finanziato da Xavier Niel. È una garanzia rispetto ad altre aziende IA che hanno investitori alla ricerca prima di tutto della redditività?

Finanziato anche da Eric Schmidt e Rodolphe Saadé; i tre sono donatori, non investitori (siamo una fondazione). Quindi sì, questo ci assicura una grande indipendenza nella scelta delle nostre ricerche e nella costituzione del team, pur disponendo di mezzi eccezionali.

Fonte: www.01net.com

➡️ACCEDI A CHATGPT IN ITALIANO CLICCANDO QUI ! ⬅️

Esegui l'accesso per Commentare