Oggi siamo un passo più vicini al futuro senza tempo delle celebrità che ci è sempre stato promesso (da aprile). Meta ha svelato Voicebox, il suo modello di configurazione text-to-speech che promette di fare per la parola parlata ciò che ChatGPT e Dall-E hanno fatto, rispettosamente, per la generazione di testo e immagini.
Fondamentalmente, è un generatore di testo in uscita proprio come GPT o Dall-E – solo che invece di creare una bella prosa o immagini, sputa clip audio. Meta definisce il sistema come “un modello di corrispondenza del flusso automatico non regressivo addestrato per riempire il discorso, dato il contesto audio e testuale”. È stato addestrato su oltre 50.000 ore di audio non filtrato. In particolare, Meta ha utilizzato discorsi e testi registrati da una serie di audiolibri di pubblico dominio scritti in inglese, francese, spagnolo, tedesco, polacco e portoghese.
Questo insieme diversificato di dati consente al sistema di produrre discorsi più conversazionali, indipendentemente dalle lingue parlate da ciascuna parte, secondo i ricercatori. “I nostri risultati mostrano che i modelli di riconoscimento vocale addestrati sul parlato artificiale generato dalla casella vocale si comportano quasi come i modelli addestrati sul parlato reale”. Inoltre, il discorso generato dal computer è stato eseguito con un tasso di errore ridotto di solo l’1%, rispetto a una riduzione dal 45 al 70% negli attuali modelli di sintesi vocale.
Il sistema è stato inizialmente insegnato a prevedere le sillabe del discorso in base alle sillabe che le circondano e al testo della sillaba. “Avendo imparato a inserire il discorso dal contesto, il modello può applicarlo alle attività di creazione del parlato, inclusa la creazione di frammenti nel mezzo di una registrazione audio senza dover ricreare completamente l’input”, hanno spiegato i ricercatori di Meta.
Secondo quanto riferito, Voicebox è anche in grado di modificare attivamente clip audio, eliminare il rumore dal parlato e persino sostituire le parole pronunciate male. “Una persona può identificare qualsiasi parte iniziale del discorso che è rovinata dal rumore (come un cane che abbaia), ritagliarla e istruire il modello a ricreare quel passaggio”, ad esempio utilizzando un software di modifica delle immagini per ripulire le immagini, hanno detto i ricercatori.
I generatori di sintesi vocale sono in circolazione da un minuto: è così che i tuoi genitori TomTom sono stati in grado di darti indicazioni stradali sfuggenti con la voce di Morgan Freeman. Iterazioni moderne come fatto un discorso O AI Voice Prime di Elevenlab Sono molto più capaci, ma richiedono comunque cumuli di materiale originale per imitare correttamente il loro argomento – e poi un’altra montagna di dati diversi per ciascuno. laurea breve. scorso. L’argomento su cui vuoi esercitarti.
Voicebox lo fa, grazie a un nuovo metodo di allenamento TTS senza clipping. I risultati del benchmark non sono nemmeno vicini in quanto l’IA di Meta, secondo quanto riferito, supera l’attuale stato dell’arte sia in termini di chiarezza (tasso di errore dell’1,9% contro 5,9%) che di “somiglianza audio” (un punteggio composito da 0,681 a 0,580 in SOA), ciascuno Tutto ciò mentre funziona fino a 20 volte più velocemente rispetto ai migliori sistemi di sintesi vocale di oggi.
Ma non mettere ancora in riga i tuoi navigatori famosi, né l’app Voicebox né il suo codice sorgente sono stati rilasciati al pubblico in questo momento, ha confermato il Meta venerdì, citando “potenziali rischi di uso improprio” nonostante “l’uso impressionante”. Generative Speech Models”. Invece, la società ha rilasciato una serie di esempi audio (vedi sopra/sotto) oltre al documento di ricerca iniziale del programma. Il team di ricerca spera che in futuro la tecnologia trovi la sua strada nelle protesi per i pazienti con danni alle corde vocali e NPC e assistenti digitali nel gioco.
“Esperto di Internet. Lettore. Fanatico della TV. Comunicatore amichevole. Esperto di alcolisti certificato. Appassionato di pancetta. Esploratore. Evil twitteraholic.”