2014-04-08 15 views
5

E 'possibile, a livello di codice, prendere il campione di voce di qualcuno e produrre un tono/proprietà univoco che potrebbe essere utilizzato per creare un discorso sintetizzato?Sintesi vocale - Creazione di voci personalizzate

Ad esempio, la persona A registra se stesso. Un suono unico è prodotto da questo campione vocale e viene trasformato in sintesi vocale. Ciò consente alle persone di utilizzare questa voce sintetica nel software Text-to-Speech, scrivendo qualsiasi testo che desiderano che venga letto di persona nella voce di A.

E 'possibile in termini di oggi? So che ci sono aziende che lo fanno professionalmente, ma in generale, è possibile che un software lo faccia?

+0

http://en.wikipedia.org/wiki/Siri, http://en.wikipedia.org/wiki/Google_Now, ecc ... – ElGavilan

+0

Se ho capito correttamente cosa chiedete, risponderei "no ". Non è possibile generare una "voce completa", quindi una voce utilizzabile per "parole" arbitrarie da un singolo "tono". Sono necessari campioni separati per tutti i suoni, in genere almeno per diphones o migliori triphones. Quindi un catalogo completo di suoni per ogni altoparlante. – arkascha

+0

OK, grazie mille, arkascha. Stavo solo pensando che, proprio come ogni persona ha un'impronta digitale unica, forse voci diverse sono distinguibili da qualche tipo di proprietà. E ElGavilan, Siri non funziona così. Usa le narrazioni registrate da una vera donna. – Travier

risposta

4

Utilizzando i metodi di adattamento degli altoparlanti è possibile ottenere alcuni risultati con campioni di addestramento relativamente pochi, ma si dovrebbero comunque avere alcune centinaia di frasi della persona - preferibilmente con una trascrizione fonetica.

Una volta questo era un piccolo esercizio di laboratorio per gli studenti per registrare le proprie voci e addestrare un modello vocale utilizzando HTS (http://hts.sp.nitech.ac.jp/). L'approccio "più semplice" usando HTS è quello di scaricare la "demo di addestramento dipendente da altoparlante" da questa pagina e sostituire i campioni del discorso di allenamento con le proprie registrazioni (delle stesse frasi!). Abbiamo fatto questo per un'altra lingua con il nostro pacchetto però.

Penso che MaryTTS (http://mary.dfki.de/) abbia alcuni strumenti più utili per aiutare con questo processo, ma non ho mai lavorato con quello.

Ma ancora: per le voci di alta qualità, dovresti avere migliaia di frasi registrate.

Problemi correlati