Scrittura motore riconoscimento vocale

Così, come molti altri, ho deciso di creare il mio motore di riconoscimento vocale. Come si è scoperto, non è affatto facile, invece, è piuttosto difficile da realizzare per la lingua inglese in particolare, perché c'è, direi, una differenza drammatica tra il modo in cui una parola è scritta e il modo in cui è pronunciata. Essendo dalla Georgia, ho deciso di scrivere il riconoscimento vocale per la lingua georgiana. In georgiano, pronuncia le parole ESATTAMENTE nel modo in cui le scrivi. È proprio come una trascrizione. Questo fatto faciliterà in modo significativo il mio compito? O ci sono ancora più difficili ... difficoltà: D?Scrittura motore riconoscimento vocale

fonte

2011-11-20 nicks

Btw, un mio amico ha recentemente creato l'ASR georgiano. Se sei interessato, fammi sapere. –

Nika, hai creato il software? per favore condividi ciò che hai fatto, anche noi siamo interessati se tale software esiste. –

penso che il modo più semplice per farlo sia l'uso di AI uso di Perceprtron multilivelli o qualcosa del genere (intendo rete neurale) e addestrarlo ... penso che con questa soluzione puoi risolvere facilmente il problema che menziona Yahia nella sua risposta , GL;) – Simon

Il riconoscimento vocale è un dominio complesso con molti algoritmi, strumenti e metodi specifici. Per creare il proprio motore si potrebbe iniziare con CMUSphinx aperta discorso fonte riconoscimento toolkit, che vi permetterà di:

Raccogliere ed elaborare i dati necessari per supportare la lingua georgiana
Creare i modelli per georgiana
Implementare un discorso motore di riconoscimento in georgiano.
Usa motore per creare un'applicazione di riconoscimento vocale in esecuzione sul desktop, sul server o su iPhone (tramite OpenEars)

CMUSphinx supporta già inglese, tedesco, spagnolo, francese, olandese, russo, mandarino, islandese, italiano e molte altre lingue. È molto semplice aggiungerne uno nuovo.Per le persone nuove di solito ci vogliono un mese o due di lavoro concentrato per attuare il processo richiesto.

Per iniziare vai alla home page:

http://cmusphinx.sourceforge.net

e leggere il tutorial

http://cmusphinx.sourceforge.net/wiki/tutorial

Se avete qualche domanda, si prega di chiedere loro su forum o qui!

E, è un malinteso molto comune che si pronunciano i suoni quando parli georgiano. Non è vero per la maggior parte delle lingue del mondo. Per verificare l'ipotesi, prova a registrare un po 'di audio in un editor audio e controlla quali suoni sono effettivamente pronunciati. Sarai sorpreso. Il tutorial qui sopra copre questa domanda in dettaglio.

fonte

2011-11-21 17:34:14

quindi intendi che posso aggiungere un linguaggio assolutamente inesplorato, come il georgiano e "falla funzionare" tra un paio di mesi?!?! – nicks

Sì, perché no. In realtà CMUSphinx ha fatto molti progressi per supportare lingue con risorse a basso costo. –

Tutte le persone della Georgia suonano assolutamente uguali? Penso che non ... un sacco di grossi problemi nel riconoscimento vocale non sono direttamente connessi con il linguaggio stesso: la gente

diverse (donne, uomini, bambini, anziani, ecc) hanno diverse voci
a volte lo stesso persona suoni diversi, ad esempio quando la persona ha il raffreddore
diverso sfondo rumori
linguaggio quotidiano a volte contiene parole da altre lingue (come si ha la parola tedesca Asilo negli Stati Uniti/inglese)
alcune persone non dal il paese stesso ha imparato il langu età (di solito suonano diversi)
alcune persone parlano più velocemente, altri parlano più lento
qualità del microfono
ecc

Risolvendo queste cose sempre è piuttosto difficile ... per di più si avere la lingua/la pronuncia di cui occuparsi ... Non conosco il georgiano, ma ciò che descrivi potrebbe rendere l'operazione un po 'più facile ma sarà comunque un compito difficile.

EDIT - come per i commenti:

Uso buone biblioteche potrebbe ridurre il lasso di tempo e anche aiutare in termini di qualità ... ma non ogni biblioteca è un bene per il riconoscimento vocale, nonostante forse essere brillante su qualche altro audio- questioni connesse ...

per riferimento vedere l'articolo di Wikipedia http://en.wikipedia.org/wiki/Speech_recognition - ha una buona visione d'insieme tra cui alcuni link e riferimenti del libro che sono un buon punto di partenza ...

quanto a come progettare un tale API vedere ad esempio http://java.sun.com/products/java-media/speech/forDevelopers/jsapi-guide/Recognition.html

fonte

2011-11-20 15:59:48 Yahia

sul modo in cui suonano le persone diverse: in realtà, anche se non sembrano assolutamente uguali, c'è una grande somiglianza perché parlare georgiano è come leggere la trascrizione; e lì, non hai molta scelta, penso. – nicks

@NikaGamkrelidze Sospetto che se senti la stessa parola da 2 persone diverse puoi distinguere tra le persone (come tua madre rispetto a tuo padre o qualche amico ecc.)? – Yahia

ovviamente: DDD vedo. è ancora difficile: SS ma, come pensi, è possibile per un noob completo in questa sfera (anche se non male di un programmatore che conosce un sacco di matematica e si occupa di editing audio) scrivere un motore di riconoscimento vocale discendente, facciamo dici un anno? – nicks

Scrittura motore riconoscimento vocale

risposta

Problemi correlati