2011-11-20 10 views
7

Così, come molti altri, ho deciso di creare il mio motore di riconoscimento vocale. Come si è scoperto, non è affatto facile, invece, è piuttosto difficile da realizzare per la lingua inglese in particolare, perché c'è, direi, una differenza drammatica tra il modo in cui una parola è scritta e il modo in cui è pronunciata. Essendo dalla Georgia, ho deciso di scrivere il riconoscimento vocale per la lingua georgiana. In georgiano, pronuncia le parole ESATTAMENTE nel modo in cui le scrivi. È proprio come una trascrizione. Questo fatto faciliterà in modo significativo il mio compito? O ci sono ancora più difficili ... difficoltà: D?Scrittura motore riconoscimento vocale

+1

Btw, un mio amico ha recentemente creato l'ASR georgiano. Se sei interessato, fammi sapere. –

+0

Nika, hai creato il software? per favore condividi ciò che hai fatto, anche noi siamo interessati se tale software esiste. –

+1

penso che il modo più semplice per farlo sia l'uso di AI uso di Perceprtron multilivelli o qualcosa del genere (intendo rete neurale) e addestrarlo ... penso che con questa soluzione puoi risolvere facilmente il problema che menziona Yahia nella sua risposta , GL;) – Simon

risposta

9

Il riconoscimento vocale è un dominio complesso con molti algoritmi, strumenti e metodi specifici. Per creare il proprio motore si potrebbe iniziare con CMUSphinx aperta discorso fonte riconoscimento toolkit, che vi permetterà di:

  • Raccogliere ed elaborare i dati necessari per supportare la lingua georgiana
  • Creare i modelli per georgiana
  • Implementare un discorso motore di riconoscimento in georgiano.
  • Usa motore per creare un'applicazione di riconoscimento vocale in esecuzione sul desktop, sul server o su iPhone (tramite OpenEars)

CMUSphinx supporta già inglese, tedesco, spagnolo, francese, olandese, russo, mandarino, islandese, italiano e molte altre lingue. È molto semplice aggiungerne uno nuovo.Per le persone nuove di solito ci vogliono un mese o due di lavoro concentrato per attuare il processo richiesto.

Per iniziare vai alla home page:

http://cmusphinx.sourceforge.net

e leggere il tutorial

http://cmusphinx.sourceforge.net/wiki/tutorial

Se avete qualche domanda, si prega di chiedere loro su forum o qui!

E, è un malinteso molto comune che si pronunciano i suoni quando parli georgiano. Non è vero per la maggior parte delle lingue del mondo. Per verificare l'ipotesi, prova a registrare un po 'di audio in un editor audio e controlla quali suoni sono effettivamente pronunciati. Sarai sorpreso. Il tutorial qui sopra copre questa domanda in dettaglio.

+0

quindi intendi che posso aggiungere un linguaggio assolutamente inesplorato, come il georgiano e "falla funzionare" tra un paio di mesi?!?! – nicks

+0

Sì, perché no. In realtà CMUSphinx ha fatto molti progressi per supportare lingue con risorse a basso costo. –

5

Tutte le persone della Georgia suonano assolutamente uguali? Penso che non ... un sacco di grossi problemi nel riconoscimento vocale non sono direttamente connessi con il linguaggio stesso: la gente

  • diverse (donne, uomini, bambini, anziani, ecc) hanno diverse voci
  • a volte lo stesso persona suoni diversi, ad esempio quando la persona ha il raffreddore
  • diverso sfondo rumori
  • linguaggio quotidiano a volte contiene parole da altre lingue (come si ha la parola tedesca Asilo negli Stati Uniti/inglese)
  • alcune persone non dal il paese stesso ha imparato il langu età (di solito suonano diversi)
  • alcune persone parlano più velocemente, altri parlano più lento
  • qualità del microfono
    ecc

Risolvendo queste cose sempre è piuttosto difficile ... per di più si avere la lingua/la pronuncia di cui occuparsi ... Non conosco il georgiano, ma ciò che descrivi potrebbe rendere l'operazione un po 'più facile ma sarà comunque un compito difficile.

EDIT - come per i commenti:

Uso buone biblioteche potrebbe ridurre il lasso di tempo e anche aiutare in termini di qualità ... ma non ogni biblioteca è un bene per il riconoscimento vocale, nonostante forse essere brillante su qualche altro audio- questioni connesse ...

per riferimento vedere l'articolo di Wikipedia http://en.wikipedia.org/wiki/Speech_recognition - ha una buona visione d'insieme tra cui alcuni link e riferimenti del libro che sono un buon punto di partenza ...

quanto a come progettare un tale API vedere ad esempio http://java.sun.com/products/java-media/speech/forDevelopers/jsapi-guide/Recognition.html

+0

sul modo in cui suonano le persone diverse: in realtà, anche se non sembrano assolutamente uguali, c'è una grande somiglianza perché parlare georgiano è come leggere la trascrizione; e lì, non hai molta scelta, penso. – nicks

+2

@NikaGamkrelidze Sospetto che se senti la stessa parola da 2 persone diverse puoi distinguere tra le persone (come tua madre rispetto a tuo padre o qualche amico ecc.)? – Yahia

+0

ovviamente: DDD vedo. è ancora difficile: SS ma, come pensi, è possibile per un noob completo in questa sfera (anche se non male di un programmatore che conosce un sacco di matematica e si occupa di editing audio) scrivere un motore di riconoscimento vocale discendente, facciamo dici un anno? – nicks

Problemi correlati