Così, come molti altri, ho deciso di creare il mio motore di riconoscimento vocale. Come si è scoperto, non è affatto facile, invece, è piuttosto difficile da realizzare per la lingua inglese in particolare, perché c'è, direi, una differenza drammatica tra il modo in cui una parola è scritta e il modo in cui è pronunciata. Essendo dalla Georgia, ho deciso di scrivere il riconoscimento vocale per la lingua georgiana. In georgiano, pronuncia le parole ESATTAMENTE nel modo in cui le scrivi. È proprio come una trascrizione. Questo fatto faciliterà in modo significativo il mio compito? O ci sono ancora più difficili ... difficoltà: D?Scrittura motore riconoscimento vocale
risposta
Il riconoscimento vocale è un dominio complesso con molti algoritmi, strumenti e metodi specifici. Per creare il proprio motore si potrebbe iniziare con CMUSphinx aperta discorso fonte riconoscimento toolkit, che vi permetterà di:
- Raccogliere ed elaborare i dati necessari per supportare la lingua georgiana
- Creare i modelli per georgiana
- Implementare un discorso motore di riconoscimento in georgiano.
- Usa motore per creare un'applicazione di riconoscimento vocale in esecuzione sul desktop, sul server o su iPhone (tramite OpenEars)
CMUSphinx supporta già inglese, tedesco, spagnolo, francese, olandese, russo, mandarino, islandese, italiano e molte altre lingue. È molto semplice aggiungerne uno nuovo.Per le persone nuove di solito ci vogliono un mese o due di lavoro concentrato per attuare il processo richiesto.
Per iniziare vai alla home page:
http://cmusphinx.sourceforge.net
e leggere il tutorial
http://cmusphinx.sourceforge.net/wiki/tutorial
Se avete qualche domanda, si prega di chiedere loro su forum o qui!
E, è un malinteso molto comune che si pronunciano i suoni quando parli georgiano. Non è vero per la maggior parte delle lingue del mondo. Per verificare l'ipotesi, prova a registrare un po 'di audio in un editor audio e controlla quali suoni sono effettivamente pronunciati. Sarai sorpreso. Il tutorial qui sopra copre questa domanda in dettaglio.
quindi intendi che posso aggiungere un linguaggio assolutamente inesplorato, come il georgiano e "falla funzionare" tra un paio di mesi?!?! – nicks
Sì, perché no. In realtà CMUSphinx ha fatto molti progressi per supportare lingue con risorse a basso costo. –
Tutte le persone della Georgia suonano assolutamente uguali? Penso che non ... un sacco di grossi problemi nel riconoscimento vocale non sono direttamente connessi con il linguaggio stesso: la gente
- diverse (donne, uomini, bambini, anziani, ecc) hanno diverse voci
- a volte lo stesso persona suoni diversi, ad esempio quando la persona ha il raffreddore
- diverso sfondo rumori
- linguaggio quotidiano a volte contiene parole da altre lingue (come si ha la parola tedesca Asilo negli Stati Uniti/inglese)
- alcune persone non dal il paese stesso ha imparato il langu età (di solito suonano diversi)
- alcune persone parlano più velocemente, altri parlano più lento
- qualità del microfono
ecc
Risolvendo queste cose sempre è piuttosto difficile ... per di più si avere la lingua/la pronuncia di cui occuparsi ... Non conosco il georgiano, ma ciò che descrivi potrebbe rendere l'operazione un po 'più facile ma sarà comunque un compito difficile.
EDIT - come per i commenti:
Uso buone biblioteche potrebbe ridurre il lasso di tempo e anche aiutare in termini di qualità ... ma non ogni biblioteca è un bene per il riconoscimento vocale, nonostante forse essere brillante su qualche altro audio- questioni connesse ...
per riferimento vedere l'articolo di Wikipedia http://en.wikipedia.org/wiki/Speech_recognition - ha una buona visione d'insieme tra cui alcuni link e riferimenti del libro che sono un buon punto di partenza ...
quanto a come progettare un tale API vedere ad esempio http://java.sun.com/products/java-media/speech/forDevelopers/jsapi-guide/Recognition.html
sul modo in cui suonano le persone diverse: in realtà, anche se non sembrano assolutamente uguali, c'è una grande somiglianza perché parlare georgiano è come leggere la trascrizione; e lì, non hai molta scelta, penso. – nicks
@NikaGamkrelidze Sospetto che se senti la stessa parola da 2 persone diverse puoi distinguere tra le persone (come tua madre rispetto a tuo padre o qualche amico ecc.)? – Yahia
ovviamente: DDD vedo. è ancora difficile: SS ma, come pensi, è possibile per un noob completo in questa sfera (anche se non male di un programmatore che conosce un sacco di matematica e si occupa di editing audio) scrivere un motore di riconoscimento vocale discendente, facciamo dici un anno? – nicks
- 1. Windows 10 Riconoscimento vocale
- 2. Salvataggio ingresso audio del motore di riconoscimento vocale Android Stock
- 3. Riconoscimento vocale per iPhone
- 4. C# Riconoscimento vocale
- 5. Riconoscimento vocale su Kinect
- 6. Riconoscimento vocale in PHP?
- 7. Riconoscimento vocale semplice Swift?
- 8. C# Riconoscimento vocale
- 9. Riconoscimento vocale continuo Android
- 10. API riconoscimento vocale
- 11. Riconoscimento vocale per android
- 12. Riconoscimento vocale per browser incrociato
- 13. Riconoscimento vocale tramite porta USB
- 14. API di riconoscimento vocale C++
- 15. Riconoscimento vocale continuo. con SFSpeechRecognizer (ios10-beta)
- 16. Servizio di riconoscimento vocale per la ricerca vocale di Google
- 17. Disabilita i comandi di riconoscimento vocale incorporati?
- 18. Riconoscimento vocale continuo mentre si canta?
- 19. Riconoscimento vocale Microsoft: quale riferimento devo aggiungere?
- 20. programmazione del riconoscimento vocale tramite java sphinx4
- 21. App per iPhone> Aggiungi riconoscimento vocale?
- 22. Angular2: Web Speech API - Riconoscimento vocale
- 23. Errore ERROR_RECOGNIZER_BUSY con riconoscimento vocale offline
- 24. riconoscimento vocale da file audio anziché microfono
- 25. codice Python riconoscimento vocale non funzionante
- 26. CMU Sfinge per riconoscimento vocale/altoparlante
- 27. Riconoscimento vocale continuo Android - Senza spazi vuoti
- 28. riconoscimento vocale per webkit Chrome iOS
- 29. Il riconoscimento vocale in Windows Phone 8
- 30. Riconoscimento vocale offline in Android (JellyBean)
Btw, un mio amico ha recentemente creato l'ASR georgiano. Se sei interessato, fammi sapere. –
Nika, hai creato il software? per favore condividi ciò che hai fatto, anche noi siamo interessati se tale software esiste. –
penso che il modo più semplice per farlo sia l'uso di AI uso di Perceprtron multilivelli o qualcosa del genere (intendo rete neurale) e addestrarlo ... penso che con questa soluzione puoi risolvere facilmente il problema che menziona Yahia nella sua risposta , GL;) – Simon