2013-05-06 11 views
10

Dove è possibile trovare la documentazione sul formato del modello di lingua ARPA?Documentazione sul modello di lingua ARPA

Sto sviluppando una semplice app di riconoscimento vocale con motore STT tascabile. L'ARPA è raccomandato lì per motivi di prestazioni. Voglio capire quanto posso fare per adattare il mio modello di linguaggio alle mie esigenze personalizzate.

Tutto quello che ho trovato è alcune brevissime ARPA descrizioni formato:

io sono principiante a STT e ho difficoltà ad avvolgere la testa intorno a questo (n-grammi, ecc.). Sto cercando documenti più dettagliati. Qualcosa di simile documentazione su JSGF grammatica qui:

http://www.w3.org/TR/jsgf/

+0

dare un'occhiata a questo collegamento msdn .. il formato arpa e args sono ben spiegati [Compile Grammatic Input e Output File Format] (https://msdn.microsoft.com/en-us/library/office/hh378460 (v = office.14) .aspx) –

risposta

3

v'è in realtà non molto di più da dire sul formato di quanto viene detto in quei documenti ..

Inoltre, probabilmente si vorrà per preparare un file di testo con frasi di esempio e generate the language file based on it. V'è una versione on-line che può farlo per voi: lmtool

+1

Ancora, in alcuni tipi di n-grammi, backoff, ecc ... cosa sono quelli e dove posso trovare maggiori informazioni su quelli? – Lukasz

+1

@Lukasz Che cos'è l'n-grammo? [Una sequenza di N parole] (http://en.wikipedia.org/wiki/N-gram). Backoff è facoltativo. E la probabilità è nella scala di log 10 per quanto mi ricordo. – Dariusz

4

ho trovato questo link utile: http://www.speech.sri.com/projects/srilm/manpages/ngram-format.5.html

Esso descrive il n-gram aka ARPA aka formato Doug Paul.

+0

Potresti probabilmente caricare un piccolo esempio (ad esempio con due frasi e una dimensione del vocabolario di circa 5?) –

+0

A questo punto, la tua risposta è solo simile al nome "formato Doug Paul". Il link era già nella domanda. –

Problemi correlati