Attualmente sto cercando di implementare il riconoscimento vocale di base in AS3. Ho bisogno che questo sia completamente client-side, in quanto tale non posso accedere a potenti strumenti di riconoscimento vocale lato server. L'idea che avevo era di rilevare le sillabe in una parola e usarle per determinare la parola pronunciata. Sono consapevole che questo consentirà di limitare le capacità di riconoscimento, ma ho solo bisogno di riconoscere alcune parole chiave e posso assicurarmi che abbiano tutte un numero diverso di sillabe.Rilevamento di picco multiplo 1D?
Attualmente sono in grado di generare una matrice 1D di livello vocale per una parola pronunciata e posso chiaramente vedere, se in qualche modo la disegno, che nella maggior parte dei casi vi sono picchi distinti per le sillabe. Tuttavia, sono completamente bloccato su come vorrei scoprire quelle vette. Ho davvero bisogno solo del conteggio, ma suppongo che venga fornito con loro. All'inizio ho pensato di prendere alcuni valori massimi e confrontarli con la media dei valori, ma mi ero dimenticato di quel picco che è più grande degli altri e come tale, tutti i miei "picchi" si trovavano su un picco effettivo.
Mi sono imbattuto in some Matlab code che sembra quasi troppo breve per essere vero, ma non posso farlo perché non riesco a convertirlo in nessuna lingua che conosco. Ho provato AS3 e C#. Quindi mi chiedo se voi ragazzi potreste iniziare sulla strada giusta o avere qualche pseudo-codice per il rilevamento del picco?
Questa funzione non restituisce nulla, ma se lo facesse, non sarebbe solo restituire l'indice del picco più alto - non tutti i picchi? – Matt