Questo dovrebbe essere un caso ideale per non reinventare la ruota, ma finora la mia ricerca è stata vana.Tokenizer per full-text
Invece di scriverne uno, vorrei utilizzare un tokenizer C++ esistente. I token devono essere utilizzati in un indice per la ricerca di testo completo. Le prestazioni sono molto importanti, analizzerò molti gigabyte di testo.
Modifica: notare che i token devono essere utilizzati in un indice di ricerca. La creazione di tali token non è una scienza esatta (afaik) e richiede alcune euristiche. Questo è stato fatto migliaia di volte prima e probabilmente in mille modi diversi, ma non riesco nemmeno a trovarne uno :)
Qualsiasi buon suggerimento?
Grazie!
strtok è ** non ** un tokenizzatore. Devi ancora capire la differenza tra un 'class' o un' const' o un identificatore che viene chiamato qualcosa come 'calculate'. –
Un tokenizer * identifica * i token e afterwords un * anlizer lessicale * li categorizza in token (es .: "joe eats" -> tokenizer -> {joe, eats} -> analizzatore lessicale -> {(joe, noun), (mangia, verbo)}). La tokenizzazione è il processo di * demarcating * e ** possible ** che classifica le sezioni di una stringa di caratteri di input. Nel codice di classificazione, né il tokenizer boost fa la classificazione. – clyfe
http://stackoverflow.com/questions/380455/looking-for-a-clear-definition-of-what-a-tokenizer-parser-and-lexers-are-a – clyfe