StandardTokenizerFactory: -
E tokenizza su spazi vuoti, così come strisce personaggi
documentazione: -
Divide parole a caratteri di punteggiatura, la rimozione di segni di interpunzione. Tuttavia, un punto non seguito da spazi è considerato parte di un token . Divide le parole ai trattini, a meno che non ci sia un numero nel token . In tal caso, l'intero token viene interpretato come un numero di prodotto e non viene diviso. Riconosce gli indirizzi e-mail e gli host Internet come un token.
Lo utilizzerebbe per i campi in cui si desidera eseguire la ricerca sui dati del campo.
ad es. -
http://example.com/I-am+example?Text=-Hello
genererebbe 7 gettoni (separate da virgole) -
http,example.com,I,am,example,Text,Hello
KeywordTokenizerFactory: -
Chiave Tokenizer non divide l'ingresso a tutti.
Nessuna elaborazione eseguita sulla stringa e l'intera stringa viene considerata come una singola entità.
Questo in realtà non esegue alcuna tokenizzazione. Restituisce il testo originale come un termine.
Principalmente utilizzato per i requisiti di ordinamento o di sfaccettatura, in cui si desidera abbinare il facet esatto quando il filtro su più parole e l'ordinamento come ordinamento non funziona su campi con token.
ad es.
http://example.com/I-am+example?Text=-Hello
genererebbe un unico token -
http://example.com/I-am+example?Text=-Hello
StandardTokenizerFactory non si divide su tutta la punteggiatura, ad esempio, una parola che contiene un apostrofo (ad esempio '' can't' won't' ecc) sarà essere lasciato intatto. – Qwerky
sì. come detto, non si divide su tutti i caratteri speciali o spoglia tutti i caratteri speciali. Ha alcune regole. – Jayendra