2011-10-04 9 views

risposta

25

StandardTokenizerFactory: -
E tokenizza su spazi vuoti, così come strisce personaggi

documentazione: -

Divide parole a caratteri di punteggiatura, la rimozione di segni di interpunzione. Tuttavia, un punto non seguito da spazi è considerato parte di un token . Divide le parole ai trattini, a meno che non ci sia un numero nel token . In tal caso, l'intero token viene interpretato come un numero di prodotto e non viene diviso. Riconosce gli indirizzi e-mail e gli host Internet come un token.

Lo utilizzerebbe per i campi in cui si desidera eseguire la ricerca sui dati del campo.

ad es. -

http://example.com/I-am+example?Text=-Hello 

genererebbe 7 gettoni (separate da virgole) -

http,example.com,I,am,example,Text,Hello 

KeywordTokenizerFactory: -

Chiave Tokenizer non divide l'ingresso a tutti.
Nessuna elaborazione eseguita sulla stringa e l'intera stringa viene considerata come una singola entità.
Questo in realtà non esegue alcuna tokenizzazione. Restituisce il testo originale come un termine.

Principalmente utilizzato per i requisiti di ordinamento o di sfaccettatura, in cui si desidera abbinare il facet esatto quando il filtro su più parole e l'ordinamento come ordinamento non funziona su campi con token.

ad es.

http://example.com/I-am+example?Text=-Hello 

genererebbe un unico token -

http://example.com/I-am+example?Text=-Hello 
+2

StandardTokenizerFactory non si divide su tutta la punteggiatura, ad esempio, una parola che contiene un apostrofo (ad esempio '' can't' won't' ecc) sarà essere lasciato intatto. – Qwerky

+0

sì. come detto, non si divide su tutti i caratteri speciali o spoglia tutti i caratteri speciali. Ha alcune regole. – Jayendra