Differenza tra StandardTokenizerFactory e KeywordTokenizerFactory in Solr?

Sono nuovo di Solr.Voglio sapere quando usare StandardTokenizerFactory e KeywordTokenizerFactory?Differenza tra StandardTokenizerFactory e KeywordTokenizerFactory in Solr?

Ho letto i documenti su Apache Wiki, ma non lo capisco.

Qualcuno può spiegare la differenza tra StandardTokenizerFactory e KeywordTokenizerFactory?

fonte

2011-10-04 ravidev

StandardTokenizerFactory: -
E tokenizza su spazi vuoti, così come strisce personaggi

documentazione: -

Divide parole a caratteri di punteggiatura, la rimozione di segni di interpunzione. Tuttavia, un punto non seguito da spazi è considerato parte di un token . Divide le parole ai trattini, a meno che non ci sia un numero nel token . In tal caso, l'intero token viene interpretato come un numero di prodotto e non viene diviso. Riconosce gli indirizzi e-mail e gli host Internet come un token.

Lo utilizzerebbe per i campi in cui si desidera eseguire la ricerca sui dati del campo.

ad es. -

http://example.com/I-am+example?Text=-Hello

genererebbe 7 gettoni (separate da virgole) -

http,example.com,I,am,example,Text,Hello

KeywordTokenizerFactory: -

Chiave Tokenizer non divide l'ingresso a tutti.
Nessuna elaborazione eseguita sulla stringa e l'intera stringa viene considerata come una singola entità.
Questo in realtà non esegue alcuna tokenizzazione. Restituisce il testo originale come un termine.

Principalmente utilizzato per i requisiti di ordinamento o di sfaccettatura, in cui si desidera abbinare il facet esatto quando il filtro su più parole e l'ordinamento come ordinamento non funziona su campi con token.

ad es.

http://example.com/I-am+example?Text=-Hello

genererebbe un unico token -

http://example.com/I-am+example?Text=-Hello

fonte

2011-10-04 09:33:30 Jayendra

StandardTokenizerFactory non si divide su tutta la punteggiatura, ad esempio, una parola che contiene un apostrofo (ad esempio '' can't' won't' ecc) sarà essere lasciato intatto. – Qwerky

sì. come detto, non si divide su tutti i caratteri speciali o spoglia tutti i caratteri speciali. Ha alcune regole. – Jayendra

Differenza tra StandardTokenizerFactory e KeywordTokenizerFactory in Solr?

risposta

Problemi correlati