2009-10-26 7 views

risposta

3

ho trovato lucene-gosen mentre si fa una ricerca per i miei scopi:

Il loro esempio sembra abbastanza decente, ma credo che sia il genere di cosa che ha bisogno di test approfonditi. Sono anche preoccupato per la loro politica di retrocompatibilità (o piuttosto per la completa mancanza di uno).

+1

Non abbiamo usato lucene-gosen, ma abbiamo usato gosen. Quindi accetto questa risposta (poiché è abbastanza vicina e il progetto sembra interessante). CJK fa una ricerca molto ingenua in cui combina solo caratteri e non parole a differenza di gosen (che usa un dizionario per un'analisi corretta). –

4

Si dovrebbe probabilmente guardare il pacchetto CJK che si trova nell'area contrib di Lucene. C'è un analizzatore e un tokenizzatore appositamente per trattare con cinese, giapponese e coreano.

+0

L'analizzatore CJK sembra essere un modo ingenuo di cercare le cose, e dall'esperienza precedente, non sembra fornire molto rilevanti risultati di ricerca. C'è qualcosa che devo fare specificamente per far funzionare CJK Analyzer come modificare dei pesi o qualcosa del genere? Grazie –

+0

Non ho mai usato l'analizzatore CJK da solo, quindi non posso dire. Potresti provare a chiedere sulla mailing list Lucene (http://lucene.apache.org/java/docs/mailinglists.html#Java User List) per un aiuto più specifico - ci sono persone che hanno molta esperienza con Lucene in quella lista. – adrianbanks

Problemi correlati