Quale analizzatore di lucene può essere utilizzato per gestire correttamente il testo giapponese? Dovrebbe essere in grado di gestire Kanji, Hiragana, Katakana, Romaji e qualsiasi loro combinazione.Quale analizzatore di lucene può essere utilizzato per gestire il testo giapponese?
risposta
ho trovato lucene-gosen mentre si fa una ricerca per i miei scopi:
Il loro esempio sembra abbastanza decente, ma credo che sia il genere di cosa che ha bisogno di test approfonditi. Sono anche preoccupato per la loro politica di retrocompatibilità (o piuttosto per la completa mancanza di uno).
Si dovrebbe probabilmente guardare il pacchetto CJK che si trova nell'area contrib di Lucene. C'è un analizzatore e un tokenizzatore appositamente per trattare con cinese, giapponese e coreano.
L'analizzatore CJK sembra essere un modo ingenuo di cercare le cose, e dall'esperienza precedente, non sembra fornire molto rilevanti risultati di ricerca. C'è qualcosa che devo fare specificamente per far funzionare CJK Analyzer come modificare dei pesi o qualcosa del genere? Grazie –
Non ho mai usato l'analizzatore CJK da solo, quindi non posso dire. Potresti provare a chiedere sulla mailing list Lucene (http://lucene.apache.org/java/docs/mailinglists.html#Java User List) per un aiuto più specifico - ci sono persone che hanno molta esperienza con Lucene in quella lista. – adrianbanks
- 1. Quale carattere può essere utilizzato per analizzare paragrafi con Java?
- 2. Evidenziatore Lucene con analizzatore di diramazione
- 3. Analizzatore cross-language migliore da utilizzare con l'indice lucene
- 4. Punteggio Lucene: in quale contesto viene utilizzato queryNorm?
- 5. Appium: può essere utilizzato per il test dell'applicazione multipiattaforma
- 6. SQLException: il metodo executeQuery non può essere utilizzato per l'aggiornamento
- 7. Delphi può essere utilizzato per creare e gestire un gestore di protocollo personalizzato?
- 8. Quale intervallo di UUID Bluetooth può essere utilizzato per profili definiti dal fornitore?
- 9. Codifica HTML del testo giapponese
- 10. Perché Lucene QueryParser ha bisogno di un analizzatore
- 11. quale libreria c/C++ può essere utilizzata per gestire le connessioni wifi per linux?
- 12. Il progetto di risorse riutilizzabili può essere utilizzato?
- 13. Quale pacchetto o codice R può essere utilizzato per creare GUI personalizzate?
- 14. Quale plugin Jenkins può essere utilizzato per l'implementazione del sito Web .NET?
- 15. Come verificare se __PRETTY_FUNCTION__ può essere utilizzato?
- 16. JavaFX può essere utilizzato su Raspberry Pi
- 17. Come gestire l'errore "metodo 'Primo' può essere utilizzato solo come operazione di query finale"
- 18. Dart può essere utilizzato come linguaggio generico?
- 19. può essere utilizzato da AdMob per le applicazioni desktop?
- 20. jailbroken iphone può essere utilizzato per lo sviluppo
- 21. CachedRowSet: può ancora essere utilizzato per contenere i dati ResultSet?
- 22. Può un TypeConverter essere utilizzato per argomento del costruttore
- 23. Non capisco come NSClassFromString può essere utilizzato per chiamate condizionale
- 24. DBIx :: Class può essere utilizzato per creare tabelle?
- 25. Il framework Spring può essere utilizzato nelle applicazioni Android?
- 26. Il membro non invocabile non può essere utilizzato come metodo?
- 27. Algoritmi a capo automatico per il giapponese
- 28. Captcha per giapponese e cinese?
- 29. Quale operatore può essere utilizzato per spostare il cursore sull'ultimo carattere non vuoto della riga dello schermo in vim?
- 30. può essere utilizzato per la memoria e il profilo di utilizzo della CPU di un programma
Non abbiamo usato lucene-gosen, ma abbiamo usato gosen. Quindi accetto questa risposta (poiché è abbastanza vicina e il progetto sembra interessante). CJK fa una ricerca molto ingenua in cui combina solo caratteri e non parole a differenza di gosen (che usa un dizionario per un'analisi corretta). –