Prove puramente aneddotiche, ma per il nostro sistema utilizziamo una versione (personalizzata, ma non pertinente) di StandardAnalyzer
. I nostri documenti possono non solo essere in lingue diverse tra loro, ma i documenti possono contenere blocchi di lingue diverse (ad esempio, immagina un articolo scritto in giapponese con commenti in inglese), quindi l'sniffing linguistico è difficile.
La maggior parte dei nostri documenti sono in inglese, ma numeri significativi sono in cinese e giapponese, con un numero inferiore in francese, spagnolo, portoghese e coreano.
Risultato finale? Utilizziamo StandardAnalyzer
e abbiamo pochissimi reclami da parte di persone che utilizzano il sistema in lingue non romane sul modo in cui funziona la nostra ricerca. Il nostro sistema è in qualche modo "forzato" sui suoi utenti, a proposito, quindi non è come se le persone non si lamentassero ma si spostassero altrove; se sono infelici, generalmente lo sappiamo.
Quindi, basato sul fatto che non sono sommerso da lamentele da parte degli utenti (molto occasionali, soprattutto sul cinese, ma niente di serio e sono facilmente spiegabili), sembra essere "abbastanza buono" per molti casi.
Mi piacciono anche i vostri suggerimenti, più avanzati ma potrei migrare a questo. Offre un ottimo equilibrio. – Halirob