Ho un set di dati di 200 milioni di record + e sto cercando di creare un backend dedicato per alimentare una soluzione di tipo successivo. Lucene è interessante per la sua popolarità e il tipo di licenza, ma sono aperto anche ad altri suggerimenti open source. Sto cercando consigli, racconti dalle trincee, o anche istruzioni dirette migliori su ciò di cui avrò bisogno per quanto riguarda la quantità di hardware e struttura del software. Requisiti:Come strutturare un indice per digitare avanti per un set di dati estremamente grande utilizzando Lucene o simili?
deve avere:
- La capacità di fare inizia con la corrispondenza sottostringa (digito 'st' e dovrebbe corrispondere a 'Stephen')
- La capacità di restituire risultati molto rapidamente, ho 'd dire che 500ms è un limite superiore.
Bello avere:
- La possibilità di alimentare rilevanza informazioni nel processo di indicizzazione, in modo che, ad esempio, termini più popolari sarebbero stati restituiti avanti degli altri e non solo alfabetico, aka stile Google .
- in parola corrispondente stringa, così per esempio ('st' sarebbe partita 'bestseller')
Nota:
- Questo indice sarà puramente essere usato per il tipo avanti, e non ha bisogno per servire query di ricerca standard.
- Non sono preoccupato di ottenere consigli su come configurare il front-end o AJAX, a condizione che l'indice possa essere interrogato come servizio o direttamente tramite codice Java.
Up voti per tutte le informazioni utili che mi permette di avvicinarmi ad un livello Enterprise Tipo avanti soluzione