2012-01-12 12 views
6

Sono un utente apache solr circa un anno. Ho usato solr per semplici strumenti di ricerca ma ora voglio usare solr con 5 TB di dati. Suppongo che i dati da 5 TB saranno 7 TB quando solr lo indicherò in base al filtro che utilizzo. E poi aggiungerò quasi 50 MB di dati all'ora allo stesso indice.Can Apache Solr gestisce TeraByte Large Data

1- Ci sono problemi nell'utilizzo di server solr singolo con dati da 5 TB. (Senza schegge)

  • a- Può Solr server di risposte alle query in un tempo accettabile

  • b- ciò che è il momento atteso per commettere dei dati 50MB sull'indice 7TB.

  • c- Esiste un limite superiore per la dimensione dell'indice.

2- quali sono i suggerimenti che offrite

  • a- Quanti frammenti dovrei usare

  • b- Dovrei usare Solr core

  • c- Qual è la frequenza di commit che hai offerto. (È di 1 ora OK)

3- Ci sono dei risultati dei test per questo tipo di dati di grandi dimensioni


Non ci sono dati disponibili 5TB, voglio solo stimare quale sarà il risultato.

Nota: è possibile presumere che le risorse hardware non costituiscano un problema.

+1

Una domanda per te. Supponendo che stai indicizzando 5 TB di dati grezzi, perché pensi che aumenterà fino a 7 TB? Dovrei prendere questo per significare che stai memorizzando il contenuto del documento completo anche nell'indice, invece di archiviare semplicemente i campi di ricerca? In tal caso, suggerirei di memorizzare solo ciò di cui hai bisogno per la ricerca in Solr. I documenti grezzi appartengono a loro stessi altrove. – rfeak

risposta

3

se le dimensioni sono per il testo, piuttosto che i file binari (il cui testo sarebbe di solito molto inferiore), quindi non penso che si possa fare finta di farlo in una singola macchina.

Questo suona molto come Logly e usano SolrCloud per gestire una tale quantità di dati.

ok se tutti sono documenti ricchi, la dimensione totale del testo da indicizzare sarà molto più piccola (per me è circa il 7% della mia dimensione iniziale). Ad ogni modo, anche con quella quantità ridotta, hai ancora troppi dati per una singola istanza, penso.

+0

Ma 50 MB all'ora significa aprox non 0,75TB al mese, è 0,075 TB che significa 75 GB al mese – Mustafa

+0

mi dispiace non so come ho ottenuto i miei calcoli in modo sbagliato. Comunque i dati iniziali sono troppo grandi per un singolo solr credo ... – Persimmonium

+0

Secondo te qual è la dimensione ottimale dei dati per il server single sol – Mustafa