2012-07-05 17 views
6

Aggiungo miliardi di righe all'indice di Lucene, ogni riga è quasi 6000 byte. C'è un limite al numero massimo di righe che possono essere aggiunte a Lucene Index? Quanto spazio occuperebbe miliardi di righe di 6000 byte su Lucene Index. C'è qualche limite per questa taglia?Quali sono i limiti spaziali dell'indice Lucene?

risposta

7

documentazione Vedere Lucene per il suo limitations, non può avere più di

  • ~ 274 miliardi termini distinti,
  • ~ 2,1 miliardi di documenti.

Per set di dati di questo tipo, è generalmente consigliabile utilizzare Lucene solo per l'indice invertito e memorizzare il contenuto effettivo dei documenti da qualche altra parte. È possibile aspettarsi che la dimensione dell'indice sia pari a circa il 30% delle dimensioni del corpus originale dei documenti (purché si tratti di documenti normali, i documenti generati dal calcolo generano un sacco di termini univoci genererebbero un indice molto più grande).

+1

questa sezione è scomparsa dai doc probabilmente non ci sono più limiti ai termini unici http://lucene.apache.org/core/6_5/core/org/apache/lucene/codecs/lucene62/package-summary.html – yura

Problemi correlati