Ho bisogno di scrivere un processo MapReduce che ottenga tutte le righe in un determinato intervallo di date (ad esempio l'ultimo mese). Sarebbe stato un gioco da ragazzi con My Row Key iniziato con Date. Ma le mie frequenti query su Hbase riguardano i valori iniziali della chiave.Come eseguire la scansione HBase Righe in modo efficiente
Il mio tasto Riga è esattamente A | B | C | 20120121 | D. Laddove la combinazione di A/B/C con la data (nel formato YearMonthDay) crea un ID riga univoco.
Le mie tabelle Hbase potrebbero avere fino a pochi milioni di righe. Il mio Mapper dovrebbe leggere tutta la tabella e filtrare ogni riga se rientra in un dato intervallo di date o Scan/Filter può aiutare a gestire questa situazione?
Qualcuno potrebbe suggerire (o uno snippet di codice) un modo per gestire questa situazione in modo efficace?
Grazie -Panks
Perché non copiare il contenuto del tavolo in uno nuovo con la chiave riorganizzata e scartare quella precedente? – Mario
@ Mario cosa succede se il tavolo ha un trilione di chiavi? E ha bisogno di farlo spesso? – markg