GlusterFS come backend per Hadoop

Ho visto redhat trovare una possibile soluzione con GlusterFS che funziona come backend per hadoop. In questo caso, puoi utilizzare l'architettura namenode/datanode e sostituirla con glusterfs, mentre nel frattempo hai ancora la compatibilità con API di Hadoop Mapreduce.GlusterFS come backend per Hadoop

Basta chiedersi come si confronta il rendimento con l'HDFS nativo? È davvero pronto per la produzione? Supporta anche tutto l'ecosistema hadoop? per esempio. Solr Cloud, Spark, Impala ecc. Ecc.

fonte

2015-11-12 Shengjie

disclaimer: Lavoro per il fornitore di soluzioni di archiviazione. Bene. Non so molto di GlusterFS in particolare, ma posso parlare di Lustre dato che è POSIX alla fine della giornata. È un filesystem parallelo, ma i benchmark che ho esaminato di recente hanno dimostrato che supera l'HDFS. ma è sicuramente un'alternativa pronta per la produzione che offre un singolo spazio per i tuoi dati (non più ingestione HDFS)

Cosa funziona oggi dall'ecosistema Hadoop? quello che ho visto nella produzione di oggi è Spark, Hive, Hbase. Imapala mi sembra che richieda alcune parti di HDFS, questo è il motivo per cui non funziona con POSIX FS e non è HCFS. Ho fatto un test rapido e sono stato in grado di creare il database e tutto, ma non ero in grado di recuperare alcuna riga.

Lasciami se hai bisogno di ulteriore aiuto.

fonte

2015-12-08 12:00:50

Puoi essere un po 'più specifico sul motivo per cui è migliore di HDFS? e quali sono le parti di HDFS richieste per alcuni framework, ad es. Impala. – Shengjie

I benchmark che ho visto mostrano che Luster ha meno tempo di esecuzione delle query rispetto a HDFS. l'intera idea di andare con il filesystem POSIX si concentra principalmente sui seguenti punti: 1- Salta la parte di ingestione dei dati in HDFS (questo può richiedere per sempre se si dispone di un set di dati molto grande). 2- perdi molta capacità del disco con HDFS, l'implementazione POSIX FS si basa sulla protezione RAID aziendale. Per Impala, non sono sicuro di quali parti del codice necessitino di HDFS, ma non so fino ad oggi qualsiasi esecuzione di Imapla su POSIX FS –

Grazie mille per la spiegazione. – Shengjie

GlusterFS come backend per Hadoop

risposta

Problemi correlati