Ho visto redhat trovare una possibile soluzione con GlusterFS che funziona come backend per hadoop. In questo caso, puoi utilizzare l'architettura namenode/datanode e sostituirla con glusterfs, mentre nel frattempo hai ancora la compatibilità con API di Hadoop Mapreduce.GlusterFS come backend per Hadoop
Basta chiedersi come si confronta il rendimento con l'HDFS nativo? È davvero pronto per la produzione? Supporta anche tutto l'ecosistema hadoop? per esempio. Solr Cloud, Spark, Impala ecc. Ecc.
Puoi essere un po 'più specifico sul motivo per cui è migliore di HDFS? e quali sono le parti di HDFS richieste per alcuni framework, ad es. Impala. – Shengjie
I benchmark che ho visto mostrano che Luster ha meno tempo di esecuzione delle query rispetto a HDFS. l'intera idea di andare con il filesystem POSIX si concentra principalmente sui seguenti punti: 1- Salta la parte di ingestione dei dati in HDFS (questo può richiedere per sempre se si dispone di un set di dati molto grande). 2- perdi molta capacità del disco con HDFS, l'implementazione POSIX FS si basa sulla protezione RAID aziendale. Per Impala, non sono sicuro di quali parti del codice necessitino di HDFS, ma non so fino ad oggi qualsiasi esecuzione di Imapla su POSIX FS –
Grazie mille per la spiegazione. – Shengjie