Desidero essere in grado di leggere/scrivere immagini su un file system hdfs e sfruttare la località hdfs.utilizzando pyspark, lettura/scrittura di immagini 2D su file system hadoop
Ho una collezione di immagini in cui ogni immagine è composta da
- matrici 2D di uint16
- di base ulteriori informazioni memorizzate in un file XML.
Voglio creare un archivio sul file system hdfs e utilizzare spark per analizzare l'archivio. In questo momento sto lottando sul modo migliore per archiviare i dati sul file system hdfs al fine di poter sfruttare appieno la struttura di spark + hdfs.
Da quello che ho capito, il modo migliore sarebbe quello di creare un wrapper sequenzaFile. Ho due domande:
- La creazione di un wrapper SequenceFile è la migliore?
- Qualcuno ha un puntatore agli esempi che potrei usare per iniziare? Non devo essere il primo a dover leggere qualcosa di diverso dal file di testo su hdfs tramite spark!
Grazie - questo è interessante. Sei curioso di sapere se hai usato anche la scintilla per l'analisi dei file TIFF? Sto lavorando con file tiff di grandi dimensioni (~ 800 MB) e vorrei creare un RDD pyspark dall'array numpy, ma non sono sicuro di come farlo. – user3591836
Dai miei esperimenti, è molto più semplice se preparo i dati correttamente: trasformo i file di immagine in file "avro" che contengono immagini sovrapposte. Devo occuparmi di immagini molto grandi (400 Mpixel) ed è la soluzione migliore per me. – MathiasOrtner
fantastico, grazie per il suggerimento! – user3591836