2016-06-29 12 views
5

Sto usando pyspark 1.6.0.Spark Streaming - elaborazione file di dati binari

Ho il codice pyspark esistente per leggere il file di dati binari dal bucket AWS S3. L'altro codice Spark/Python analizzerà i bit nei dati per convertirli in int, string, boolean ed ecc. Ogni file binario ha una registrazione di dati.

In PYSPARK ho letto il file binario utilizzando: sc.binaryFiles ("S3N: // .......")

Questo sta lavorando molto in quanto dà una tupla di (nome del file e la dati) ma sto cercando di trovare un'API streaming PYSPARK equivalente per leggere il file binario come flusso (si spera che anche il nome file, se possibile).

ho provato: binaryRecordsStream (directory, RecordLength)

ma non ho potuto ottenere questo lavoro ...

chiunque può condividere alcune luci come lo streaming PYSPARK leggere file di dati binari?

risposta

Problemi correlati