Spark Streaming - elaborazione file di dati binari

Sto usando pyspark 1.6.0.Spark Streaming - elaborazione file di dati binari

Ho il codice pyspark esistente per leggere il file di dati binari dal bucket AWS S3. L'altro codice Spark/Python analizzerà i bit nei dati per convertirli in int, string, boolean ed ecc. Ogni file binario ha una registrazione di dati.

In PYSPARK ho letto il file binario utilizzando: sc.binaryFiles ("S3N: // .......")

Questo sta lavorando molto in quanto dà una tupla di (nome del file e la dati) ma sto cercando di trovare un'API streaming PYSPARK equivalente per leggere il file binario come flusso (si spera che anche il nome file, se possibile).

ho provato: binaryRecordsStream (directory, RecordLength)

ma non ho potuto ottenere questo lavoro ...

chiunque può condividere alcune luci come lo streaming PYSPARK leggere file di dati binari?

fonte

2016-06-29 yhw82

In Spark Streaming, il concetto pertinente è l'API fileStream, che è disponibile in Scala e Java, ma non in Python - annotato qui nella documentazione: http://spark.apache.org/docs/latest/streaming-programming-guide.html#basic-sources. Se il file che stai leggendo può essere letto come un file di testo, puoi utilizzare lo textFileStream API

fonte

2017-01-10 17:07:39 JuJoDi

Spark Streaming - elaborazione file di dati binari

risposta

Problemi correlati