scintilla in streaming FILESTREAM

sto programmando con scintilla in streaming, ma hanno qualche problema con Scala. Sto cercando di utilizzare la funzione StreamingContext.fileStreamscintilla in streaming FILESTREAM

La definizione di questa funzione è simile a questo:

def fileStream[K, V, F <: InputFormat[K, V]](directory: String)(implicit arg0: ClassManifest[K], arg1: ClassManifest[V], arg2: ClassManifest[F]): DStream[(K, V)]

creare un flusso di ingresso che controlla un file system compatibile con Hadoop per i nuovi file e li legge con il dati i tipi di valori-chiave e il formato di input. Nomi di file che iniziano con. sono ignorati K tipo chiave di lettura di file HDFS tipo V valore per la lettura di file di HDFS F formato di input per la lettura di file di HDFS directory directory HDFS per monitorare nuovo file

non so come passare il tipo di chiave e valore. mio codice in Streaming scintilla:

val ssc = new StreamingContext(args(0), "StreamingReceiver", Seconds(1), 
    System.getenv("SPARK_HOME"), Seq("/home/mesos/StreamingReceiver.jar")) 

// Create a NetworkInputDStream on target ip:port and count the 
val lines = ssc.fileStream("/home/sequenceFile")

codice Java per scrivere il file Hadoop:

public class MyDriver { 

private static final String[] DATA = { "One, two, buckle my shoe", 
     "Three, four, shut the door", "Five, six, pick up sticks", 
     "Seven, eight, lay them straight", "Nine, ten, a big fat hen" }; 

public static void main(String[] args) throws IOException { 
    String uri = args[0]; 
    Configuration conf = new Configuration(); 
    FileSystem fs = FileSystem.get(URI.create(uri), conf); 
    Path path = new Path(uri); 
    IntWritable key = new IntWritable(); 
    Text value = new Text(); 
    SequenceFile.Writer writer = null; 
    try { 
     writer = SequenceFile.createWriter(fs, conf, path, key.getClass(), 
       value.getClass()); 
     for (int i = 0; i < 100; i++) { 
      key.set(100 - i); 
      value.set(DATA[i % DATA.length]); 
      System.out.printf("[%s]\t%s\t%s\n", writer.getLength(), key, 
        value); 
      writer.append(key, value); 
     } 
    } finally { 
     IOUtils.closeStream(writer); 
    } 
}

}

fonte

2013-05-15 user2384993

Quali problemi stai vedendo? Stai ricevendo errori di compilazione? Se sì, quali sono? Stai ricevendo errori/comportamento imprevisto quando si esegue il codice? Se fornisci più contesto su quali errori/comportamenti imprevisti stai vedendo, è più probabile che tu ottenga risposte utili. – cmbaxter

Se si desidera utilizzare fileStream, si sta andando ad avere per fornire tutte 3 parametri di tipo ad esso quando lo chiama. Hai bisogno di sapere che cosa i vostri Key, Value e InputFormat tipi sono prima di chiamare. Se i tipi sono stati LongWritable, Text e TextInputFormat, si dovrebbe chiamare fileStream in questo modo:

val lines = ssc.fileStream[LongWritable, Text, TextInputFormat]("/home/sequenceFile")

Se questi 3 tipi capita di essere il vostro tipo, allora si potrebbe desiderare di utilizzare textFileStream invece in quanto non necessita di alcun tipo params e delegati a fileStream usando quei 3 tipi che ho citato. Utilizzo che sarebbe simile a questa:

val lines = ssc.textFileStream("/home/sequenceFile")

fonte

2013-05-15 12:23:23 cmbaxter

Hey io sto cercando di fare lo stesso, ma con i file binari, ho seguito le istruzioni qui, purtroppo non funziona. Per favore potresti suggerire qualcosa? https://stackoverflow.com/questions/45778016/reading-binaryfile-with-spark-streaming – MaatDeamon

val filterF = new Function[Path, Boolean] { 
    def apply(x: Path): Boolean = { 
     val flag = if(x.toString.split("/").last.split("_").last.toLong < System.currentTimeMillis) true else false 
     return flag 
    } 
} 

val streamed_rdd = ssc.fileStream[LongWritable, Text, TextInputFormat]("/user/hdpprod/temp/spark_streaming_input",filterF,false).map(_._2.toString).map(u => u.split('\t'))

fonte

2016-10-31 19:00:44

scintilla in streaming FILESTREAM

risposta

Problemi correlati