Sto scrivendo un lavoro spark usando python. Tuttavia, ho bisogno di leggere un sacco di file avro.Come leggere il file Avro in PySpark
This è la soluzione più vicina che ho trovato nella cartella di esempio di Spark. Tuttavia, devi inviare questo script python usando spark-submit. Nella riga di comando di spark-submit, è possibile specificare la classe driver, in tal caso, verrà individuata tutta la classe avrokey, avrovalue.
avro_rdd = sc.newAPIHadoopFile(
path,
"org.apache.avro.mapreduce.AvroKeyInputFormat",
"org.apache.avro.mapred.AvroKey",
"org.apache.hadoop.io.NullWritable",
keyConverter="org.apache.spark.examples.pythonconverters.AvroWrapperToJavaConverter",
conf=conf)
Nel mio caso, ho bisogno di eseguire tutto all'interno dello script Python, ho cercato di creare una variabile di ambiente per includere il file jar, croce dito Python aggiungerà il vaso al percorso, ma chiaramente non lo è , mi sta dando un errore di classe inaspettato.
os.environ['SPARK_SUBMIT_CLASSPATH'] = "/opt/cloudera/parcels/CDH-5.1.0-1.cdh5.1.0.p0.53/lib/spark/examples/lib/spark-examples_2.10-1.0.0-cdh5.1.0.jar"
Qualcuno può aiutarmi a leggere il file avro in uno script python?