pyspark

11calore

2risposta

Apache Spark: Qual è l'implementazione equivalente di RDD.groupByKey() utilizzando RDD.aggregateByKey()?

I documenti API Apache Spark pyspark.RDD menzionano che groupByKey() è inefficiente. Invece, si consiglia di utilizzare reduceByKey(), aggregateByKey(), combineByKey() o foldByKey(). Ciò comporterà un

5calore

1risposta

come stampare i frammenti di un RDD in spark-shell/pyspark?

Quando si lavora nella shell di accensione, desidero spesso ispezionare gli RDD (simile all'utilizzo di head in Unix). Ad esempio: scala> val readmeFile = sc.textFile("input/tmp/README.md") scala> //

7calore

1risposta

Errore: È necessario specificare una risorsa primaria (JAR o Python o un file R) - IPython notebook

provo a fare funzionare Apache Spark in IPython notebook, seguire questa insruction (e tutti i consigli nei commenti) - link Ma quando ho gestito IPython Notebook da questo comando: ipython notebook -

6calore

1risposta

Le partizioni non vengono eliminate in semplici query SparkSQL

Sto provando a selezionare in modo efficiente singole partizioni da una tabella SparkSQL (parquet in S3). Tuttavia, vedo prove di Spark che aprono tutti i file del parquet sul tavolo, non solo quelli

10calore

2risposta

Aggiunta di una nuova colonna in Data Frame derivata da altre colonne (Spark)

Sto usando Spark 1.3.0 e Python. Ho un dataframe e desidero aggiungere una colonna aggiuntiva derivata da altre colonne. In questo modo, >>old_df.columns [col_1, col_2, ..., col_m] >>new_df.columns

9calore

1risposta

Connettore BigQuery per pyspark tramite Hadoop Esempio di formato di input

Ho un grande set di dati archiviato in una tabella BigQuery e vorrei caricarlo in un RDD Pypark per l'elaborazione dei dati ETL. ho capito che BigQuery supporta il formato di Hadoop Input/Output https

5calore

1risposta

un elenco come chiave per reduceByKey di PySpark

Sto tentando di chiamare la funzione reduceByKey di pyspark sui dati del formato (([a,b,c], 1), ([a,b,c], 1), ([a,d,b,e], 1), ... Sembra pyspark non accetterà un array come la chiave nella chiave norm

9calore

3risposta

Aumenta disposizione PySpark in fase di esecuzione

Sto cercando di costruire un recommender utilizzando Spark ed appena ha esaurito la memoria: Exception in thread "dag-scheduler-event-loop" java.lang.OutOfMemoryError: Java heap space mi piacerebbe

6calore

2risposta

Automaticamente inclusi i vasi nel classpath PySpark

Sto tentando di includere automaticamente i jar nel mio classpath PySpark. In questo momento posso digitare il seguente comando e funziona: $ pyspark --jars /path/to/my.jar Mi piacerebbe avere quel

7calore

2risposta

salva Spark dataframe su Hive: tabella non leggibile perché "parquet not a SequenceFile"

Mi piacerebbe salvare i dati in un dataframe Spark (v 1.3.0) in una tabella Hive usando PySpark. I documentation stati: "spark.sql.hive.convertMetastoreParquet: Quando è impostato su false, Spark SQL