2016-03-06 11 views
7

Ci sono alcune opzioni per accedere alle librerie R in Spark:Utilizzando R in Apache Spark

  • utilizzando direttamente
  • utilizzando binding di linguaggio come o rscala
  • utilizzando il servizio stand-alone come

Sembra che lo SparkR sia piuttosto limitato, OpenCPU richiede di mantenere il servizio aggiuntivo e le associazioni possono avere sta problema di flessibilità. C'è qualcos'altro specifico nell'architettura Spark che rende l'utilizzo di qualsiasi soluzione non facile.

Hai qualche esperienza con l'integrazione di R e Spark che puoi condividere?

risposta

4

La lingua principale del progetto sembra un fattore importante.

Sepyspark è un buon modo per utilizzare Spark per voi (il che significa che si sta accedendo Spark da Python) accesso R attraverso rpy2 non dovrebbe fare molta differenza di utilizzare qualsiasi altra libreria Python con un C-estensione.

Esistono segnalazioni di utenti farlo (anche se con domande occasionali, come How can I partition pyspark RDDs holding R functions o Can I connect an external (R) process to each pyspark worker during setup)

Se R è la lingua principale, aiutando gli autori SparkR con feedback o contributi in cui ti senti ci sono limitazioni sarebbe modo andare.

Se la tua lingua principale è Scala, rscala dovrebbe essere il tuo primo tentativo.

Mentre la combinazione pyspark + rpy2 sembra la più "consolidata" (come in "utilizza la base di codice più vecchia e probabilmente più provata"), ciò non significa necessariamente che sia la soluzione migliore (e i pacchetti giovani possono evolvere rapidamente) . Valuterei prima qual è la lingua preferita per il progetto e proveremo le opzioni da lì.

+0

Pensi che OpenCPU non sia una buona opzione? –

+0

@CafeFeed Non ho esperienza con esso. – lgautier

Problemi correlati