Desidero utilizzare la funzione pyspark.mllib.stat.Statistics.corr
per calcolare la correlazione tra due colonne dell'oggetto pyspark.sql.dataframe.DataFrame
. La funzione corr
si aspetta di prendere uno rdd
di oggetti Vectors
. Come faccio a tradurre una colonna di df['some_name']
in rdd
di Vectors.dense
oggetto?Correlazione calcolo Pyspark
5
A
risposta
5
Non ci dovrebbe essere bisogno di quello. Per numerica è possibile calcolare la correlazione direttamente utilizzando DataFrameStatFunctions.corr
:
df1 = sc.parallelize([(0.0, 1.0), (1.0, 0.0)]).toDF(["x", "y"])
df1.stat.corr("x", "y")
# -1.0
altrimenti è possibile utilizzare VectorAssembler
:
from pyspark.ml.feature import VectorAssembler
assembler = VectorAssembler(inputCols=df.columns, outputCol="features")
assembler.transform(df).select("features").flatMap(lambda x: x)
1
Ok ho capito:
v1 = df.flatMap(lambda x: Vectors.dense(x[col_idx_1]))
v2 = df.flatMap(lambda x: Vectors.dense(x[col_idx_2]))
Problemi correlati
- 1. Calcolo della correlazione a coppie tra tutte le colonne
- 2. Il calcolo della correlazione tra due datafram richiede un ciclo?
- 3. Rimuovere i valori anomali dal calcolo del coefficiente di correlazione
- 4. calcolo della correlazione media per pixel adiacenti nel tempo
- 5. Valutazione PySpark
- 6. Panda: come eliminare l'auto-correlazione dalla matrice di correlazione
- 7. numpy corrcoef - calcolo della matrice di correlazione ignorando i dati mancanti
- 8. cross-correlazione numpy - vettorizzazione
- 9. Correlazione panda Groupby
- 10. Correlazione di Pearson ponderata?
- 11. Correlazione Configurazione Corrplot
- 12. Correlazione di fase
- 13. Correlazione tra due vettori?
- 14. python correlazione circolare circolare
- 15. Esplodi in PySpark
- 16. Pyspark: ripartizione vs partizioneBy
- 17. takeOrdered discendente Pyspark
- 18. PySpark 1.5 & MSSQL jdbc
- 19. numeri casuali in PySpark
- 20. Pyspark: shuffle RDD
- 21. Problemi nell'installazione di Pyspark
- 22. Aggiungi Jar standalone pyspark
- 23. Registrazione di PySpark?
- 24. PySpark Drop Righe
- 25. Trovare la matrice di correlazione
- 26. Raggruppamento di correlazione in R
- 27. matrice di correlazione in python
- 28. Come sopprimere la tabella di correlazione in LME?
- 29. Pyspark StructType non è definito
- 30. In esecuzione nosetests per pyspark
Supporta solo Pearson. – VJune