Sto tentando di utilizzare la funzione takeSample()
in Spark ei parametri sono - dati, il numero di campioni da prelevare e il seme. Ma non voglio usare il seme. Voglio avere una risposta diversa ogni volta. Non sono in grado di capire come posso farlo. Ho provato a utilizzare System.nanoTime
come valore di inizializzazione ma ha dato un errore poiché penso che il tipo di dati non corrispondesse. Esiste un'altra funzione simile a takeSample()
che può essere utilizzata senza il seme? O ci sono altre implementazioni che posso usare con takeSample()
in modo da ottenere un output diverso ogni volta.Funzione takeSample() in Spark
6
A
risposta
7
System.nanoTime
è di tipo long
, il seme previsto da takeSample
è di tipo Int
. Quindi, takeSample(..., System.nanoTime.toInt)
dovrebbe funzionare.
1
System.nanoTime
restituisce Long, mentre takeSample si aspetta un Int.
È possibile alimentare scala.util.Random.nextInt
come valore di inizializzazione per la funzione takeSample.
1
A partire da Spark versione 1.0.0, il parametro seed
è facoltativo. Vedi https://issues.apache.org/jira/browse/SPARK-1438.
Problemi correlati
- 1. Come funziona la funzione Distinct() in Spark?
- 2. Understanding treeReduce() in Spark
- 3. Crea nuova colonna con funzione in Spark Dataframe
- 4. saveAsTextFile method in spark
- 5. supporto gzip in Spark
- 6. riduttore concetto in Spark
- 7. RDD Aggregate in spark
- 8. NullPointerException in spark-sql
- 9. Flattening Rows in Spark
- 10. Campionamento stratificato in Spark
- 11. Elaborazione Xml in Spark
- 12. Spark Build Custom Column Function, funzione definita dall'utente
- 13. Spark e SparkSQL: come imitare la funzione finestra?
- 14. Apache Spark lancia NullPointerException quando si incontra la funzione mancante
- 15. Colonna Access Array in Spark
- 16. Come funziona la funzione di aggregazione Spark: aggregateByKey?
- 17. SPARK Sostituzione SQL per mysql GROUP_CONCAT funzione aggregata
- 18. Applicare la funzione a ciascuna riga di Spark DataFrame
- 19. Come utilizzare l'importanza della funzione di Spark sulla foresta casuale?
- 20. Parsing json in spark-streaming
- 21. Persistenza in memoria non funzionante in Spark
- 22. Creare labeledPoints da Spark DataFrame in Python
- 23. Colonne concatenate in apache spark dataframe
- 24. Come mappare un Dataframe nidificato in Spark
- 25. Utilizzando R in Apache Spark
- 26. concomitante lavoro Esecuzione in Spark
- 27. NotSerializableException durante l'ordinamento in Spark
- 28. Funzionalità Hadoop DistributedCache in Spark
- 29. Mappa distribuita in Scala Spark
- 30. Arresto dell'applicazione Spark in esecuzione
In scala '.toInt' deve essere preferito su' .intValue' –
@ RégisJean-Gilles Grazie, corretto. –