Sto cercando di eseguire un'operazione unione in Dataflow. Esiste un codice di esempio per l'unione di due PCollections in Dataflow?Come si esegue un'unione nel flusso di dati?
5
A
risposta
6
Un modo semplice per farlo sarebbe quello di combinare Flatten() con RemoveDuplicates() in questo modo. A seconda se si desidera l'unione disgiunta o l'unione di set-teorica, la chiamata RemoveDuplicates può essere omesso:
PCollection<String> pc1 = ...;
PCollection<String> pc2 = ...;
PCollection<String> union = PCollectionList.of(pc1).and(pc2)
.apply(Flatten.<String>create())
.apply(RemoveDuplicates.<String>create());
-1
Se si dispone di più di due collezioni, una soluzione conveniente è quello di compilare un elenco di PCollection, fare un PCollectionList sulla base di questo e l'Appiattisci:
Spero che questo aiuti.
Problemi correlati
- 1. Render immagine come flusso di dati nel browser di Android
- 2. esegue in modo selettivo l'attività nel flusso di controllo ssis
- 3. Inserimento dati utente nel flusso Mpeg
- 4. Come si esegue la migrazione della directory dei dati mysql nel contenitore docker?
- 5. Come si esegue il debug di AppleScript?
- 6. Nel comportamento, come si esegue solo uno scenario?
- 7. Come convertire MultipartFile nel flusso di byte
- 8. come ottenere $ CAUSE nel flusso di lavoro
- 9. Mercurial e NTFS flusso di dati alternativo
- 10. Inserisci elemento nel flusso
- 11. Flusso di dati circolare in highlandjs
- 12. Flusso dati TPL: come limitare un'intera pipeline?
- 13. Flusso di dati JPEG su TImage
- 14. Come eseguire il flusso di dati nel database BLOB utilizzando Hibernate (nessuna memorizzazione in memoria nel byte [])
- 15. Come si esegue una query su DynamoDB?
- 16. Come si esegue la serializzazione automatica dei dati degli oggetti dati?
- 17. Commutazione di frammenti nel flusso principale/dettagli
- 18. bisogno di dati flusso di input
- 19. Come si esegue l'iterazione di un'interfaccia IGrouping <T>?
- 20. Flusso di lavoro nel codice di produzione
- 21. Come si esegue ./configure con MinGW?
- 22. Ottimizzazione del flusso di dati utilizzando HOOPL
- 23. come si esegue getResourceAsStream mentre si esegue il debug di Java in Eclipse?
- 24. Come si esegue twistato dalla console?
- 25. Come si esegue la "serializzazione" di una classe derivata dai dati serializzati?
- 26. Documentazione sul flusso di dati Spring Cloud
- 27. Come si aspetta che un flusso di rete abbia i dati da leggere?
- 28. Variabile semplice nel flusso Web
- 29. Python - Come si esegue un file .py?
- 30. Come si "forchetta" un flusso in .NET?
Mi chiedo se sarebbe una buona idea aggiungere un altro RemoveDuplicates prima del Flatten, nel caso ci fossero dei duplicati all'interno di ogni raccolta? Ad esempio, PCollectionList.of (pc1.apply (RemoveDuplicates)). e (pc2.apply (RemoveDuplicates)) - o l'ottimizzatore si prenderà cura di questo? – jkff
Penso che "Flatten. .create" dovrebbe essere "Flatten. creare" –
redtuna
@redtuna corretto, grazie! –