Il mio computer locale non ha un'installazione hdf. Voglio recuperare i file da un cluster hdfs remoto. Qual è il modo migliore per raggiungere questo obiettivo? Devo scrivere a get
i file da hdf a uno dei computer di cluster fs e quindi usare ssh per recuperarli? Voglio essere in grado di farlo a livello di codice attraverso dire uno script bash.Recupera file da HDFS remoto
risposta
Ecco i passaggi:
- Assicurarsi che vi sia la connettività tra il vostro ospite e il cluster di destinazione
- Configura il tuo host come client, è necessario installare i binari Hadoop compatibili. Anche il tuo host deve essere eseguito utilizzando lo stesso sistema operativo.
- Assicurarsi di avere gli stessi file di configurazione (core-site.xml, HDFS-site.xml)
- È possibile eseguire
hadoop fs -get
comando per ottenere i file direttamente
ci sono anche alternative
- Se Webhdfs/httpFS è configurato, è possibile scaricare file utilizzando Curl o persino il browser. Puoi scrivere bash scritps se Webhdfs è configurato.
Se l'host non può avere binari Hadoop installati per essere client, è possibile utilizzare le seguenti istruzioni.
- password enable meno login dal tuo host a quello del nodo nel cluster
- comando di marcia
ssh <user>@<host> "hadoop fs -get <hdfs_path> <os_path>"
- poi il comando SCP per copiare i file
- si può avere la cui sopra 2 comandi in uno script di
Una domanda di follow-up. In che modo [httpFS] (https://hadoop.apache.org/docs/r2.6.0/hadoop-hdfs-httpfs/index.html) si confronta con la soluzione "client hadoop fs -get" in termini di prestazioni? –
httpFS e webhdf sono uguali. Puoi scaricarlo usando questo, non c'è bisogno di binari hadoop per farlo. –
che dire in termini di prestazioni? È più veloce usare i binari invece di usare httpFS? forse dovrei iniziare un'altra discussione –
- 1. Pyspark: recupera file/directory sul percorso HDFS
- 2. Trasferimento di file da nodo remoto a HDFS con Flume
- 3. Trasferimento file da HDFS
- 4. Recupera file mancanti dal repository remoto?
- 5. Come eliminare file da HDFS?
- 6. Accesso HDFS da host remoto tramite API Java, autenticazione utente
- 7. Unione di file hdfs
- 8. Recupera il log remoto, non il commit
- 9. Recupera testo da file html in java
- 10. Recupera file cancellato da PhpStorm e SourceTree
- 11. Recupera attributi file da windows cmd
- 12. Recupera informazioni e-mail da file .EML
- 13. Hadoop: File HDFS Scrive & Legge
- 14. Esiste un comando hdfs per elencare i file nella directory HDFS come da timestamp
- 15. File piccoli e blocchi HDFS
- 16. Lettura di un semplice file Avro da HDFS
- 17. Pydoop si blocca su readline da file HDFS
- 18. Impossibile leggere un file da HDFS utilizzando Spark
- 19. file di Copia da HDFS al computer locale
- 20. Copia ed estrae file da s3 a HDFS
- 21. Recupera codice da ILGenerator
- 22. Importa dati da HDFS a HBase (cdh3u2)
- 23. Selezione colonne da panda. Tabella HDFS
- 24. SVN recupera file cancellato
- 25. Recupera NSManagedObjectContext da NSManagedObject
- 26. Come riparare i file corrotti HDFS
- 27. Aggiornamento di un file HDFS hadoop
- 28. Scrittura di file su HDFS utilizzando Java
- 29. Errore HDFS: "input": nessun file o directory
- 30. HDFS da Java - Indicazione degli utenti
Provare DistCp: https://hadoop.apache.org/docs/r1.2.1/distcp.html –