Ottengo "troppi file aperti" durante la fase shuffle del mio lavoro Spark. Perché il mio lavoro apre così tanti file? Che cosa posso fare per provare a fare in modo che il mio lavoro abbia successo.Perché il lavoro Spark fallisce con "troppi file aperti"?
risposta
This has been answered on the spark user list:
Il modo migliore è sicuramente solo per aumentare l'ulimit se possibile, questo è una sorta di un presupposto che facciamo in Spark che i cluster saranno in grado di muoversi in giro.
Potreste essere in grado di incidere intorno a questo diminuendo il numero di riduttori [o per anime usati da ogni nodo] ma questo potrebbe avere alcune implicazioni di prestazioni per il vostro lavoro.
In generale, se un nodo nel cluster è assegnato C core e si esegue un lavoro con riduttori X poi scintilla aprire i file C * X per iscritto parallelo e inizio. Il consolidamento shuffle contribuirà a ridurre il numero totale di file creati ma il numero di handle di file aperti a qualsiasi ora non cambia in modo da non aiutare il problema ulimit.
-Patrick Wendell
ulimit predefinito è 1024 che è irrisorio per applicazioni su larga scala. HBase raccomanda fino a 64 KB; i moderni sistemi Linux non sembrano avere problemi con questo numero di file aperti.
uso
ulimit -a
per verificare il numero massimo di corrente di file aperti
ulimit -n
può cambiare temporaneamente il numero di file aperti; è necessario aggiornare i file di configurazione del sistema e i limiti per utente per renderlo permanente. Nei sistemi RedHat, che possono essere trovati in
/etc/sysctl.conf
/etc/security/limits.conf
- 1. Troppi handle di file aperti
- 2. Sottoprocesso Python: troppi file aperti
- 3. Socket accettare - "Troppi file aperti"
- 4. php-fpm Troppi file aperti
- 5. Fatal Error - Troppi file aperti
- 6. Perché ricevo un errore "Troppi file aperti - conversione" da Paperclip?
- 7. awk - troppi file aperti edizione/Data parsing
- 8. Troppi errori di file aperti, java.io.FileNotFoundException
- 9. Perché Spark Cassandra Connector fallisce con NoHostAvailableException?
- 10. Errore "Troppi file aperti" in pdflatex
- 11. Come risolvere l'errore java.net.SocketException: Troppi file aperti
- 12. java.net.SocketException: Troppi file aperti Spring Hibernate Tomcat
- 13. RSpec e Machinist errore: Troppi file aperti
- 14. Troppi file aperti avviso da elasticsearch
- 15. IOError: [Errno 24] Troppi file aperti:
- 16. RecursiveDirectoryIterator getta UnexpectedValueException su "Troppi file aperti"
- 17. Troppi file aperti su Ubuntu 8.04
- 18. Rubino gestione handle di file (troppi file aperti)
- 19. Os x terminal, ssh e troppi file aperti
- 20. BindException/Troppi file aperti durante l'utilizzo di HttpClient sotto carico
- 21. su iOS/iPhone: "Troppi file aperti": è necessario elencare i file aperti (come lsof)
- 22. Errore EMFILE (Troppi file aperti) durante la connessione a LocalServerSocket?
- 23. Reagire Native + Jest EMFILE: troppi file aperti errore
- 24. NumPy e memmap: [Errno 24] Troppi file aperti
- 25. JDK 1.7: "Troppi file aperti" a causa dei semafori POSIX?
- 26. multiprocessing di zeromq e python, troppi file aperti
- 27. Docker Ignora limits.conf (tentando di risolvere l'errore "troppi file aperti")
- 28. presa: Troppi file aperti (24) apache lighttpd panchina
- 29. Perché la Java VM non si ripristina dopo gli errori "Troppi file aperti"?
- 30. "Max file aperti" per il processo di lavoro
ho pensato uno dei principali vantaggi di scintilla era mantiene le cose in ram .. perché sarebbe necessario aprire così tanti file, allora? – anthonybell
Utilizza questi file durante la riproduzione casuale. L'idea è di mettere in primo piano i dati per ogni riduttore sul disco locale, quindi il riduttore può consumare i dati sul proprio ritmo (tirare invece di premere). – marios
nel caso in cui qualcun altro passi allo stesso problema utilizzando mesos, citando lo stesso thread di lista degli utenti spark: "Si scopre che il mesos può sovrascrivere l'impostazione ulimit -n del sistema operativo, quindi abbiamo aumentato l'impostazione ulimit-n del mesos slave. " – vefthym