Esempi di CUDA SDK generano vari errori nel sistema multi-gpu

Ho un Dell Precision Rack con Ubuntu Precise e dotato di due Tesla C2075 più un Quadro 600 che è il dispositivo di visualizzazione. Di recente ho terminato alcuni test sul mio computer desktop e ora ho provato a trasferire i dati sulla workstation.Esempi di CUDA SDK generano vari errori nel sistema multi-gpu

Poiché CUDA non era presente, l'ho installato in base allo this guide e adattato i Makefile SDK in base allo this suggestions.

Quello che sto affrontando ora è che non un singolo campione (ho fatto testare come 10 diversi) è in esecuzione. Questi sono gli errori che sto ottenendo:

[deviceQuery] starting... 

./deviceQuery Starting... 

CUDA Device Query (Runtime API) version (CUDART static linking) 

cudaGetDeviceCount returned 10 
-> invalid device ordinal 
[deviceQuery] test results... 
FAILED 

> exiting in 3 seconds: 3...2...1...done!

[MonteCarloMultiGPU] starting... 

CUDA error at MonteCarloMultiGPU.cpp:235 code=23510 (cudaErrorInvalidDevice) "cudaGetDeviceCount(&GPU_N)"MonteCarloMultiGPU 
================== 
Parallelization method = threaded 
Problem scaling   = weak 
Number of GPUs   = 0 
Total number of options = 0 
Number of paths   = 262144 
main(): generating input data... 
main(): starting 0 host threads... 
Floating point exception (core dumped)

[reduction] starting... 

reduction.cpp(124) : cudaSafeCallNoSync() Runtime API error 10 : invalid device ordinal.

[simplePrintf] starting... 

simplePrintf.cu(193) : CUDA Runtime API error 10: invalid device ordinal.

Come è possibile se e la maggior parte degli errori siano rivolte verso un problema con la chiamata cudaGetDeviceCount che restituiscono il codice di errore 10. Secondo il manuale del problema è:

cudaErrorInvalidDevice: This indicates that the device ordinal supplied by the user does not correspond to a valid CUDA device.

Purtroppo, l'unica soluzione sono stato in grado di trovare suggerito di controllare i dispositivi prese di corrente. L'ho fatto e non c'era niente di sbagliato in questo. Riavviare la workstation non aiuta neanche.

Sarei felice di fornire ulteriori dettagli sulla mia configurazione. Basta lasciare un commento!

fonte

2012-07-25 Random-I-Am

Questo è off-topic per StackOveflow. Ti consiglio di controllare se hai i file di dispositivo '/ dev/nvidia *'. In caso contrario, leggi le istruzioni nella guida introduttiva di Linux per la creazione manuale. – talonmies

@talonmies Nel mio dev ci sono 'nvidia0' e' nvidiactl'. Quanti file ci dovrebbero essere? –

Dovrebbe esserci uno per GPU, quindi tre per il sistema. – talonmies

A causa dei commenti alla mia domanda iniziale, sono riuscito a trovare una soluzione a find. Ho seguito this guide per imparare come impostare correttamente lo rc.local (non dimenticare di chmod il tuo script).

fonte

2012-07-25 16:28:20

Esempi di CUDA SDK generano vari errori nel sistema multi-gpu

risposta

Problemi correlati