Non esattamente una risposta alla tua domanda, ma alcune informazioni che potrebbero essere di aiuto per comprendere le prestazioni del GK104 (Keplero, GTX680) contro il GF110 (Fermi, GTX580):
On Fermi , i core funzionano a doppia frequenza rispetto al resto della logica. Su Keplero, corrono alla stessa frequenza. Questo dimezza in modo efficace il numero di core su Keplero se si vuole fare più di un confronto mele-mele con Fermi. Così lascia GK104 (Kepler) con 1536/2 = 768 "nuclei equivalenti di Fermi", che è solo il 50% in più dei 512 core del GF110 (Fermi).
Osservando i conteggi dei transistor, la GF110 ha 3 miliardi di transistor mentre la GK104 ha 3,5 miliardi. Quindi, anche se Keplero ha 3 volte più core, ha solo un po 'più transistor. Così ora, non solo Keplero ha solo il 50% in più di "Fermi equivalenti" di Fermi, ma ognuno di questi core deve essere molto più semplice di quelli di Fermi.
Quindi, questi due problemi probabilmente spiegano perché molti progetti vedono un rallentamento durante il porting su Kepler.
Inoltre, il GK104, essendo una versione di Kepler realizzata per schede grafiche, è stato regolato in modo tale che la cooperazione tra i thread sia più lenta rispetto a Fermi (in quanto tale cooperazione non è così importante per la grafica). Qualsiasi potenziale guadagno potenziale di prestazioni, dopo aver tenuto conto dei fatti di cui sopra, può essere negato da questo.
C'è anche il problema delle prestazioni in virgola mobile a doppia precisione. La versione di GF110 utilizzata nelle schede Tesla può eseguire un virgola mobile a doppia precisione a 1/2 della prestazione di precisione singola. Quando il chip viene utilizzato nelle schede grafiche, le prestazioni a doppia precisione sono artificialmente limitate a 1/8 delle prestazioni a precisione singola, ma questo è ancora molto meglio rispetto alle prestazioni a doppia precisione 1/24 di GK104.
fonte
2012-05-28 05:09:29
Per le massime prestazioni è necessario ottimizzare il codice per diverse configurazioni della GPU. –
Da quello che Wikipedia mi dice, la memoria BW del 680 non è molto più alta di quella del 480. Quindi, se sei legato alla memoria, non vedrai molta accelerazione. Non riesco a spiegare perché vedi un rallentamento, comunque. –
Quella versione del toolkit CUDA si usa? – geek