Il processore Intel Xeon Phi "Knights Landing" sarà il primo a supportare l'AVX-512, ma supporterà solo "F" (come SSE senza SSE2, o AVX senza AVX2), quindi roba a virgola mobile principalmente.Will Knights Landing CPU (Xeon Phi) accelera il codice intero byte/parola?
Sto scrivendo un software che funziona su byte e parole (8 e 16 bit) utilizzando fino alle istruzioni SSE4.1 tramite intrinseche.
Sono confuso se ci saranno versioni codificate EVEX di tutte/molte istruzioni SSE4.1 in AVX-512F, e se questo significa che posso aspettarmi che il mio codice SSE ottenga automaticamente istruzioni estese EVEX e mappa a tutti i nuovi registri.
Wikipedia dice:
La larghezza del file registro SIMD viene aumentata da 256 bit a 512 bit, con un totale di 32 registri ZMM0-ZMM31. Questi registri possono essere indirizzati come registri YMM a 256 bit da estensioni AVX e registri XMM a 128 bit da Streaming SIMD Extensions e le istruzioni AVX e SSE legacy possono essere estese per operare sui 16 registri aggiuntivi XMM16-XMM31 e YMM16-YMM31 quando si utilizza EVEX forma codificata.
Questo, purtroppo, non chiarisce se la compilazione di codice SSE4 con AVX512 abilitati porterà alla stessa (impressionante) aumento di velocità che compilarlo a AVX2 fornisce (codifica VEX delle istruzioni precedenti).
Qualcuno sa cosa accadrà quando il codice SSE2/4 (C intrinseco) viene compilato per AVX-512F? Ci si può aspettare un aumento di velocità come con la codifica VEX di AVX1 delle istruzioni di byte e parole?
Potrei aver risposto alla mia stessa domanda con più attenzione. Vedere l'ultima frase di questo: https://en.wikipedia.org/wiki/AVX-512#SIMD_modes ... Sembra che le istruzioni SSE/AVX operino su byte e le parole NON condividano uno spazio dei nomi con i nuovi registri fino a AVX512BW. Qualche chiarimento se questo in realtà significa qualcosa sul rendimento? – user1649948
Si potrebbe desiderare di aspettare Purley (l'anno prossimo, presumibilmente) - avrà le aggiunte AVX-512BW. –
AVX-512F sarà supportato sia da "Big Core" (Xeon) che da "Throughput hpc accelerator" (Xeon Phi). Ma Xeon Phi e Big Core avranno anche set di istruzioni AVX-512 unici, destinati esclusivamente agli utenti Big Core o esclusivamente agli usi "Throughput". AVX-512BW è esclusivo per Big core, mentre ad es. AVX-512ER (reciproci) è esclusivo di Xeon Phi. Non sono sicuro che si tratti di "prestazioni saggio", ma dovrebbe essere "power-perfomance wise" e un po 'focalizzato su FP-focus (dal momento che Xeon Phi è destinato a utenti orientati al throughput più orientati al fattore FP). – zam