Per esempio, se faccio questo:Come viene gestita la memoria per np.ndarray in cython?
cdef np.ndarray[np.int64_t, ndim=1] my_array
Dov'è la mia my_array
memorizzato? Penserei che siccome non ho detto a cython di archiviarlo nell'heap, esso sarebbe stato memorizzato nello stack, ma dopo aver fatto il seguente esperimento sembra che sia archiviato nello heap, o in qualche modo efficientemente gestito dalla memoria. Come viene gestita la memoria rispetto a my_array
? Forse mi manca qualcosa di ovvio, ma non ho trovato alcuna documentazione su di esso.
import numpy as np
cimport cython
cimport numpy as np
from libc.stdlib cimport malloc, free
def big_sum():
# freezes up:
# "a" is created on the stack
# space on the stack is limited, so it runs out
cdef int a[10000000]
for i in range(10000000):
a[i] = i
cdef int my_sum
my_sum = 0
for i in range(10000000):
my_sum += a[i]
return my_sum
def big_sum_malloc():
# runs fine:
# "a" is stored on the heap, no problem
cdef int *a
a = <int *>malloc(10000000*cython.sizeof(int))
for i in range(10000000):
a[i] = i
cdef int my_sum
my_sum = 0
for i in range(10000000):
my_sum += a[i]
with nogil:
free(a)
return my_sum
def big_numpy_array_sum():
# runs fine:
# I don't know what is going on here
# but given that the following code runs fine,
# it seems that entire array is NOT stored on the stack
cdef np.ndarray[np.int64_t, ndim=1] my_array
my_array = np.zeros(10000000, dtype=np.int64)
for i in range(10000000):
my_array[i] = i
cdef int my_sum
my_sum = 0
for i in range(10000000):
my_sum += my_array[i]
return my_sum
Perché non dai un'occhiata al file C generato? Comunque credo che cython chiami semplicemente funzioni numpy per l'allocazione, che chiamano 'PyMalloc' che alloca sull'heap. numpy * non * gestisce la sua memoria. Si basa semplicemente su allocazioni/deallocazioni python. – Bakuriu
@Bakuriu, grazie per il tuo commento, ha senso e aiuta molto, ma sai di una fonte che spiega questi passaggi in modo più dettagliato? Ho provato a guardare il file C generato, ma sono oltre 6000 linee di codice, e non ho potuto avere molto senso. – Akavall
È quasi certamente heap - considera che la dimensione della matrice non è nota al momento della dichiarazione, numpy di solito funziona su array di grandi dimensioni e lo stack è limitato. Sebbene l'ottimizzazione dello stack sia tecnicamente possibile, 'ndarray's può essere vista, quindi il riferimento ai dati può sfuggire allo scope corrente. In quanto tale, è molto più semplice implementarlo in heap. Utilizzare un MemoryView se possibile, o leggere il http://docs.cython.org/src/tutorial/numpy.html –