2013-04-22 23 views
5

Stiamo facendo funzionare BigQuery per circa 4 mesi e abbiamo alcune interessanti osservazioni e domande riguardanti pricings:Variazioni dei prezzi di Bigquery?

  1. modello dei prezzi è abbastanza inspiegabile ha bisogno di spiegazioni per unisce, sindacati e così via
  2. Se corro unirsi sul tavolino i miei dati elaborati aumenteranno per ogni copia di tavolino che è stata moltiplicata all'interno di un motore bigquery?
  3. Se riutilizza la stessa sottoquery all'interno di una query, questa è una nuova elaborazione dati indipendentemente dal fatto che si tratti della stessa sottoquery? Questo può essere ottimizzato in qualche modo? La cache di bigquery non è data?
  4. È presente una dimensione minima arrotondata per l'elaborazione dei dati? Le nostre osservazioni pensano che sia 4 MB, è corretto?
  5. In Google Console c'è un problema con le posizioni geografiche, si dice che la maggior parte delle query proviene da CA, che non è corretto poiché la mia azienda è in Europa e tutto lo sviluppo è fatto lì. Ho controllato tutti gli indirizzi IP e non c'è l'IP di CA. È possibile ottenere report più dettagliati?
  6. Riguardo a 5, vorremmo ottenere una cronologia delle query e dei prezzi per ognuno. Come possiamo farlo? Il nostro software deve fare questo o?
  7. Riguardo a 3) Ho questo enorme problema con l'elaborazione dei dati (questo è il motivo per cui ho fatto tutte le domande). Il mio intero set di dati è grande circa 150mb e tuttavia la mia dimensione DP per query è 3 volte più grande? Se bigquery legge tutti i miei dati, non raggiungerebbe le dimensioni mostrate sui dati elaborati. Quando sono tutti i casi in cui i dati saranno riletti e quindi si verificherà una nuova DP? E come lo conti?

Grazie.

saluti, Tomislav

+0

C'è qualche ragione particolare per cui questo è stato downvoted? –

+0

Ho upvoted quindi è su 0 –

risposta

3
  1. Il prezzo è abbastanza semplice per i join, sindacati, ecc Qualunque dati di origine deve essere letto, viene addebitato esattamente una volta. Ad esempio, se esegui un self-join, ti viene comunque addebitato solo una singola lettura dei dati.
  2. Vedere # 1. Indipendentemente da come Bigquery funziona internamente, ti dovrebbe essere addebitato solo una volta.
  3. BigQuery memorizza i dati nella cache in modo ottimale. Se si esegue nuovamente una query, la cache viene selezionata. Se si verifica un riscontro nella cache, non ti verrà addebitato alcun costo per rieseguire la query. Si noti che solo i risultati dell'interrogazione completa sono memorizzati nella cache; se si modifica la query o la si utilizza in una sottoquery, la cache non verrà utilizzata.
  4. BigQuery arrotonda fino a 1 MB di incrementi, con un minimo di 10 MB.
  5. Non ero a conoscenza di alcuna posizione geografica nella console di Google. Dove vedi queste informazioni?
  6. È possibile ottenere una cronologia delle query e la quantità di dati elaborati da ciascuno tramite jobs.list api.
  7. È possibile inviare un ID lavoro di una query eseguita più grande del previsto. Il calcolo eseguito è 8 byte * (numero di righe di colonne intere e float lette) + 2 byte * (lunghezza totale di tutte le stringhe nelle colonne stringa lette).

Fatemi sapere se questo risponde alle vostre domande.

+0

La risposta su 3. è troppo vaga. Saremmo interessati anche a combinare query più vecchie (memorizzate nella cache) con nuove e ottenere comunque un vantaggio economico dalla cache. Ma sembra che non appena aggiungi una nuova sottoquery alla tua vecchia query, ti verrà addebitato come se nulla fosse stato memorizzato nella cache. –

+1

Chiarito, spero. –

+0

Vorrei aggiungere per # 4 - e la dimensione minima fatturata è di 10 MB per tabella coinvolta –

0

Posso fornire chiarimenti per # 5.

Nella Console delle API di Google, in RAPPORTI, sono disponibili informazioni demografiche relative alle richieste API per un progetto.Sospetto che questo abbia meno a che fare con BigQuery stesso e più con la Console delle API di Google.