Sono stato incaricato di scaricare circa 100 milioni di righe di dati da Azure Table Storage. La cosa importante qui è la velocità.Come scaricare 100 milioni di righe da Azure Table FAST
Il processo che stiamo utilizzando sta scaricando 10.000 righe dall'archivio di Azure Table. Elaborali in un'istanza locale di Sql Server. Durante l'elaborazione delle righe, elimina 100 righe alla volta dalla tabella di Azure. Questo processo è threadato per avere 8 thread scaricando 10.000 righe alla volta.
L'unico problema con questo è quello secondo i nostri calcoli. Ci vorranno circa 40 giorni per scaricare ed elaborare i circa 100 milioni di file archiviati. Qualcuno sa un modo più veloce per svolgere questo compito?
Una domanda laterale: durante il processo di download, Azure restituirà xml che non ha alcun dato. Non restituisce un errore. Ma invia questo:
<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<feed xml:base="azure-url/" xmlns:d="http://schemas.microsoft.com/ado/2007/08/dataservices" xmlns:m="http://schemas.microsoft.com/ado/2007/08/dataservices/metadata" xmlns="http://www.w3.org/2005/Atom">
<title type="text">CommandLogTable</title>
<id>azure-url/CommandLogTable</id>
<updated>2010-07-12T19:50:55Z</updated>
<link rel="self" title="CommandLogTable" href="CommandLogTable" />
</feed>
0
Qualcun altro ha questo problema e ha una soluzione per questo?
Quanti dati per riga? 400 byte, 400kb, un meg? –
Al massimo ogni riga è 1k. – jWoose
Non ho lavorato con Azure, quindi sto solo cercando di risolvere i problemi da una vista SQL/rete; tuttavia, sto leggendo alcuni blog e tutti dicono la stessa cosa: usare ATOM è molto prolisso e inefficiente per i grandi set di dati. Ora, non sono sicuro di quanto sia difficile cambiarlo; ma ecco un esempio di differenze velocità/dati http://weblogs.asp.net/rgillen/archive/2009/08/20/atompub-json-azure-and-large-datasets-part-2.aspx –