È stato scritto molto sulla distribuzione di applicazioni di crunch di dati su EC2/S3, ma mi piacerebbe sapere qual è il tipico flusso di lavoro per lo sviluppo di tali applicazioni?Flusso di lavoro per lo sviluppo di applicazioni di crunch numerico su amazon ec2/S3
Diciamo che ho un 1 TB di dati di serie temporali per cominciare e sono riuscito a memorizzare questo su S3. Come scriverei applicazioni e fare analisi dei dati interattive per costruire modelli di machine learning e poi scrivere programmi di grandi dimensioni per testarli? In altre parole, come si fa a configurare un ambiente di sviluppo in una situazione del genere? Avvio di un'istanza EC2, sviluppo software su di esso e salvataggio delle modifiche, e spegnimento ogni volta che voglio lavorare?
In genere, accendo R o Pylab, leggo i dati dalle unità locali e faccio le analisi. Quindi creo applicazioni basate su quell'analisi e lasciamo perdere quei dati.
Su EC2, non sono sicuro di poterlo fare. Le persone mantengono i dati localmente per l'analisi e usano EC2 solo quando hanno grandi lavori di simulazione da eseguire?
Sono molto curioso di sapere cosa stanno facendo gli altri, in particolare le start-up che hanno la loro intera infrastruttura basata su EC2/S3.
Grazie per aver condiviso questo. Quindi, in pratica, manterrai una copia locale dei dati e svilupperai anche localmente (off-amazon) ma eseguirai esperimenti su Amazon? – signalseeker
La nostra azienda non è esperimenti, ma essenzialmente è ciò che facciamo. Parte dell'applicazione esterna include tabelle e regole fiscali molto grandi. Li manteniamo nella nostra rete e inviamo aggiornamenti ad Amazon ogni volta che cambiano le tariffe o le regole (di solito a mezzanotte alla fine di ogni mese). –