2013-10-03 13 views
7

Qualcuno ha alcuna esperienza con Stata e Hadoop? Stata 13 ora ha uno Java Plugin API, quindi penso che dovrebbe essere semplice farli giocare bene.Hadoop e Stata

Sono particolarmente interessato a poter analizzare i dati weblog per ottenere in una forma adatta per l'analisi statistica.

Questa domanda è arrivata fino al on Statalist di recente, ma non c'è stata risposta, quindi ho pensato di provare qui dove è più probabile che il pubblico abbia esperienza con questa tecnologia.

+0

Come da lungo tempo sostenitore statalista, trovo il confronto, anche se ben inteso, un po 'odiosa. La mia ipotesi è che non si ottiene alcuna risposta perché la risposta è "No". –

+0

@Nick Cox non intendevo insultare. Ho un grande rispetto per Statalist e i suoi membri. Cambierò il mio scomodo fraseggio. –

+0

Bene e grazie. –

risposta

1

Dimitry,

penso che sarebbe più facile fare qualcosa di simile utilizzando l'ELK Stack (http://www.elastic.co). Logstash (lo strato centrale) ha diversi parser/tokenizers/analisi costruite sul motore di Apache Lucene per i dati di pulizia e di registro formattazione e possono spingere i dati risultanti in elasticsearch, che espone un'API HTTP che si può arricciare abbastanza facilmente per ottenere risultati (ad esempio, , usa insheetjson e passa la richiesta HTTP GET come URL e dovrebbe essere importata in Stata senza molti problemi).

Ho cercato di unire un programma per utilizzare la libreria Jackson JSON per creare funzionalità di I/O JSON più robuste all'interno di Stata e non ci dispiacerebbe assolutamente provare a lavorare con gli altri per farlo.

Spero che questo aiuti, Billy

0

mi prendo un (dis?) Pugnalata educato a questo. Dall'aspetto dell'API java, il chiamante sembra considerare Stata essenzialmente un datastore. Se questo è il caso, quindi mi immagino Stata si adatterebbe al mondo di Hadoop come un database e sarebbe accessibile dal proprio InputFormat e OutputFormat. Nel tuo caso specifico, immagino che scriverebbe uno StataOutputFormat che il tuo riduttore userebbe per scrivere i dati analizzati. L'unico inconveniente sembra essere i tuoi commenti di riferimento che le applicazioni Stata tendono ad essere di I/O bound, quindi non so che utilizzando Hadoop è davvero essere di aiuto in quanto

  • dovrete scrivere tutti i dati in ogni caso, e
  • che scrivere sarà I/o associato, se si utilizza Hadoop o no.