2011-02-04 15 views
13

Sono uno studente laureato in informatica (Data mining e machine learning) e ho una buona esposizione al core Java (> 4 anni). Ho letto un sacco di cose su Hadoop e Map/ReduceHadoop Machine learning/Idea del progetto di data mining?

Ora vorrei fare un progetto su questa roba (nel mio tempo libero) per ottenere una migliore comprensione.

Qualsiasi buona idea di progetto sarebbe molto apprezzata. Voglio solo fare questo per imparare, quindi non mi interessa davvero reinventare la ruota. Inoltre, qualsiasi cosa relativa al data mining/apprendimento automatico sarebbe un ulteriore vantaggio (si adatta alla mia ricerca) ma assolutamente non necessario.

+0

Cosa intendi con il mining grafico? quali sono i tuoi interessi che vorresti imparare/costruire/migliorare? Ho alcuni suggerimenti, ma voglio prima attendere i tuoi campi di interesse personale ... – Sam

+0

Con il mining grafico, intendevo che ho lavorato su problemi di ottimizzazione su grafici di grandi dimensioni (Flicker, DBLP) e sto attualmente lavorando su alcune analisi dei grafici di social network tra cui argomento modellazione nei dati di Twitter e anche su approssimazioni di matrice di basso livello di grandi grafici. Anche in caso contrario, sono interessato ai problemi di machine learning e data mining in particolare. Tuttavia, per Hadoop sto cercando un progetto non banale ma non di ricerca che posso fare nel mio tempo libero, solo per avere una migliore comprensione. – dreamer13134

risposta

8

Non hai scritto nulla sul tuo interesse. So che gli algoritmi nel mining grafico sono stati implementati su framework hadoop. Questo software http://www.cs.cmu.edu/~pegasus/ e la carta: "PEGASUS: Un sistema di estrazione del grafico a scala di peta - Implementazione e osservazioni" può dare il punto di partenza.

Inoltre, questo collegamento discute qualcosa di simile alla tua domanda: http://atbrox.com/2010/02/08/parallel-machine-learning-for-hadoopmapreduce-a-python-example/ ma è in python. E, c'è un ottimo articolo di Andrew Ng "Map-Reduce for Machine Learning su Multicore".

C'è stato un workshop NIPS 2009 su argomenti simili "Machine Learning su larga scala: parallelismo e serie di dati massivi". Puoi sfogliare un po 'della carta e avere un'idea.

Edit: Inoltre v'è Apache Mahout http://mahout.apache.org/ -> "I nostri algoritmi di base per il clustering, classfication e lotti a base di filtraggio collaborativo sono implementati in cima Apache Hadoop utilizzando la mappa/ridurre paradigma"

+0

Grazie mille per i suggerimenti. Lo apprezzo. – dreamer13134

+0

Fondamentalmente mi sono concentrato sull'apprendimento automatico, sul routing grafico nei miei maestri e sto cercando di imparare il hadoop come ulteriore set di abilità. Ho partecipato a progetti come Mahout, ma mi piacerebbe costruire qualcosa da solo per ottenere una comprensione più profonda e alcuni sviluppi di software su larga scala. – dreamer13134

1

perché non contribuiscono a Apache Hadoop/Mahout aiutandoli a implementare algoritmi aggiuntivi?

https://cwiki.apache.org/confluence/display/MAHOUT/Algorithms

ha una serie di algoritmi contrassegnate come "aperto". Per quanto ne so, potrebbero usare l'aiuto per implementarle? E ci sono centinaia di algoritmi che mancano da questa lista.

Con qualsiasi mezzo, dal momento che si desidera fare qualcosa con Hadoop, perché non si chiede a di cosa hanno bisogno invece di chiedere su qualche sito internet casuale?

0

Cercare di pensare a un modo efficiente per implementare il clustering gerarchico agglomerato su Hadoop è un buon progetto su cui lavorare. Non riguarda solo aspetti algoritmici, ma ha anche avuto ottimizzazioni relative al framework core hadoop.

Problemi correlati