2012-09-24 11 views
16

Può essere questa domanda è stato chiesto prima, ma penso che è bene considerare anche oggi dato che queste tecnologie hanno maturato. Stiamo cercando di utilizzare uno dei flume, Kafka, scriba, o altri per memorizzare lo streaming facebook e twitter informazioni sul profilo in HBase per fare analisi più tardi. Consideriamo il canale per lo scopo ma non ho lavorato con altre tecnologie per prendere una decisione informata. Chiunque riesca a far luce sarà fantastico! Molte grazie.canale artificiale vs Kafka vs altri

+0

quando si parla di canale artificiale, presumibilmente si fa riferimento al canale artificiale-ng? perché il vecchio canale è molto diverso dal flume-ng. Il collegamento – Shengjie

risposta

18

Mediawiki (Wikipedia) ha attraversato questo e pubblicato un bell'articolo di come sono arrivati ​​a loro scelta (Kafka) vs Scribe, Flume e altri.

http://www.mediawiki.org/wiki/Analytics/Kraken/Request_Logging

nuovo link:
https://wikitech.wikimedia.org/wiki/Analytics/Kraken/Logging_Solutions_Recommendation

sintesi per i posteri:.

"La nostra raccomandazione è Apache Kafka, un sistema di messaggistica pub-sub distribuito progettato per il throughput Abbiamo valutato su una dozzina [1] sistemi best-of-breed tratte dai domini della raccolta distribuita di registro, l'elaborazione CEP/ruscello, e sistemi di messaggistica in tempo reale. Anche se questi sistemi offrono surprisingl y caratteristiche simili, differiscono sostanzialmente nell'implementazione e ciascuna è specializzata in un particolare profilo di lavoro (una discussione tecnica più approfondita è disponibile come appendice).

"Kafka spicca perché è specializzato per il throughput e esplicitamente distribuito in tutti i livelli della sua architettura interessante, è anche abbastanza preoccupato con la conservazione delle risorse [2] per offrire compromessi ragionevoli che allentare le garanzie in cambio di prestazioni -. Qualcosa che potrebbe non colpire Facebook o Google come una caratteristica importante nei sistemi che progettano. I vincoli generano creatività

"Inoltre, Kafka ha diversi vantaggi di particolare interesse per i lettori di Operations. Mentre è scritto in Scala, le navi con un nativo C++ biblioteca produttore che possono essere incorporati in un modulo per i nostri server di cache, ovviando alla necessità di eseguire il JVM su quei server. In secondo luogo, i produttori possono essere configurati per richieste batch per ottimizzare il traffico di rete, ma non creare un registro locale persistente che richiederebbe una manutenzione aggiuntiva. L'I/O e l'utilizzo della memoria di Kafka sono lasciati al sistema operativo piuttosto che alla JVM [3].

"Kafka è stato scritto da LinkedIn e ora è un progetto Apache. In produzione a LinkedIn, circa 10.000 produttori sono gestite da otto server Kafka per data center. Questi ammassi consolidano i loro flussi in un unico analisi datacenter, che Kafka supporta fuori la casella tramite una semplice configurazione mirroring

"Queste caratteristiche sono una misura molto adatto per i nostri casi di utilizzo previsti.; anche quelli che non intendiamo utilizzare - come il sharding e il routing per categorie "topic" - sono interessanti e potrebbero rivelarsi utili in futuro, mentre espandiamo i nostri obiettivi.

"Il resto di questo documento si tuffa in questi argomenti in modo più dettagliato ..."

+0

sembra essere interrotto ora. – tehAon