Rappresentazione e una buona misura di somiglianza tra i tweet per il rilevamento degli argomenti

Ho intenzione di scrivere uno strumento per il rilevamento degli argomenti su Twitter. Ho pensato a una buona misura di similarità (a distanza) tra due tweet, e come rappresentarli, prendendo nella conta:Rappresentazione e una buona misura di somiglianza tra i tweet per il rilevamento degli argomenti

Il #hashtags (credo hashtags sono molto importanti quando rileva argomenti su Twitter)
le risposte (se qualcuno risponde ad un Tweet, questi tweets potrebbe essere parlando della stessa tema, anche se due persone potrebbero iniziare a parlare di Samsung Galaxy e finiscono a parlare di iphone jailbreaking, ecc.)

Sto pensando di implementare quello che ho finora e fare alcuni esperimenti. Io implementare i modelli classici (come TF*IDF e utilizzare la distanza euclidea , angolo di coseno, etc.), ed i modelli booleani con alcune misure di similarità (Hamming, Jaccard, etc.).

Qualche idea su come adattare un modello esistente a Twitter o qualche idea su come crearne uno nuovo?

fonte

2013-02-06 Oscar Mederos

Similarity Metrics on Twitter discute alcuni dettagli sulle diverse misure di similarità che è possibile utilizzare per raggruppare i dati da Twitter insieme. Abbiamo fatto alcune ricerche sugli utenti di cluster su twitter in base alle connessioni degli utenti, alle menzioni degli utenti, alla geo-localizzazione, alla somiglianza dei contenuti tra tweet, alla somiglianza dei contenuti tra le descrizioni degli utenti e agli #hashtags comuni.

Per trovare argomenti comuni su Twitter, trovare collegamenti tra gli utenti che parlano degli argomenti è di grande aiuto e abbiamo scoperto che il gruppo di utenti tende a discutere un argomento comune. Vi sono alcuni dettagli a riguardo nella seconda metà di this post.

fonte

2013-02-06 11:48:22

Grazie per la risposta. Daremo un'occhiata a quegli articoli ora :) –

Ciao Pulkit, hai un articolo che descrive un lavoro che hai fatto riguardo a questo che posso leggere? – KillBill

Rappresentazione e una buona misura di somiglianza tra i tweet per il rilevamento degli argomenti

risposta

Problemi correlati