In che modo l'algoritmo degli argomenti di tendenza di Twitter decide quali parole estrarre dai tweet?

Ho visto this question, che si concentra sul problema "Brittney Spears". Ma ho una domanda diversa. In che modo l'algoritmo determina quali parole o frasi devono essere classificate? Per esempio, se mando un tweet che dice "Michael Jackson è morto", come fa a tirare fuori "Michael Jackson" ma non "muore"?In che modo l'algoritmo degli argomenti di tendenza di Twitter decide quali parole estrarre dai tweet?

O supponiamo che Alec Baldwin e Steven Baldwin fossero nelle notizie quel giorno e quindi sono stati entrambi citati in molti tweet. Come saprebbe trattare entrambi i nomi in modo diverso invece di tirare fuori "Baldwin"?

Fatto ingenuamente, ho potuto vedere questo problema come NP-completo (dovresti confrontare tutte le potenziali frasi nel tweet con tutte le potenziali frasi nei tweet di tutti gli altri).

fonte

2010-01-03 Jason Baker

Una soluzione generale a questo problema è con "term frequency, inverse document frequency" (tf-idf).

È un approccio statistico che trova parole/termini che sono più pertinenti di altri perché non vengono visti molto spesso. In questo caso, il nome "Michael Jackson" potrebbe avere una frequenza molto bassa rispetto a una parola inglese comune "morto".

Per quanto riguarda Alec Baldwin vs Steven Baldwin - questi sarebbero identificati come separati durante part-of-speech tagging - sarebbero etichettati come nomi propri individuali.

fonte

2010-01-03 19:35:01

Credo che cerchi serie di parole comuni. Inoltre, sembra che stiano facendo riferimento a http://www.whatthetrend.com/

Oltre a questo, potrebbe esserci anche un leggero controllo umano.

fonte

2010-01-03 19:37:39

In che modo l'algoritmo degli argomenti di tendenza di Twitter decide quali parole estrarre dai tweet?

risposta

Problemi correlati