2010-01-03 15 views
7

Ho visto this question, che si concentra sul problema "Brittney Spears". Ma ho una domanda diversa. In che modo l'algoritmo determina quali parole o frasi devono essere classificate? Per esempio, se mando un tweet che dice "Michael Jackson è morto", come fa a tirare fuori "Michael Jackson" ma non "muore"?In che modo l'algoritmo degli argomenti di tendenza di Twitter decide quali parole estrarre dai tweet?

O supponiamo che Alec Baldwin e Steven Baldwin fossero nelle notizie quel giorno e quindi sono stati entrambi citati in molti tweet. Come saprebbe trattare entrambi i nomi in modo diverso invece di tirare fuori "Baldwin"?

Fatto ingenuamente, ho potuto vedere questo problema come NP-completo (dovresti confrontare tutte le potenziali frasi nel tweet con tutte le potenziali frasi nei tweet di tutti gli altri).

risposta

2

Una soluzione generale a questo problema è con "term frequency, inverse document frequency" (tf-idf).

È un approccio statistico che trova parole/termini che sono più pertinenti di altri perché non vengono visti molto spesso. In questo caso, il nome "Michael Jackson" potrebbe avere una frequenza molto bassa rispetto a una parola inglese comune "morto".

Per quanto riguarda Alec Baldwin vs Steven Baldwin - questi sarebbero identificati come separati durante part-of-speech tagging - sarebbero etichettati come nomi propri individuali.

2

Credo che cerchi serie di parole comuni. Inoltre, sembra che stiano facendo riferimento a http://www.whatthetrend.com/

Oltre a questo, potrebbe esserci anche un leggero controllo umano.

Problemi correlati