Facendo un po 'di scavo, Hong and Davison (2010) si è presentato come un ottimo esempio di questi non funziona bene sulla classificazione dei tweet. Sfortunatamente, non danno davvero molte informazioni sul perché non funziona.
Sospetto che ci siano due motivi per cui la LDA non funziona bene per i documenti brevi.
Prima di tutto, quando si lavora su documenti più piccoli, il livello dell'argomento aggiuntivo non aggiunge nulla alla classificazione e ciò che non aiuta probabilmente fa male. Se si dispone di documenti molto brevi, come i tweet, è davvero difficile suddividere i documenti in argomenti. Dopotutto, in un tweet non c'è molto spazio per altro che un argomento. Poiché il livello dell'argomento non può contribuire molto alla classificazione, fa sì che si verifichi un errore nel sistema.
Secondo, dal punto di vista linguistico, gli utenti di Twitter preferiscono eliminare il "inutile fluff" durante il tweeting. Quando si lavora con documenti completi, ci sono caratteristiche - parole, collocazioni di parole, ecc. - che sono probabilmente specifici, comuni e spesso ripetuti all'interno di un genere. Quando tweeting, però, questi elementi comuni vengono eliminati prima perché ciò che è interessante, nuovo e più perplesso è ciò che rimane quando viene rimosso il fluff.
Per esempio, diamo un'occhiata a myowntweets perché credo nella sfacciata auto-promozione:
Progressbar.py is a fun little package, though I don't get
a chance to use it too often. it even does ETAs for you
https://pypi.python.org/pypi/progressbar …
From a capitalist perspective, the social sciences exist so
idiot engineers don't waste money on building **** no one needs.
Abstract enough to be reusable, specific enough to be useful.
La prima riguarda Python. Se stai analizzando gli URL, lo otterrai - e anche la .py lo darebbe a te. Tuttavia, in un mezzo più espressivo, probabilmente avrei messo la parola "Python" da qualche parte. Anche la seconda è legata alla programmazione, ma un po 'più alla fine aziendale. Non una volta nemmeno menziona qualcosa di specifico per la programmazione, però. Anche l'ultimo è legato alla programmazione, ma si lega maggiormente all'arte della programmazione, esprimendo una sorta di programmatore a doppio vincolo affrontato durante la codifica. È difficile come il secondo, in termini di funzionalità.
In entrambi gli ultimi due esempi, se non avessi scritto un post di microblog, questi sarebbero stati immediatamente seguiti da esempi che sarebbero stati molto utili per un classificatore, o se stessi includevano più dati. Twitter non ha spazio per quel genere di cose, però, e il contenuto che dovrebbe caratterizzare il genere a cui appartiene un tweet è spogliato.
Quindi, alla fine, abbiamo due problemi. La lunghezza è un problema per LDA, perché gli argomenti aggiungono un grado di libertà extra e non necessario ei tweets sono un problema per qualsiasi classificatore, poiché le funzionalità tipicamente utili nella classificazione vengono rimosse selettivamente dagli autori.
D'accordo con la tua idea che il livello argomento del documento di LDA non è necessario per i testi brevi. Vuoi ancora ulteriori spiegazioni, magari una procedura di ADL che va storta nel testo breve, o spiegarla in teoria? –