2013-03-19 11 views

risposta

10

Un argomento è molto diverso da un cluster di documenti, dopo tutto, un argomento non è composto da documenti.

Tuttavia, queste due tecniche sono effettivamente correlate. Credo che il Topic Modeling sia un modo valido per decidere come documenti simili siano, quindi un modo valido per il clustering dei documenti.

Nel rappresentare ciascun documento come una distribuzione di argomenti (in realtà un vettore), le tecniche di modellazione argomento riducono la dimensionalità della feature dal numero di parole distinte visualizzate (in un corpus) al numero di argomenti. La similarità tra le distribuzioni degli argomenti dei documenti può essere calcolata utilizzando le metriche Cosine e molte altre metriche, che riflettono la somiglianza dei documenti stessi in termini di argomenti/temi che trattano. Sulla base di questa misura di similarità quantificata, è possibile applicare molti algoritmi di clustering per raggruppare i documenti.

E in questo senso, penso sia giusto dire che la modellazione di argomenti è una tecnica per fare clustering di documenti.

1

La relazione tra clustering e classificazione è molto simile alla relazione tra modellazione dell'argomento e classificazione multi-label.

Nella classificazione multi-classe con etichetta singola, viene assegnata una sola etichetta per ogni documento. E nel raggruppamento mettiamo ogni documento in un solo gruppo. Il fatto è che non possiamo definire in anticipo i cluster mentre definiamo le etichette. Se ignoriamo questo fatto, il raggruppamento e l'etichettatura sono essenzialmente la stessa cosa.

Tuttavia, nei problemi del mondo reale la classificazione piatta non è sufficiente. Spesso i documenti sono legati a più categorie/classi. Quindi sfruttiamo la classificazione multi-label. Ora, possiamo vedere la modellazione dell'argomento come la versione non supervisionata della classificazione multi-etichetta in quanto possiamo mettere ogni documento in più gruppi/argomenti. Anche in questo caso, sto ignorando il fatto che non possiamo decidere quali argomenti utilizzare come etichette in anticipo.

Problemi correlati