L'associazione mineraria sembra dare buoni risultati per il recupero dei termini relativi in corpora di testo. Ci sono diversi lavori su questo argomento incluso il noto metodo LSA. Il modo più semplice per creare associazioni è quello di creare una matrice di co-occorrenza di docs X terms
e trovare i termini che si verificano più spesso negli stessi documenti. Nei miei progetti precedenti l'ho implementato direttamente in Lucene per iterazione su TermDocs (l'ho ottenuto chiamando lo IndexReader.termDocs(Term)). Ma non vedo nulla di simile in Solr.Qual è il modo più semplice per implementare i termini dell'associazione mining in Solr?
Quindi, le mie esigenze sono:
- Per recuperare i termini più associati all'interno particolare settore.
- Per recuperare il termine , quello più vicino a quello specificato all'interno di un campo particolare.
lo farò tasso risponde nel seguente modo:
- Idealmente mi piacerebbe trovare componente di Solr che copre in modo diretto le esigenze specificate, cioè qualcosa di ottenere direttamente termini associati.
- Se ciò non è possibile, sto cercando il modo per ottenere informazioni sulla matrice di occorrenza per il campo specificato.
- Se questa non è un'opzione troppo, mi piacerebbe sapere il modo più semplice per 1) ottenere tutti i termini e 2) ottenere IDS (numeri) dei documenti si verificano questi termini in.
Ho cercato su google l'argomento e Sto aspettando la risposta me stesso. A proposito, le capacità di clustering di Solr sono descritte come "un modo per raggruppare risultati/documenti semanticamente correlati". Non abbastanza vicino, giusto? – aitchnyu
Il clustering è una cosa leggermente diversa. Prima di tutto, funziona con i documenti, non con i termini, quindi non è possibile definire i termini del cluster (almeno non riesco a vedere alcun senso in termini di clustering e non conosco un modo semplice per farlo con Solr). Anche se sembra che la cosa opposta sia possibile: è possibile utilizzare l'associazione mining su termini per eseguire il clustering sui documenti. – ffriend