2009-07-08 10 views
5

Come ottenere gli stessi risultati come http://developer.yahoo.com/search/content/V1/termExtraction.htmlestrazione Termine: Generatings tag su testo

Questa domanda è stato chiesto un bel paio di volte prima.

Cercando di affrontare questo problema con le soluzioni esistenti sono incappato in "Text Analysis" Solr esegue sul documento prima di indicizzazione come descritto in http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters - che include anche lo stemming

Quindi l'indice finale consisterà principalmente di termini usati per descrivere il documento.

Esiste una soluzione che fornisce analizzatori, tokenizer e filtri token per l'uso diretto? Se Solr è la via d'uscita, qual è il modo migliore per ottenere questi dati dall'indice di Solr?

risposta

4

Solr è un modo per creare un motore di ricerca personalizzato. Non sembra essere lo strumento giusto per il lavoro. Gli elenchi Wikipedia article about term extraction nella relativa sezione "collegamenti esterni" diverse applicazioni Web per l'estrazione di termini. OpenNLP ha una lista di strumenti che possono essere utili. Its Chunker potrebbe essere utile.

+0

sì, i termini Solr restituiranno solo i token univoci (forse meno alcune parole comuni e facendo derivazioni, ecc.). In realtà non ti dirà cosa è significativo nel testo. Per quello che vale puoi succhiare i termini da solr tramite il http://wiki.apache.org/solr/TermsComponent – mlathe

0

Basta chiedere i termini analizzati, ad es.

http://localhost:8983/solr/terms?terms.fl=text&terms.sort=count&terms.limit=-1 

Vedi TermsComponent per maggiori informazioni.