estrazione Termine: Generatings tag su testo

Come ottenere gli stessi risultati come http://developer.yahoo.com/search/content/V1/termExtraction.html estrazione Termine: Generatings tag su testo

Questa domanda è stato chiesto un bel paio di volte prima.

Cercando di affrontare questo problema con le soluzioni esistenti sono incappato in "Text Analysis" Solr esegue sul documento prima di indicizzazione come descritto in http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters - che include anche lo stemming

Quindi l'indice finale consisterà principalmente di termini usati per descrivere il documento.

Esiste una soluzione che fornisce analizzatori, tokenizer e filtri token per l'uso diretto? Se Solr è la via d'uscita, qual è il modo migliore per ottenere questi dati dall'indice di Solr?

fonte

2009-07-08 Sukumar

Solr è un modo per creare un motore di ricerca personalizzato. Non sembra essere lo strumento giusto per il lavoro. Gli elenchi Wikipedia article about term extraction nella relativa sezione "collegamenti esterni" diverse applicazioni Web per l'estrazione di termini. OpenNLP ha una lista di strumenti che possono essere utili. Its Chunker potrebbe essere utile.

fonte

2009-07-09 09:04:15

sì, i termini Solr restituiranno solo i token univoci (forse meno alcune parole comuni e facendo derivazioni, ecc.). In realtà non ti dirà cosa è significativo nel testo. Per quello che vale puoi succhiare i termini da solr tramite il http://wiki.apache.org/solr/TermsComponent – mlathe

Basta chiedere i termini analizzati, ad es.

http://localhost:8983/solr/terms?terms.fl=text&terms.sort=count&terms.limit=-1

Vedi TermsComponent per maggiori informazioni.

fonte

2016-02-29 14:57:40

estrazione Termine: Generatings tag su testo

risposta

Problemi correlati