C# Alternative a Tika

Qualcuno sa di qualsiasi alternativa C# a TiKa in grado di estrarre testo da HTML, PDF, ecc.?C# Alternative a Tika

2010-06-24 Jesse

alcune domande non dovrebbero essere rapidamente chiusi sotto l'accusa di off-topic, dal mio parere tali azioni sono molto irresponsabile e influenzano la qualità dei servizi forniti da SO sito – Alrehamy

d'accordo, questione del tutto valida che avrebbe probabilmente aiutato qualcuno che cerca la risposta. – Jesse

Ho una necessità simile ... Ho un progetto .Net in cui ho bisogno di estrarre il testo da vari file (.XLS, .DOC, .PDF, ecc.), Per l'indicizzazione con Lucene. Net

This blog post sembra essere esattamente quello che sto cercando: Un wrapper .Net attorno al file .jar!

sto implementando ora, ma se non funziona allora io aggiornare la mia risposta qui ...

Edit: Ok, tocca, in esecuzione, e funziona bene (se un poco lentamente). C'è un po 'di brutta dipendenza che litiga con i bit IKVM, ma è la migliore alternativa che ho trovato.

fonte

2010-09-15 12:59:04 NeilD

Sembra promettente. Darò un colpo. Grazie! – Jesse

Sono l'autore del post sul blog menzionato. Il risultato di questo post è il progetto TikaOnDotnet. Puoi saperne di più a questo link. https://kevm.github.io/tikaondotnet/ – KevM

La tua domanda è un po 'vaga, ma per l'analisi dell'HTML puoi usare lo Html Agility Pack che ti dà accesso DOM completo al codice HTML e consente di estrarre gli elementi usando le espressioni XPath.

fonte

2010-06-24 16:16:16

Vago no, conciso sì. Tika è un text extratter/parser che estrarrà il testo che userò con Lucene per l'indicizzazione. Sto cercando qualcosa del genere per C#. – Jesse

-1

È possibile utilizzare Lucene.Net e provare alcuni parser .... Ho appena trovato questo blog che ha alcuni link interessanti ... Spero che aiuti!

http://kalanir.blogspot.com.ar/2008/08/indexing-pdf-documents-with-lucene.html

fonte

2013-03-09 18:34:36

Ho implementato un quadro chiamato Toxy. È basato su .NET e più facile da usare rispetto a Tika. Si prega di visitare http://toxy.codeplex.com

fonte

2014-01-11 09:34:14

C# Alternative a Tika

risposta

Problemi correlati