2010-06-24 19 views
9

Qualcuno sa di qualsiasi alternativa C# a TiKa in grado di estrarre testo da HTML, PDF, ecc.?C# Alternative a Tika

+1

alcune domande non dovrebbero essere rapidamente chiusi sotto l'accusa di off-topic, dal mio parere tali azioni sono molto irresponsabile e influenzano la qualità dei servizi forniti da SO sito – Alrehamy

+2

d'accordo, questione del tutto valida che avrebbe probabilmente aiutato qualcuno che cerca la risposta. – Jesse

risposta

2

Ho una necessità simile ... Ho un progetto .Net in cui ho bisogno di estrarre il testo da vari file (.XLS, .DOC, .PDF, ecc.), Per l'indicizzazione con Lucene. Net

This blog post sembra essere esattamente quello che sto cercando: Un wrapper .Net attorno al file .jar!

sto implementando ora, ma se non funziona allora io aggiornare la mia risposta qui ...

Edit: Ok, tocca, in esecuzione, e funziona bene (se un poco lentamente). C'è un po 'di brutta dipendenza che litiga con i bit IKVM, ma è la migliore alternativa che ho trovato.

+0

Sembra promettente. Darò un colpo. Grazie! – Jesse

+0

Sono l'autore del post sul blog menzionato. Il risultato di questo post è il progetto TikaOnDotnet. Puoi saperne di più a questo link. https://kevm.github.io/tikaondotnet/ – KevM

2

La tua domanda è un po 'vaga, ma per l'analisi dell'HTML puoi usare lo Html Agility Pack che ti dà accesso DOM completo al codice HTML e consente di estrarre gli elementi usando le espressioni XPath.

+5

Vago no, conciso sì. Tika è un text extratter/parser che estrarrà il testo che userò con Lucene per l'indicizzazione. Sto cercando qualcosa del genere per C#. – Jesse

4

Ho implementato un quadro chiamato Toxy. È basato su .NET e più facile da usare rispetto a Tika. Si prega di visitare http://toxy.codeplex.com