Qualcuno sa di qualsiasi alternativa C# a TiKa in grado di estrarre testo da HTML, PDF, ecc.?C# Alternative a Tika
risposta
Ho una necessità simile ... Ho un progetto .Net in cui ho bisogno di estrarre il testo da vari file (.XLS, .DOC, .PDF, ecc.), Per l'indicizzazione con Lucene. Net
This blog post sembra essere esattamente quello che sto cercando: Un wrapper .Net attorno al file .jar!
sto implementando ora, ma se non funziona allora io aggiornare la mia risposta qui ...
Edit: Ok, tocca, in esecuzione, e funziona bene (se un poco lentamente). C'è un po 'di brutta dipendenza che litiga con i bit IKVM, ma è la migliore alternativa che ho trovato.
La tua domanda è un po 'vaga, ma per l'analisi dell'HTML puoi usare lo Html Agility Pack che ti dà accesso DOM completo al codice HTML e consente di estrarre gli elementi usando le espressioni XPath.
Vago no, conciso sì. Tika è un text extratter/parser che estrarrà il testo che userò con Lucene per l'indicizzazione. Sto cercando qualcosa del genere per C#. – Jesse
È possibile utilizzare Lucene.Net e provare alcuni parser .... Ho appena trovato questo blog che ha alcuni link interessanti ... Spero che aiuti!
http://kalanir.blogspot.com.ar/2008/08/indexing-pdf-documents-with-lucene.html
Ho implementato un quadro chiamato Toxy. È basato su .NET e più facile da usare rispetto a Tika. Si prega di visitare http://toxy.codeplex.com
- 1. Apache Tika maxStringLength raggiunto
- 2. Apache Tika e Json
- 3. Alternative EasyHook per C#
- 4. SQLite Alternative per C++
- 5. Alternative a WPF?
- 6. Esistono alternative gratuite a Silktest?
- 7. alternative a jpivot?
- 8. Alternative a GNU diff?
- 9. Alternative a CKAN
- 10. Alternative a HtmlAgilityPack?
- 11. Alternative a YQL
- 12. Alternative a underscore.js
- 13. Alternative a xargs -l
- 14. Alternative a WCF
- 15. Esistono alternative a XmlUnit?
- 16. Alternative a JUnit
- 17. Alternative a tight_layout()
- 18. Alternative a NumPy einsum
- 19. Esistono alternative a OData?
- 20. Alternative a Inflector.Net
- 21. Alternative ORM a ActiveRecord
- 22. Alternative leggere a NHibernate
- 23. Alternative a Applescript?
- 24. Alternative a VXML (VoiceXML)?
- 25. Alternative a window.scrollMaxY?
- 26. Alternative a gettext?
- 27. Alternative a SKShapeNode
- 28. Alternative a Autoconf e Autotools?
- 29. Successore/alternative a 2D XNA?
- 30. Come utilizzare Tika in modalità server
alcune domande non dovrebbero essere rapidamente chiusi sotto l'accusa di off-topic, dal mio parere tali azioni sono molto irresponsabile e influenzano la qualità dei servizi forniti da SO sito – Alrehamy
d'accordo, questione del tutto valida che avrebbe probabilmente aiutato qualcuno che cerca la risposta. – Jesse