Ho un sito Web in cui gli utenti caricano documenti in formato .doc e .pdf. Sto usando Sphinx per condurre ricerche full text sul mio database SQL (MySQL). Qual è il modo migliore per indicizzare questi formati di file con Sphinx?Documenti di Word di indicizzazione e PDF con Sfinge
risposta
Sfortunatamente, Sfinge non è in grado di indicizzare questi tipi di file direttamente. Avrai bisogno di importare il contenuto testuale in un database, o in an XML format that Sphinx can understand.
Il metodo che utilizzo per questo è pdf2text e antiword. Io uso entrambi di questi per scaricare il contenuto dei pdf e dei documenti di parole nel database. Da lì è facile gattonare con Sfinge.
Sto usando lo stesso metodo come te e il suo lavoro per me. – Johny
Qualcuno ha utilizzato Tika per indicizzare altri tipi di documenti, proprio come il plugin SOLR? Apache Tika
Alcuni link:
- 1. Come generare documenti di Microsoft Word utilizzando Sfinge
- 2. Posso leggere documenti PDF o Word con Node.js?
- 3. Aggiunta di spazio verticale nei documenti Sfinge
- 4. Generazione di documenti word con PHP
- 5. Sfinge temi PDF
- 6. Sitecore 7 pdf indicizzazione
- 7. Unisci documenti Microsoft Word con TortoiseSVN
- 8. sfinge aggiungi un'interruzione di pagina nel mio pdf con latexpdf?
- 9. Generazione di documenti word (.doc/.odt) tramite C++/Qt
- 10. Estrai testo da file pdf e word
- 11. Salvataggio di file DOCX di Word come PDF
- 12. Utilizzo di Process.Start per stampare documenti senza mostrare Word
- 13. Come caricare immagini, documenti Word e/o file PDF tramite Paperclip rotaie 4
- 14. Indicizzazione .PDF, .XLS, .DOC, .PPT utilizzando Lucene.NET
- 15. Creazione di un nuovo PDF unendo documenti PDF usando TCPDF
- 16. Come incorporiamo le immagini nei documenti sfinge?
- 17. vettori di indicizzazione e array con +:
- 18. API di creazione documenti di Word in Java
- 19. Come creare documentazione PDF con Sfinge in Windows
- 20. Fare Sfinge produrre blocchi di codice untypogrified in output PDF
- 21. unire più documenti di Word in un Open XML
- 22. confrontando a livello di codice i documenti word
- 23. Visualizzazione di documenti PDF su iPad - Problemi di colore
- 24. iTextSharp - Converti word doc/docx in pdf
- 25. Converti a livello di codice Word (docx) in PDF
- 26. Quale semplice sistema di gestione dei documenti?
- 27. Crea file PDF/Word (Doc) nell'app
- 28. Esportare tabelle jsp per Excel, word, pdf
- 29. Salva incorporato Word Doc in PDF
- 30. Converti documento Word in PDF utilizzando Java
Consiglieresti un metodo rispetto ad un altro? –
Dipende dal linguaggio sul lato server che si sta utilizzando. Se si tratta di Ruby/Rails, so che tutte le librerie non supportano XML out of the box, a meno che non si stia costruendo un sistema da zero (invece di usare ActiveRecord). Quindi userei il database. Altrimenti, dipende completamente da te. Se non stai usando Ruby, dai un'occhiata a quali librerie sono disponibili per la tua lingua preferita, guarda cosa possono/non possono fare. – pat