Sto cercando qualcosa in Java per leggere nei documenti di Word per elaborare il loro testo .. tutto ciò di cui ho bisogno è il testo, niente di speciale. So di Apache POI, tuttavia non include il supporto per DOCX in questo momento, qualcosa là fuori?Leggere documenti Microsoft Word in testo normale (DOC, DOCX) in Java
risposta
Con un po 'di google ho trovato OpenXML4J. Questo potrebbe risolvere il tuo problema. Non l'ho usato prima di essere sicuro che qualcuno nella comunità avrà una visione migliore.
Nota: Questa è una domanda duplicata. Questo ha la soluzione più un po 'di discussione. Link to the question.
Se non si richiedono informazioni di formattazione, immagini e tutte le altre cose di fantasia, il lavoro è molto più semplice. Basteranno solo 5-10 righe di codice.
- Trattare DOCX come file zip. Consiste in un mucchio di file che include 'document.xml'. Usa ZipInputStream ed estrai il file da solo. (puoi usare la tua utility zip preferita e aprire docx e vedere tu stesso!)
- Usa un parser SAX e leggi i contenuti tra il corpo del nodo/p/r/t - voilà hai il testo!
Questo è applicabile solo se è necessario il testo solo.
Ciao Joseph, puoi scrivere qui il codice breve? Sarebbe di grande aiuto per me ... –
Si potrebbe provare docx4j; vedi http://dev.plutext.org/svn/docx4j/trunk/docx4j/src/main/java/org/docx4j/TextUtils.java
Prova apache poi - può gestire doc, docx, xls, xlsx, ppt, pptx.
Un'altra soluzione a livello di produzione è OpenOffice in modalità senza testa che può essere utilizzata anche in uno scenario lato server.
- 1. iTextSharp - Converti word doc/docx in pdf
- 2. Come leggere il documento Doc o Docx in java?
- 3. come leggere i file .doc, .docx, .xls in android
- 4. Java - Converti file doc/docx in chm file
- 5. Converti file di documenti o docx di Word in file di testo?
- 6. Converti DOC/DOCX in PNG
- 7. Converti file doc Word in docx su un server senza Word
- 8. Unisci documenti Microsoft Word con TortoiseSVN
- 9. Come leggere il documento doc e docx in java con POI api
- 10. Come leggere le informazioni sui metadati dai documenti docx?
- 11. Generazione di documenti word (.doc/.odt) tramite C++/Qt
- 12. Come condividere documenti odt/doc oltre git
- 13. Come generare documenti di Microsoft Word utilizzando Sfinge
- 14. Numero di pagine in una parola doc in java
- 15. Aprire un file di Word protetto da password in Java?
- 16. Stili personalizzati in linea in Microsoft Word
- 17. Salva incorporato Word Doc in PDF
- 18. come pulire microsoft html doc?
- 19. Conversione da HTML a odt, doc, docx
- 20. Generazione di documenti word con PHP
- 21. Converti Word docx in Excel usando OpenXML
- 22. base PowerShell - convertire in batch Word Docx in PDF
- 23. Converti DOCX in PDF in modo programmatico senza Word installato?
- 24. convertire la parola docx in doc senza utilizzare ole automation
- 25. Come visualizzare PDF o Word DOC/DOCX nella finestra di WinForms?
- 26. Impossibile aprire Word doc con COM in PHP
- 27. Dove trovare lo schema (file XSD) per Microsoft DOCX formato
- 28. Come leggere il gruppo di forme come immagine dal documento di Word (.doc o .docx) usando apachePOI?
- 29. API di creazione documenti di Word in Java
- 30. Rendering di un documento Microsoft Word su una pagina Web
È ragionevole mantenere entrambe le domande, dato che si sta chiedendo del formato di documento Word e di un altro Excel? Possono essere due sottoinsiemi di una specifica di formato documento più grande, sinceramente non lo so. –
Credo che sia un duplicato perché ogni domanda si domanda su Office 2007 java api. L'altra domanda, IMHO, risponde alla posta. :) – XanderLynn