Vedo che c'è un convertitore chiamato WordToHtmlConverter
ma il metodo di processo non è esposto. Come devo passare un file doc e ottenere il file HTML (o OutputStream
)?Converti Word in HTML con Apache POI
risposta
Questo codice ora funziona per me!
HWPFDocumentCore wordDocument = WordToHtmlUtils.loadDoc(new FileInputStream("D:\\temp\\seo\\1.doc"));
WordToHtmlConverter wordToHtmlConverter = new WordToHtmlConverter(
DocumentBuilderFactory.newInstance().newDocumentBuilder()
.newDocument());
wordToHtmlConverter.processDocument(wordDocument);
Document htmlDocument = wordToHtmlConverter.getDocument();
ByteArrayOutputStream out = new ByteArrayOutputStream();
DOMSource domSource = new DOMSource(htmlDocument);
StreamResult streamResult = new StreamResult(out);
TransformerFactory tf = TransformerFactory.newInstance();
Transformer serializer = tf.newTransformer();
serializer.setOutputProperty(OutputKeys.ENCODING, "UTF-8");
serializer.setOutputProperty(OutputKeys.INDENT, "yes");
serializer.setOutputProperty(OutputKeys.METHOD, "html");
serializer.transform(domSource, streamResult);
out.close();
String result = new String(out.toByteArray());
System.out.println(result);
Posso ottenere tutto il codice per questo ...? –
Grazie Ron. Il tuo suggerimento mi ha salvato. Ho provato il campione fornito ma salta immagini, tabelle e contenuti all'interno di diagrammi (come la scatola). C'è un modo per estrarre anche quello. Ho visto alcuni esempi per estrarre le immagini separatamente. C'è un modo per stare tutti insieme. Altrimenti possiamo mettere quelle immagini, tabelle come esattamente nella posizione del file originale. Mezzi per soddisfare il requisito "rendering di file doc come contenuto HTML" (non saltare immagini, tabelle, diagrammi ecc.) –
- 1. Converti fogli di calcolo Excel in HTML utilizzando la libreria POI Apache
- 2. Interruzioni pagina apache poi
- 3. Converti documento Word in XSL-FO
- 4. Prestazioni POI Apache
- 5. Apache POI rows number
- 6. Converti PDF in HTML
- 7. Crea elenco puntato su documento word utilizzando Java con API POI Apache
- 8. POI Apache: SXSSFWorkbook.dispose() inesistente
- 9. Formato data apache poi
- 10. Importazione di dati CSV con POI Apache
- 11. Utilizzo di Apache Poi per analizzare la tabella all'interno di una tabella in un documento word
- 12. Apache POI SXSSF e XSSF
- 13. Apache POI valuta Data Format
- 14. Apache POI Errore di analisi
- 15. Converti Word docx in Excel usando OpenXML
- 16. iTextSharp - Converti word doc/docx in pdf
- 17. Apri EXISTING xls in POI Apache
- 18. Converti documento Word in PDF utilizzando Java
- 19. Impostazione larghezza colonna in POI Apache
- 20. Java: POI Apache: posso ottenere testo pulito dai file MS Word (.doc)?
- 21. Office HTML Word header
- 22. Infinite pagine fasulle in uscita docx usando Apache Poi
- 23. come impostare i margini della pagina per il documento word usando apache poi?
- 24. Converti CSS in HTML
- 25. Converti HTML in markdown
- 26. Converti HTML in XAML
- 27. Imposta formato data utilizzando Apache POI
- 28. Esistono alternative all'utilizzo di POI Apache Java per Microsoft Office?
- 29. Apache POI Streaming (SXSSF) per la lettura
- 30. Jython autonomo: errore di importazione (Apache-POI)
è questo che stai chiedendo? http://stackoverflow.com/questions/227236/convert-word-doc-to-html-programmatically-in-java – enrique2334
Non è ... In POI Apache hanno una nuova classe nel pacchetto org.apache.poi .hwpf.converter per gestirlo ... ma non è stato possibile trovare alcun tutorial su come usarli. – Ron