Ho un documento word (2003). Sto usando Powershell per analizzare il contenuto del documento. Il documento contiene alcune righe di testo in alto, una dozzina di tabelle con un numero diverso di colonne e quindi un po 'più di testo.Leggi contenuto documento word (* .doc) con tabelle ecc.
mi aspetto di essere in grado di leggere il documento come qualcosa di simile al seguito:
- Leggi documento (rendere gli oggetti necessari, ecc)
- ottenere ogni riga di testo
- Se non parte di una tabella , processo di uscita dalla scrittura del testo e
- altro
- Se parte di una tabella numero di tabella
- Get (in ordine) e analizzare l'output sulla base di Col umns
- fine se
Di seguito è lo script PowerShell che ho cominciato a scrivere:
$objWord = New-Object -Com Word.Application
$objWord.Visible = $false
$objDocument = $objWord.Documents.Open($filename)
$paras = $objDocument.Paragraphs
foreach ($para in $paras)
{
Write-Output $para.Range.Text
}
Io non sono sicuro se i paragrafi è quello che voglio. C'è qualcosa di più adatto al mio scopo? Tutto quello che sto ottenendo ora è l'intero contenuto del documento. Come controllo ciò che ottengo. Come se volessi ottenere una linea, essere in grado di determinare se fa parte di una tabella o meno e intraprendere un'azione in base a quale tabella numeri è.
documenti di Word non sono organizzati in linee. Per favore fai un passo indietro e descrivi il problema che stai cercando di risolvere piuttosto che ciò che percepisci come la soluzione. –
Certo - grazie per aver risposto ... Quindi ho questo documento word che contiene del testo e circa 5 o 6 tabelle. Ogni tabella ha un numero variabile di colonne da 2 a 6. La prima riga di ogni tabella descrive l'intestazione. Quello che sto cercando di realizzare è (usando Powershell) per leggere il documento, analizzare il contenuto delle tabelle e produrre istruzioni SQL che possono essere eseguite separatamente su un database Oracle. Ora ho molti di questi documenti e ognuno di loro ha una struttura simile. Ma ognuno può avere più o meno righe nelle tabelle. – Anoop