comando bash per convertire la pagina html in un file di testo

Sono un principiante di Linux. Per favore, aiutami a convertire una pagina html in un file di testo. il file di testo rimuoverà qualsiasi immagine e link dalla pagina web. Voglio usare solo comandi bash e non html per gli strumenti di conversione del testo. Ad esempio, voglio convertire i risultati della ricerca google della prima pagina per "computer".comando bash per convertire la pagina html in un file di testo

Grazie

fonte

2012-09-14 The Coder

[Che cosa hai provato] (http://mattgemmell.com/2008/12/ 08/cosa-sono-si-provato /)? – ghoti

Probabilmente non riuscirai a farlo solo con "comandi bash", probabilmente avrai almeno "sed" o "awk". Non dicendo che non è possibile fare con semplici buildh bash, ma certamente non è fattibile. – lanzz

ho usato python-boilerpipe e funziona molto bene, finora ...

fonte

2012-09-15 00:00:59

Hai html2text sulla riga di comando.

Usage: html2text.py [(filename|url) [encoding]]

Options: 
    --version    show program's version number and exit 
    -h, --help   show this help message and exit 
    --ignore-links  don't include any formatting for links 
    --ignore-images  don't include any formatting for images 
    -g, --google-doc  convert an html-exported Google Document 
    -d, --dash-unordered-list 
         use a dash rather than a star for unordered list items 
    -b BODY_WIDTH, --body-width=BODY_WIDTH 
         number of characters per output line, 0 for no wrap 
    -i LIST_INDENT, --google-list-indent=LIST_INDENT 
         number of pixels Google indents nested lists 
    -s, --hide-strikethrough 
         hide strike-through text. only relevent when -g is 
         specified as well

fonte

2012-09-14 10:41:22 Farid

penso link è lo strumento più comune per fare questo. Controlla i collegamenti man e cerca testo semplice o simile. -Dump è la mia ipotesi, cerca anche quello. Il software viene fornito con la maggior parte delle distribuzioni.

fonte

2012-09-14 10:51:17 sapht

Il modo più semplice è quello di utilizzare qualcosa di simile, che la discarica (in breve è la versione testo HTML visualizzabile)

file remoto

lynx --dump www.google.com > file.txt 
links -dump www.google.com

file locale

lynx --dump ./1.html > file.txt 
links -dump ./1.htm

fonte

2012-09-14 10:57:53 Vahid

Ho appena installato lynx per fare questo, e tutto quello che ottengo è l'HTML originale scaricato ... – Alex

https://linux.die.net/man/1/lynx Potrebbe essere un bug insicuro, so che funzionava – Vahid

Leggere la pagina di commento: '-dump: dump l'output formattato del documento predefinito'-- Prendo il comando" formattato "significa, con tutti i tag html ... – Alex

Usando sed

sed -e 's/<[^>]*>//g' foo.html

fonte

2012-09-14 11:01:28

Grazie.questo è veramente utile tuttavia, ciò non ha funzionato quando lo schema <....> è più di una riga. –

Produrrà anche il contenuto di elementi come

in ubuntu/debian html2text è una buona scelta. http://linux.die.net/man/1/html2text

fonte

2015-06-17 02:20:27 Ascatgz

su OSX è possibile utilizzare lo strumento da riga di comando chiamato textutil per convertire in batch file html in formato txt:

textutil -convert txt *.html

fonte

2015-09-17 01:24:33

Problemi correlati

comando bash per convertire la pagina html in un file di testo

risposta

Problemi correlati