Pulire HTML con PHP per creare una stringa pulita

Ho un mucchio di dati HTML che sto scrivendo in un file PDF usando PHP. Nel PDF, voglio che tutto il codice HTML venga rimosso e ripulito. Così, per esempio:Pulire HTML con PHP per creare una stringa pulita

<ul> 
    <li>First list item</li> 
    <li>Second list item which is quite a bit longer</li> 
    <li>List item with apostrophe 's 's</li> 
</ul>

dovrebbe diventare:

First list item 
Second list item which is quite a bit longer 
List item with apostrophe 's 's

Tuttavia, se semplicemente uso strip_tags(), ho qualcosa di simile:

First list item&#8232; 

    Second list item which is quite a bit 
longer&#8232; 

    List item with apostrophe &rsquo;s &rsquo;s

Si noti inoltre il rientro della produzione.

Qualche suggerimento su come pulire correttamente l'HTML con stringhe piacevoli e pulite senza spazi vuoti e caratteri strani?

Grazie :)

fonte

2012-05-04 Rein

Dubito che 'strip_tags()' solo codifichi le tue entità. Sei sicuro di non perdere una chiamata a 'htmlentities' da qualche parte? – Yoshi

Il rientro è esattamente quello che mi aspetterei, PHP sta tagliando i tag, ma non il testo extra che li circonda. – scragar

Vuoi dire che * dovrei * o * non dovrei * usare htmlentities() da qualche parte? In questo momento non lo sono. I dati HTML provengono direttamente da un database. – Rein

è possibile decodificare il risultato di strip_tags usando html_entity_decode o rimuoverli utilizzando preg_replace:

$text = strip_tags($html_text); 
$content = preg_replace("/&#?[a-z0-9]{2,8};/i","",$text);

e per rimuovere gli spazi bianchi dall'inizio delle linee utilizzano ltrim:

$content = join("\n", array_map("ltrim", explode("\n", $content)));

per mantenere gli apostrofi utilizzare invece:

$text = strip_tags($html_text); 
$text = str_replace("&rsquo;","'", $text); 
$content = preg_replace("/&#?[a-z0-9]{2,8};/i","",$text);

fonte

2012-05-04 07:37:12

È grandioso! Quasi lì. L'unica cosa è che gli apostrofi ora sono completamente spariti. Può essere risolto con un aggiustamento minore? – Rein

hai utilizzato html_entity_decode o preg_replace? –

Ho usato preg_replace come nella tua risposta. – Rein

uso PHP Tidy libreria per pulire il codice HTML. Ma nel tuo caso userei la classe DOMDocument per ottenere dati da html.

fonte

2012-05-04 07:28:05

I caratteri sembrano entità html. Prova:

html_entity_decode(strip_tags($my_html_code));

fonte

2012-05-04 07:33:18 xCander

Per qualche ragione questo non li cambia ... – Rein

Perfetto, questo ha funzionato a meraviglia per quello che stavo avendo un problema con. – Railto

Pulire HTML con PHP per creare una stringa pulita

risposta

Problemi correlati