HTML all'interno di XML. Dovrei usare CDATA o codificare l'HTML

Sto usando XML per condividere contenuti HTML. AFAIK, ho potuto incorporare l'HTML:HTML all'interno di XML. Dovrei usare CDATA o codificare l'HTML

Codifica: non so se è completamente sicuro da usare. E dovrei decodificarlo di nuovo.
Usa sezioni CDATA: Potrei avere ancora problemi se il contenuto contiene il tag di chiusura "]]>" e alcuni caratteri esadecimali, credo. D'altra parte, il parser XML estrae le informazioni in modo trasparente per me.

Quale opzione dovrei scegliere?

AGGIORNAMENTO: il xml verrà creato in java e passato come una stringa a un servizio Web .net, dove sarà analizzato indietro. Pertanto devo essere in grado di esportare l'xml come stringa e caricarlo usando "doc.LoadXml (xmlString);"

fonte

2009-09-09 alberto

Le due opzioni sono quasi identiche. Qui ci sono i tuoi due scelte:

<html>This is &lt;b&gt;bold&lt;/b&gt;</html> 

<html><![CDATA[This is <b>bold</b>]]></html>

In entrambi i casi, si controlla la stringa per i caratteri speciali da sfuggiti. Molte persone fanno finta che le stringhe CDATA non abbiano bisogno di fuggire, ma come si fa notare, è necessario assicurarsi che "]]>" non scivoli senza caratteri di escape.

In entrambi i casi, il processore XML restituirà la stringa decodificata.

fonte

2009-09-09 10:59:41

L'unico motivo per cui sceglierei di non usare CDATA, è che di solito la maggior parte dei dati non richiede l'escape, ed è un disastro vedere così tanti wrapper CDATA sul testo che non hanno bisogno di escape.Il primo metodo indica che occasionalmente hai codifiche HTML, ma la maggior parte delle volte hai un testo pulito e senza wrapper non necessario. Naturalmente questo potrebbe essere diverso a seconda dei dati tipici. – AaronLS

CDATA per semplicità.

fonte

2009-09-09 09:37:56 Mohamed

Codifica funzionerà correttamente ed è affidabile. Puoi codificare sezioni codificate ecc. Senza alcuna difficoltà.

La decodifica verrà eseguita automaticamente da qualsiasi parser XML utilizzato per gestire il codice HTML codificato.

fonte

2009-09-09 09:38:44

Penso che la risposta dipenda da cosa si intende fare con il contenuto HTML e anche dal tipo di contenuto HTML che si intende supportare.

Soprattutto quando si tratta di javascript incluso, la codifica comporta spesso problemi. CDATA ti aiuta sicuramente lì.

Se si prevede di utilizzare solo piccoli snippet (ad esempio un paragrafo) e avere un modo per pre-elaborarlo/filtrarlo (perché non si vuole comunque javascript o cose di fantasia), probabilmente starai meglio con la codifica o in realtà solo mettendolo direttamente come sottostruttura in xml. È quindi possibile anche post-elaborare l'html (ad esempio lo stile del filtro o gli attributi onclick). Ma questo è sicuramente più lavoro.

fonte

2009-09-09 09:44:09 Niko

Non so quale builder XML stai usando, ma PHP (in realtà libxml) sa come gestire ]]> all'interno delle sezioni CDATA, e così dovrebbe ogni altro framework XML. Quindi, userei una sezione CDATA.

fonte

2009-09-09 09:44:13

È possibile utilizzare la combinazione di entrambi. Ad esempio: si desidera passare <h1>....</h1> nel nodo xml per utilizzare la sezione CDATA per passarlo. I contenuti all'interno di <h1>...</h1> devono essere codificati in entità html come ad es. <, per <. La codifica tra tag risolverà il problema di]]> viene interpretato mentre viene convertito in ]]> e i tag html non contengono ]]>.

È possibile eseguire questa operazione solo se html viene generato da soli.

fonte

2009-09-09 09:59:07 Xinus

Ha senso avvolgere l'HTML in CDATA. Il testo HTML probabilmente costituirà un singolo valore in XML.

Quindi non averlo inserito in CDATA farà sì che tutti i parser xml lo leggeranno come parte del documento XML. Mentre è facile aggirare questo problema mentre si utilizza l'xml, perché il mal di testa in più?

Se si desidera effettivamente analizzare l'HTML in un DOM, è meglio leggere il testo HTML e impostare un parser per leggere il test separatamente.

Spero che sia uscito come volevo.

fonte

2009-09-09 10:04:17 jrharshath

CDATA è più facile da leggere a occhio aperto, mentre il contenuto codificato può contenere in modo sicuro i marcatori CDATA in esso, ma non devi preoccuparti. Basta usare una libreria XML e smettere di preoccuparsene. Quindi tutto quello che devi dire è "Metti questo testo dentro questo elemento" e la libreria lo codificherà o lo avvolgerà nei marcatori CDATA.

fonte

2009-09-09 10:15:04 Quentin

Personalmente, odio i segmenti CDATA, quindi preferisco usare la codifica. Ovviamente, se si aggiunge XML a XML in XML, ciò comporterebbe la codifica per la codifica rispetto alla codifica e quindi alcuni risultati molto illeggibili. Perché odio i segmenti CDATA? Vorrei sapere. Preferenza personale, per lo più Semplicemente non mi piace abituarmi ad aggiungere "personaggi proibiti" all'interno di un segmento speciale in cui a loro sarebbe improvvisamente permesso di nuovo. Mi confonde quando vedo il markup XML all'interno di un segmento CDATA e non fa parte dell'XML che lo circonda. Almeno con la codifica vedrò che è codificato.

Le buone librerie XML gestiscono sia la codifica che i segmenti CDATA in modo trasparente. Sono solo i miei occhi che si fanno male.

fonte

2009-09-09 10:56:37

Se il codice HTML è ben formato, è sufficiente incorporare i tag HTML senza eseguire l'escape o il wrapping in CDTATA. Se possibile, aiuta a mantenere i tuoi contenuti in XML. Ti dà più flessibilità per trasformare e manipolare il documento.

È possibile impostare uno spazio dei nomi per l'HTML, in modo da poter disambiguare i tag HTML dagli altri XML che lo avvolgono.

Il testo in escape indica che l'intero blocco HTML sarà un nodo di testo grande. Il wrapping in CDATA dice al parser XML di non analizzare quella sezione. Potrebbe essere "più facile", ma limita le tue capacità di downrange e dovrebbe essere impiegato solo quando appropriato; non solo perché è più conveniente. Escaped markup is considered harmful.

fonte

2009-09-09 11:09:01

HTML non è necessariamente XML valido (ad esempio, HTML non richiede tag di chiusura). Si assomigliano perché condividono SGML come loro antenato comune. L'unica opzione è davvero di scappare dai dati, o usare cdata. In caso contrario, il parser XML si arresterà in modo anomalo quando rileva il markup non valido. –

Se si utilizza CDATA, è necessario decodificarlo correttamente (textContent, value e innerHTML sono metodi che NON restituiscono i dati corretti).

diciamo che si utilizza una struttura XML simile a questo:

<response> 
    <command method="setcontent"> 
     <fieldname>flagOK</fieldname> 
     <content>479</content> 
    </command> 
    <command method="setcontent"> 
     <fieldname>htmlOutput</fieldname> 
     <content> 
      <![CDATA[ 
      <tr><td>2013/12/05 02:00 - 2013/12/07 01:59 </td></tr><tr><td width="90">Rastreado</td><td width="60">Placa</td><td width="100">Data hora</td><td width="60" align="right">Km/h</td><td width="40">Direção</td><td width="40">Azimute</td><td>Mapa</td></tr><tr><td>Silverado</td><td align='left'>CQK0052</td><td>05/12/2013 13:55</td><td align='right'>113</td><td align='right'>NE</td><td align='right'>40</td><td><a href="http://maps.google.com/maps?q=-22.6766,-50.2218&amp;iwloc=A&amp;t=h&amp;z=18" target="_blank">-22.6766,-50.2218</a></td></tr><tr><td>Silverado</td><td align='left'>CQK0052</td><td>05/12/2013 13:56</td><td align='right'>112</td><td align='right'>NE</td><td align='right'>23</td><td><a href="http://maps.google.com/maps?q=-22.6638,-50.2106&amp;iwloc=A&amp;t=h&amp;z=18" target="_blank">-22.6638,-50.2106</a></td></tr><tr><td>Silverado</td><td align='left'>CQK0052</td><td>05/12/2013 18:00</td><td align='right'>111</td><td align='right'>SE</td><td align='right'>118</td><td><a href="http://maps.google.com/maps?q=-22.7242,-50.2352&amp;iwloc=A&amp;t=h&amp;z=18" target="_blank">-22.7242,-50.2352</a></td></tr> 
      ]]> 
     </content> 
    </command> 
</response>

in javascript, allora si avrà decodificare caricando il xml (jquery, per esempio) in una variabile come xmlDoc qui sotto e quindi ottenere la nodeValue per il 2 ° avvenimento (item(1)) del tag content

xmlDoc.getElementsByTagName("content").item(1).childNodes[0].nodeValue

o (entrambe le notazioni sono equivalenti)

xmlDoc.getElementsByTagName("content")[1].childNodes[0].nodeValue

fonte

2013-12-06 16:26:59

HTML all'interno di XML. Dovrei usare CDATA o codificare l'HTML

risposta

Problemi correlati