Ho un feed da cui estrarre i dati in un database da. Fornisce i dati in formato XML. Tuttavia, i dati includono caratteri "illegali". Per esempio:Caratteri non validi nei dati di feed XML
A GREAT NEIGHBOURHOOD – WITH A
o
large “country style†eat-in
o
Garage 14’x32’, large
o
OR…….ENDLESS POSSIBILITIES!!
La mia domanda è prima, come faccio a identificare la codifica di questi personaggi, e secondo, come posso cambiare la codifica in mat il formato UTF8 previsto dal mio database?
MODIFICA: Per essere chiari, non vi è alcun database coinvolto in questo processo (a questo punto del processo, comunque). I dati verranno inseriti successivamente nel DB, ma al momento sto solo leggendo i dati tramite uno script PHP e stampandolo sullo schermo usando var_dump
.
EDIT 2: i dati vengono tirato da un feed RET utilizzando il PHRETS libreria PHP
Qual è il problema esatto? Il feed non dichiara la propria codifica, sia con ' Xml version =" 1.0 "encoding =" utf-8 "?>' O con le intestazioni HTTP? –
@ ÁlvaroGonzález-- no, la codifica non è dichiarata-- si presume che sia UTF8 sebbene alcuni fornitori di feed non abbiano davvero ragione. – user101289
Ma quei caratteri assomigliano all'UTF-8 attuale, essendo interpretati erroneamente come ISO-8859-1: -? –