preg_replace per rimuovere caratteri non stampabili sembra rimuovere anche tutti i caratteri stranieri

Sto utilizzando la regex seguente per rimuovere i caratteri di controllo non stampabili dall'input dell'utente prima di inserire i valori nel database.preg_replace per rimuovere caratteri non stampabili sembra rimuovere anche tutti i caratteri stranieri

preg_replace('/[\x00-\x1F\x80-\xFF]/', '', $value)

C'è un problema con l'utilizzo di questo sulle stringhe utf-8? Sembra rimuovere completamente tutti i caratteri non ascii.

fonte

2010-07-20 Greg

Parte del problema è che non si sta trattando il target come una stringa UTF-8; hai bisogno del modificatore /u per quello. Inoltre, in UTF-8 qualsiasi carattere non ASCII è rappresentato da due o più byte, tutti nell'intervallo \x80..\xFF. Prova questo:

preg_replace('/\p{Cc}+/u', '', $value)

\p{Cc} è la proprietà Unicode per i caratteri di controllo, e le u cause sia l'espressione regolare e la stringa di destinazione da trattare come UTF-8.

fonte

2010-07-20 23:26:07

Lascia dei caratteri validi al di fuori dell'intervallo ASCII, come i caratteri diactrici polacchi (come ąęćśńżź)? Sto cercando un'espressione regolare che rimuova le sequenze UTF-8 non valide (quindi MySQL non si lamenterà mentre inserisce una stringa di questo tipo nel database), ma lascia intatto tutto il resto. – pako

Penso che per quello dovresti usare ''/ \ P {Any}/u'' -' Any' dovrebbe essere auto-esplicativo, e '\ P {}' (maiuscolo) è la forma negata di '\ p {} '. Ma sarei più interessato a come quelle sequenze di byte non valide sono arrivate lì in primo luogo. –

È possibile utilizzare Unicode character properties

preg_replace('/[^\p{L}\s]/u','',$value);

(Do aggiungere le altre classi che si desidera lasciar passare)

Se si desidera ripristinare unicode in ASCII, in alcun modo Fullproof ma con alcune traduzioni curato:

echo iconv('utf-8','ascii//translit','éñó'); //prints 'eno'

fonte

2010-07-20 23:29:36 Wrikken

NOTA: l'URL sopra riportato non funziona e SO non mi consente di modificare la risposta; URL corretto è: http://php.net/manual/en/regexp.reference.unicode.php – DOOManiac

@DOOManiac: OK, grazie per averlo indicato, corretto l'URL. – Wrikken

preg_replace per rimuovere caratteri non stampabili sembra rimuovere anche tutti i caratteri stranieri

risposta

Problemi correlati