2012-09-27 17 views
7

Test del motore regex di PHP, vedo che considera solo i caratteri di parola solo [0-9A-Za-z_]. Le lettere di lingue non ASCII, come l'ebraico, non corrispondono a caratteri di parole con [\w]. Esistono sequenze di escape regolari in PHP o Perl che corrisponderanno a una lettera in qualsiasi lingua? Potrei aggiungere intervalli per ogni alfabeto che mi aspetto di usare, ma gli utenti ci sorprenderanno sempre con linguaggi inaspettati!Regex per caratteri word in qualsiasi lingua

Si noti che questo non è per il filtro di sicurezza, ma piuttosto per la tokenizzazione di un testo.

risposta

1

Prova \p{L}. Corrisponde a qualsiasi tipo di lettera da qualsiasi lingua. Se non si desidera utilizzare il set di caratteri [].

Problemi correlati