Test del motore regex di PHP, vedo che considera solo i caratteri di parola solo [0-9A-Za-z_]
. Le lettere di lingue non ASCII, come l'ebraico, non corrispondono a caratteri di parole con [\w]
. Esistono sequenze di escape regolari in PHP o Perl che corrisponderanno a una lettera in qualsiasi lingua? Potrei aggiungere intervalli per ogni alfabeto che mi aspetto di usare, ma gli utenti ci sorprenderanno sempre con linguaggi inaspettati!Regex per caratteri word in qualsiasi lingua
Si noti che questo non è per il filtro di sicurezza, ma piuttosto per la tokenizzazione di un testo.
Molto bello, grazie. Ho anche dovuto aggiungere il modificatore 'u' per farlo funzionare. – dotancohen