Ciò dipende in gran parte dalla lingua (e dal motore regex) che si sta utilizzando.
In Perl, \w
corrisponde a tutti i caratteri di parole, indipendentemente dalla lingua o dall'alfabeto e qualcosa come /\b(\w+)\b/
corrisponderebbe (probabilmente) alle parole spagnole e alle parole inglesi o alle parole russe.
Nelle lingue che utilizzano PCRE, \w
(e quindi probabilmente \b
) NON corrispondere ai caratteri Unicode. Probabilmente avrai bisogno di costruire il tuo set. Suggerisco qualcosa come [\wáéíóúñ]
(corrisponde a tutti i caratteri di parole, più i caratteri accentati desiderati), e la libreria PCRE deve essere pre-costruita con supporto Unicode prima che funzioni anche.
Se stai usando qualcos'altro, buona fortuna. Alcuni motori regex non supportano nemmeno Unicode.
fonte
2009-05-22 04:51:48