Ho guardato in modo tokenization è implementato in scikit-learn e abbiamo trovato questo regex (source):Cosa fa "(? U)" in un'espressione regolare?
token_pattern = r"(?u)\b\w\w+\b"
L'espressione regolare è piuttosto semplice, ma non ho mai visto la parte (?u)
prima. Qualcuno può spiegarmi cosa sta facendo questa parte?
È equivalente al flag 're.U' – vaultah
E sembra piuttosto specifico per Python. –
@sln: puoi elaborare per favore? – fwind