Quale sarebbe la migliore espressione regolare per la tokenizzazione di un testo inglese?Regexp for Tokenizing English Text
Con un token inglese, si intende un atomo costituito dal numero massimo di caratteri che può essere utilizzato in modo significativo per scopi di pianificazione della rete. Un'analogia è un "token" in qualsiasi linguaggio di programmazione (ad esempio in C, '{', '[', 'hello', '&', ecc. Possono essere token). C'è una restrizione: sebbene i caratteri di punteggiatura inglesi possano essere "significativi", ignoriamoli per semplicità quando non appaiono nel mezzo di \ w +. Quindi, "Ciao, mondo." produce "buongiorno" e "mondo"; allo stesso modo, "Sei di bell'aspetto". può produrre o [tu, sei, di bell'aspetto] o [tu sei buono, bello].
Vedere [questa domanda] (http://stackoverflow.com/questions/992176/c-tokenize-a-string-using-a-regular-expression) sul tokening in C++ utilizzando Roost.Regex. – Lazer
possibile duplicato di [Vera definizione di una parola inglese?] (Http://stackoverflow.com/questions/3690195/true-definition-of-an-english-word) –
@OTZ in inglese cosa è un token se non a parola? –