Come rimuovere 4 byte utf-8 caratteri in Ruby?

Poiché utf8 di MySQL non supporta caratteri a 4 byte, sto cercando un modo per rilevare ed eliminare qualsiasi carattere utf8 da 4 byte di una stringa in Ruby. Capisco che posso aggiornare il mio tavolo per utilizzare utf8m4 ma per un paio di motivi che non è possibile o la soluzione desiderata.Come rimuovere 4 byte utf-8 caratteri in Ruby?

Semplicemente la codifica della stringa in ASCII rimuoverà questi caratteri ma rimuoverà anche tutti gli altri caratteri non ASCII, il che non è buono.

fonte

2013-05-10 JZC

Quanto segue sembra funzionare per me in Ruby 1.9.3:

input.each_char.select{|c| c.bytes.count < 4 }.join('')

Ad esempio:

input = "hello \xF0\xA9\xB6\x98 world"     # includes U+29D98 
input.each_char.select{|c| c.bytes.count < 4 }.join('') # 'hello world'

fonte

2013-05-10 17:31:33

Grazie! Sembra ovvio ora che lo hai suggerito. Ero così profondamente a pensare alle codifiche, non pensavo di guardare semplicemente il conteggio dei byte di ogni personaggio. – JZC

Come è la performance di questo con una stringa lunga? Più di 5000 caratteri? –

grazie grazie grazie ... non personalmente preoccupato per le prestazioni, per il momento sono felice di avere una soluzione funzionante – steve

Come rimuovere 4 byte utf-8 caratteri in Ruby?

risposta

Problemi correlati