Metodo rubino per rimuovere gli accenti dai caratteri internazionali UTF-8

Sto tentando di creare una copia "normalizzata" di una stringa, per ridurre i nomi duplicati in un database. I nomi contengono molti caratteri internazionali (ad esempio lettere accentate) e voglio creare una copia con gli accenti rimossi.Metodo rubino per rimuovere gli accenti dai caratteri internazionali UTF-8

Ho trovato il metodo di seguito, ma non riesco a farlo funzionare. Non riesco a trovare quello che è il plug-in Unicode Hacks.

# Utility method that retursn an ASCIIfied, downcased, and sanitized string. 
    # It relies on the Unicode Hacks plugin by means of String#chars. We assume 
    # $KCODE is 'u' in environment.rb. By now we support a wide range of latin 
    # accented letters, based on the Unicode Character Palette bundled inMacs. 
    def self.normalize(str) 
    n = str.chars.downcase.strip.to_s 
    n.gsub!(/[Ã Ã¡Ã¢Ã£Ã¤Ã¥ÄÄ?]/u, 'a') 
    n.gsub!(/Ã¦/u,     'ae') 
    n.gsub!(/[ÄÄ?]/u,    'd') 
    n.gsub!(/[Ã§Ä?ÄÄ?Ä?]/u,   'c') 
    n.gsub!(/[Ã¨Ã©ÃªÃ«Ä?Ä?Ä?Ä?Ä?]/u, 'e') 
    n.gsub!(/Æ?/u,     'f') 
    n.gsub!(/[ÄÄ?Ä¡Ä£]/u,   'g') 
    n.gsub!(/[Ä¥Ä§]/,    'h') 
    n.gsub!(/[Ã¬Ã¬ÃÃ®Ã¯Ä«Ä©Ä]/u,  'i') 
    n.gsub!(/[Ä¯Ä±Ä³Äµ]/u,   'j') 
    n.gsub!(/[Ä·Ä¸]/u,    'k') 
    n.gsub!(/[Å?Ä¾ÄºÄ¼Å?]/u,   'l') 
    n.gsub!(/[Ã±Å?Å?Å?Å?Å?]/u,  'n') 
    n.gsub!(/[Ã²Ã³Ã´ÃµÃ¶Ã¸ÅÅ?ÅÅ]/u, 'o') 
    n.gsub!(/Å?/u,     'oe') 
    n.gsub!(/Ä?/u,     'q') 
    n.gsub!(/[Å?Å?Å?]/u,    'r') 
    n.gsub!(/[Å?Å¡Å?ÅÈ?]/u,   's') 
    n.gsub!(/[Å¥Å£Å§È?]/u,   't') 
    n.gsub!(/[Ã¹ÃºÃ»Ã¼Å«Å¯Å±ÅÅ©Å³]/u,'u') 
    n.gsub!(/Åµ/u,     'w') 
    n.gsub!(/[Ã½Ã¿Å·]/u,    'y') 
    n.gsub!(/[Å¾Å¼Åº]/u,    'z') 
    n.gsub!(/\s+/,     ' ') 
    n.gsub!(/[^\sa-z0-9_-]/,   '') 
    n 
    end

Devo 'richiedere' una particolare libreria/gemma? O forse qualcuno potrebbe raccomandare un altro modo per farlo.

Non sto utilizzando Rails, né ho intenzione di farlo.

fonte

2013-03-28 Gus Shortz

Quale versione rubino stai usando? – Huluk

Dai uno sguardo a http://stackoverflow.com/questions/1268289/how-to-get-rid-of-non-ascii-characters-in-ruby – MurifoX

puoi anche consultare: https://github.com/norman/unidecoder –

148

Io generalmente uso I18n per gestire questa situazione:

1.9.3p392 :001 > require "i18n" 
=> true 
1.9.3p392 :002 > I18n.transliterate("Hé les mecs!") 
=> "He les mecs!"

fonte

2013-03-29 03:29:43 user2398029

[La documentazione] (http://api.rubyonrails.org/classes/ActiveSupport/Inflector.html#method -i-traslitterare). Essere in grado di impostare le traslitterazioni su base per locale è anche molto potente. –

Questo sembra essere quello che sto cercando. Grazie. –

Proprio sotto il mio naso. Grazie mille! – Trip

Finora il seguente è l'unico modo sono stato in grado di realizzare quello che mi serve:

str.tr(
"ÀÁÂÃÄÅàáâãäåĀāĂăĄąÇçĆćĈĉĊċČčÐðĎďĐđÈÉÊËèéêëĒēĔĕĖėĘęĚěĜĝĞğĠġĢģĤĥĦħÌÍÎÏìíîïĨĩĪīĬĭĮįİıĴĵĶķĸĹĺĻļĽľĿŀŁłÑñŃńŅņŇňŉŊŋÒÓÔÕÖØòóôõöøŌōŎŏŐőŔŕŖŗŘřŚśŜŝŞşŠšſŢţŤťŦŧÙÚÛÜùúûüŨũŪūŬŭŮůŰűŲųŴŵÝýÿŶŷŸŹźŻżŽž", 
"AAAAAAaaaaaaAaAaAaCcCcCcCcCcDdDdDdEEEEeeeeEeEeEeEeEeGgGgGgGgHhHhIIIIiiiiIiIiIiIiIiJjKkkLlLlLlLlLlNnNnNnNnnNnOOOOOOooooooOoOoOoRrRrRrSsSsSsSssTtTtTtUUUUuuuuUuUuUuUuUuUuWwYyyYyYZzZzZz")

Ma usando questo si sente molto 'hacker', e mi piacerebbe trovare un modo migliore.

fonte

2013-03-29 03:21:21

Funziona solo per ISO-8859-1. Cosa ti fa pensare che funzioni per UTF-8? – pts

Questo funziona per UTF-8 e Ruby 2.2.3 e fa esattamente ciò di cui avevo bisogno. Manca però qualche personaggio rumeno. Li ho ADED: 'string.tr ( "ÀÁÂÃÄÅàáâãäåĀāĂăĄąÇçĆćĈĉĊċČčÐðĎďĐđÈÉÊËèéêëĒēĔĕĖėĘęĚěĜĝĞğĠġĢģĤĥĦħÌÍÎÏìíîïĨĩĪīĬĭĮįİıĴĵĶķĸĹĺĻļĽľĿŀŁłÑñŃńŅņŇňŉŊŋÒÓÔÕÖØòóôõöøŌōŎŏŐőŔŕŖŗŘřŚśŜŝŞşŠšŞşsŢţŤťŦŧŢţÙÚÛÜùúûüŨũŪūŬŭŮůŰűŲųŴŵÝýÿŶŷŸŹźŻżŽž", "AAAAAAaaaaaaAaAaAaCcCcCcCcCcDdDdDdEEEEeeeeEeEeEeEeEeGgGgGgGgHhHhIIIIiiiiIiIiIiIiIiJjKkkLlLlLlLlLlNnNnNnNnnNnOOOOOOooooooOoOoOoRrRrRrSsSsSsSsSssTtTtTtTtUUUUuuuuUuUuUuUuUuUuWwYyyYyYZzZzZz")' – Alexander

Metodo rubino per rimuovere gli accenti dai caratteri internazionali UTF-8

risposta

Problemi correlati