Mi è stata data un'esportazione da un database MySQL che sembra aver avuto la codifica un po 'confusa nel tempo e contiene un mix di HTML char codes
come & uuml;
e altri caratteri problematici che rappresentano le stesse lettere, ad esempio ü
e Ã
. È mio compito riportare una certa consistenza al file e inserire tutto nei caratteri latini corretti, ad es. ú
e ó
.Conversione di caratteri speciali come ü e Ãdi nuovo al loro corrispettivo originale alphbet latino in C#
Un esempio del tipo di stringa che sto trattando è
Desinfektionslösungstücher für Flächen
Che dovrebbe equivalere a
50 Tattoo Desinfektionsl ö sungst ü cher f ü r Fl ä chen
50 Tattoo Desinfektionsl ö sungst ü cher f ü r Fl ä chen
Esiste un metodo disponibile in C# /. Net 4.5 che ricodificherà correttamente i mi piace di ü
e Ã
t o UTF-8
?
Altrimenti quale approccio sarebbe consigliabile?
È inoltre il carattere di paragrafo ¶
nella stringa di esempio precedente un carattere di paragrafo effettivo o parte di qualche altra combinazione di caratteri?
Ho creato una tabella di ricerca in caso di necessità di trovare e sostituire che è inferiore, tuttavia non sono sicuro di quanto sia completo.
É -> É
“ -> "
†-> "
Ç -> Ç
à -> Ã
é, 'é
à -> ú -> ú
• -> -
Ø -> Ø
õ -> õ
à -> í
â -> â
ã -> ã
ê -> ê
á -> á
é -> é
ó -> ó
– -> –
ç -> ç
ª -> ª
º -> º
à -> à
Punto di pedanteria: 'ü' e' Ã' non sono "caratteri speciali" esattamente, ma ** [Mojibake] (https://en.wikipedia.org/wiki/Mojibake) **. – Boann
@Boann ped away ... interessante –
A parte il tuo post è in qualche modo fuorviante, dopo aver riparato i dati ho ottenuto "Desinfektionslösungstücher für Flächen", che sembra essere corretto ma nel tuo risultato previsto hai spazi. – Esailija