Come si rappresenta un carattere Unicode in una stringa letterale ISO/ANSI C quando il set di caratteri è ASCII?

In Perl, posso direCome si rappresenta un carattere Unicode in una stringa letterale ISO/ANSI C quando il set di caratteri è ASCII?

my $s = "r\x{e9}sum\x{e9}";

da assegnare a "résumé"$s. Voglio fare qualcosa di simile in C. In particolare, voglio dire

sometype_that_can_hold_utf8 c = get_utf8_char(); 
if (c < '\x{e9}') { 
    /* do something */ 
}

fonte

2009-09-14 Chas. Owens

Per UTF8, è necessario generare la codifica da soli, usando le regole trovate, ad esempio, here. Ad esempio, il tedesco sharp s (ß, punto di codice 0xdf), ha la codifica UTF8 0xc3,0x9f. Il tuo e-acute (é, code point 0xe9) ha una codifica UTF8 di 0xc3,0xa9.

E si può mettere caratteri esadecimali arbitrari nelle stringhe con:

char *cv = "r\xc3\xa9sum\xc3\xa9"; 
char *sharpS = "\xc3\x9f";

fonte

2009-09-14 14:18:49 paxdiablo

La notazione \ xHEX è ciò che stavo cercando, grazie. –

Se la variabile è sufficientemente ampia da contenere UTF-16, puoi dire \ x00e9? –

wchar_t è il tipo che si sta cercando: http://opengroup.org/onlinepubs/007908799/xsh/wchar.h.html

fonte

2009-09-14 14:17:45

Basta tenere a mente che questo è un * UNIX * spec (SUS), non fa parte di ISO C. Ho solo tirarlo su poiché non c'era un tag unix sulla domanda. – paxdiablo

Sono più interessato a come eseguire il rendering in testo ASCII in C, in Perl posso farlo dicendo "" \ x {e9} "'. Il problema è che la fonte è in ASCII, ma è necessario creare caratteri UTF-8. –

@Chas: Perché non utilizzare un UTF-8 come codifica del file sorgente? La maggior parte dei compilatori non dovrebbe avere alcun problema finché le sequenze multibyte si verificano solo all'interno di stringhe letterali ... – Christoph

Se si dispone di un compilatore C99 è possibile utilizzare <wchar.h> (e <locale.h>) e immettere il codice Unicode punta direttamente nella fonte.

$ cat wc.c

#include <locale.h> 
#include <stdio.h> 
#include <wchar.h> 

int main(void) { 
    const wchar_t *name = L"r\u00e9sum\u00e9"; 
    setlocale(LC_CTYPE, "en_US.UTF-8"); 
    wprintf(L"name is %ls\n", name); 
    return 0; 
}

$ /usr/bin/gcc -std=c99 -pedantic -Wall wc.c

$ ./a.out

name is résumé

fonte

2009-09-14 15:57:17 pmg

Mentre il codice sopra riportato funziona, è fondamentale menzionare che 'wchar_t' non è necessariamente in grado di rappresentare più locali contemporaneamente. Deve essere abbastanza ampio da supportare le impostazioni locali correnti. –

Come si rappresenta un carattere Unicode in una stringa letterale ISO/ANSI C quando il set di caratteri è ASCII?

risposta

Problemi correlati