2010-02-09 13 views
9

In PHP, qual è il modo più elegante per ottenere l'elenco completo (array di stringhe) di tutti gli Unicode whitespace characters codificati in utf8?Il modo più semplice per ottenere un elenco completo di tutti i caratteri di spaziatura UTF-8 in PHP

Mi serve per generare i dati di test.

+1

Se si desidera che si sostituisca in una stringa, dare un'occhiata a '\ p {Z}' all'interno delle espressioni regolari: http://www.regular-expressions.info/unicode.html –

risposta

9

This email contiene un elenco di tutti i caratteri di spazi bianchi Unicode codificati in UTF-8, UTF-16 e HTML.

modificare

Originariamente risposero 9 febbraio '10 (!). Davvero ragazzi, se le informazioni sono obsolete, è possibile aggiungere la propria risposta, piuttosto che lamentarsi. Solo Google per l'URL citato nella mia risposta, e guadagnare un po 'rep:

La posta è stato archiviato here (mi ha preso secondi), e la tabella spazio bianco è nemmeno menzionato nell'introduzione

static $whitespace = array(
    "SPACE" => "\x20", 
    "NO-BREAK SPACE" => "\xc2\xa0", 
    "OGHAM SPACE MARK" => "\xe1\x9a\x80", 
    "EN QUAD" => "\xe2\x80\x80", 
    "EM QUAD" => "\xe2\x80\x81", 
    "EN SPACE" => "\xe2\x80\x82", 
    "EM SPACE" => "\xe2\x80\x83", 
    "THREE-PER-EM SPACE" => "\xe2\x80\x84", 
    "FOUR-PER-EM SPACE" => "\xe2\x80\x85", 
    "SIX-PER-EM SPACE" => "\xe2\x80\x86", 
    "FIGURE SPACE" => "\xe2\x80\x87", 
    "PUNCTUATION SPACE" => "\xe2\x80\x88", 
    "THIN SPACE" => "\xe2\x80\x89", 
    "HAIR SPACE" => "\xe2\x80\x8a", 
    "ZERO WIDTH SPACE" => "\xe2\x80\x8b", 
    "NARROW NO-BREAK SPACE" => "\xe2\x80\xaf", 
    "MEDIUM MATHEMATICAL SPACE" => "\xe2\x81\x9f", 
    "IDEOGRAPHIC SPACE" => "\xe3\x80\x80", 
); 
+0

oh! Manca i due che sto cercando. x2028, separatore di riga e limite di paragrafo x2029 – ppostma1

+0

Carica il messaggio da qualche altra parte. Questo collegamento non funziona –

+2

Collegamento interrotto. Questo è il motivo per cui dovresti ** sempre ** copiare le informazioni dal link, rendendo la risposta autonoma e non vulnerabile ai link non funzionanti. – cprcrack

3

http://en.wikipedia.org/wiki/Space_%28punctuation%29#Spaces_in_Unicode

Sfortunatamente, non fornisce UTF-8, ma ha il carattere nella pagina Web, quindi puoi tagliare e incollare nel tuo editor (se salva in UTF-8). In alternativa, http://www.fileformat.info/info/unicode/char/180E/index.htm fornisce UTF-8 (sostituire "180E" con il valore UTF-16 esadecimale che si sta cercando).

Questo dà anche un paio di caratteri in più che l'eccellente risposta di @ devio manca.

3

Anni dopo, questa domanda ha ancora i risultati migliori su Google quando si cercano caratteri di uno spazio bianco unicode. la risposta di devio è grande, ma incompleta. Momento in cui scriviamo (ottobre 2017) Wikipedia ha una lista di caratteri di spaziatura qui: https://en.wikipedia.org/wiki/Whitespace_character

Questa lista ha specifica di 25 punti di codice, mentre le liste di risposta attualmente accettate 18. Compresi gli altri sette punti di codice, la lista è:

U+0009 character tabulation 
U+000A line feed 
U+000B line tabulation 
U+000C form feed 
U+000D carriage return 
U+0020 space 
U+0085 next line 
U+00A0 no-break space 
U+1680 ogham space mark 
U+180E mongolian vowel separator 
U+2000 en quad 
U+2001 em quad 
U+2002 en space 
U+2003 em space 
U+2004 three-per-em space 
U+2005 four-per-em space 
U+2006 six-per-em space 
U+2007 figure space 
U+2008 punctuation space 
U+2009 thin space 
U+200A hair space 
U+200B zero width space 
U+200C zero width non-joiner 
U+200D zero width joiner 
U+2028 line separator 
U+2029 paragraph separator 
U+202F narrow no-break space 
U+205F medium mathematical space 
U+2060 word joiner 
U+3000 ideographic space 
U+FEFF zero width non-breaking space 
Problemi correlati