non identificato spazio bianco in Java

sull'estrazione di alcuni HTML da una pagina web, ho alcuni elementi contenenti testo che terminano con un carattere di spaziatura sconosciuta o non-matching (ovvero non corrisponde "\\ s"):non identificato spazio bianco in Java

<span>Monday </span>

in Java, di controllare ciò che questo personaggio è, sto facendo:

String s = getTheSpanContent(); 
char c = s.charAt(s.length() -1); 
int i = (int) c;

e il valore di i è: 160

Qualcuno sa di cosa si tratta? E come posso farcela?

Grazie

fonte

2009-11-09 Richard H

Partita come? Hai bisogno della regex o hai intenzione di usare un altro metodo. Inoltre, cosa stai cercando di ottenere abbinandolo? Possiamo dare risposte migliori con più informazioni. –

È un non-breaking space. Secondo lo Pattern Javadocs, \\s corrisponde a [ \t\n\x0B\f\r], quindi dovrai aggiungere esplicitamente \xA0 alla tua espressione regolare se desideri abbinarlo.

fonte

2009-11-09 17:47:21

ok, grazie - questo si collega con il sorgente html. Anche la soluzione di Joel qui sotto funziona. –

quindi il mio regex per la corrispondenza di tutti gli spazi bianchi inc. non-breaking è: "[\\ s \\ xA0] +" - sembra funzionare. evviva aiuto. –

Ecco \u00A0, noti anche come spazio unificatore. Se conosci l'HTML, capirai che è lo stesso spazio rappresentato da  . Apparentemente lo si usava al posto di uno spazio normale.

fonte

2009-11-09 17:46:20 BalusC

ok questo ha senso. Riesco a vedere nella fonte - ma il mio parser lo stava convertendo in questo personaggio che non corrispondeva a \\ s. evviva –

Non è chiaro dalla tua domanda che stavi cercando un modello regex per abbinare il particolare personaggio. Ad ogni modo, è bene sapere che il decimale 160 equivale all'esagono A0 in modo che tu sappia quale codice esadecimale usare nelle tabelle delle espressioni regolari e in codice univoco :) – BalusC

Provare a utilizzare questo spazio bianco per abbinare

Character.isSpaceChar(c) || c <= ' ';

fonte

2009-11-09 17:49:17 Joel

Ho fatto questo foglio di calcolo, una volta visualizzare alcune delle diverse definizioni di spazi utilizzati in Java. È piuttosto affascinante (se sei strano come me).

http://spreadsheets.google.com/pub?key=pd8dAQyHbdewRsnE5x5GzKQ

Per inciso, CharMatcher.WHITESPACE di Guava tracce il più recente standard Unicode 5.x, ed è quindi spesso una scelta migliore rispetto ai metodi JDK.

http://guava-libraries.googlecode.com

fonte

2009-11-09 21:45:41

non identificato spazio bianco in Java

risposta

Problemi correlati