cerco di aprire un file .csv codifica UTF-8 che contiene (tradizionali) i caratteri cinesi in R. Per qualche ragione, R visualizza le informazioni a volte come i caratteri cinesi, a volte come unicode personaggi.Visualizzazione codifica UTF-8 caratteri cinesi in R
Per esempio:
data <-read.csv("mydata.csv", encoding="UTF-8")
data
produrrà caratteri Unicode, mentre:
data <-read.csv("mydata.csv", encoding="UTF-8")
data[,1]
sarà effettivamente visualizzare i caratteri cinesi.
Se lo trasformo in una matrice, visualizzerà anche caratteri cinesi, ma se provo a guardare i dati (comando Visualizza (dati) o correzione (dati)) è di nuovo in unicode.
ho chiesto consiglio da parte di persone che fanno uso di un Mac (sto usando un PC, Windows 7), e alcuni di loro ho caratteri cinesi in tutto, altri no. Ho provato a salvare invece i dati originali come tabella e a leggerli in R in questo modo, lo stesso risultato. Ho provato a eseguire lo script in RStudio, Revolution R e RGui. Ho provato a regolare la localizzazione (ad es. In cinese), ma R non mi ha permesso di cambiarla, altrimenti il risultato era senza senso invece di caratteri unicode.
mio locale corrente è:
"LC_COLLATE = French_Switzerland.1252; LC_CTYPE = French_Switzerland.1252; LC_MONETARY = French_Switzerland.1252; LC_NUMERIC = C; LC_TIME = French_Switzerland.1252"
Qualsiasi aiuto per ottenere R per visualizzare in modo coerente i caratteri cinesi sarebbe molto apprezzato ...
Hm, questo si presenta come un bug. Per chi fosse interessato, è facilmente riproducibile con questo codice: 'x = c ('中華民族'); x; data.frame (x)'.Non provare a incollare quel codice nell'Editor R, incollalo nella console o non funzionerà. – nograpes
Vedere la mia risposta su http://stackoverflow.com/questions/22876746/how-to-read-data-in-utf-8-format-in-r – Sathish