2013-05-27 15 views
5

Ho una pagina web che accetta file CSV. Questi file possono essere creati in una varietà di luoghi. (Penso) non ci sia modo di specificare la codifica in un file CSV - quindi non posso trattarli in modo affidabile come utf-8 o qualsiasi altra codifica.È possibile "annusare" la codifica dei caratteri?

C'è un modo per indovinare in modo intelligente la codifica del CSV che ottengo? Sto lavorando con Python, ma sono disposto a lavorare anche con metodi agnostici linguistici.

+2

Ci sono modi, come a lungo possibile vivi con rilevamenti errati, perché non esiste un modo sicuro al 100% per indovinare la codifica. –

+0

possibile duplicato di [Esiste una funzione della libreria Python che tenta di indovinare la codifica dei caratteri di alcuni byte?] (Http://stackoverflow.com/questions/269060/is-there-a-python-library-function-which -ttempts-to-guess-the-character-encodin) –

+0

È possibile rilevare la codifica in modo affidabile se si conosce la lingua in cui si trovano questi file - vero? – georg

risposta

6

Non esiste un modo corretto per determinare la codifica di un file, cercando in solo il file stesso, ma è possibile utilizzare qualche soluzione euristica basata, ad esempio .: chardet

Problemi correlati