Sto usando Python 3.1, ma posso effettuare il downgrade se necessario.Python - conteggio e traduzione delle lettere
Ho un file ASCII contenente una storia breve scritta in una delle lingue il cui alfabeto può essere rappresentato con ASCII superiore o inferiore. Desidero:
1) rilevano una codifica al meglio delle mie capacità, ottenere una sorta di metrica fiducia (varierebbe a seconda della lunghezza del file, a destra)
2) Traduci automaticamente l'intero? cosa usando qualche servizio online gratuito o una biblioteca.
Domanda aggiuntiva: Cosa succede se il testo è scritto in una lingua in cui occorrono 2 o più byte per rappresentare una lettera e il segno di ordinamento dei byte non è lì per aiutarmi?
Infine, come faccio a gestire la punteggiatura e i caratteri misc come lo spazio? Succederà più frequentemente di alcune lettere, giusto? Che dire del fatto che a volte la punteggiatura e i personaggi possono essere mescolati - potrebbero esserci due rappresentazioni di una virgola, due rappresentazioni per ciò che sembra una "a", ecc.?
Sì, ho letto . Per favore aiutami con almeno alcuni di questi articoli.
Grazie!
P.S. Questo non è un compito a casa, ma è per scopi auto-educativi. Preferisco usare una libreria a frequenza di lettere che sia open source e leggibile rispetto a quella che è chiusa, efficiente, ma fa funzionare bene il lavoro.
Grazie. Si prega di elaborare il secondo paragrafo. Immagino che la mia conoscenza delle codifiche non sia così profonda come pensavo. –
Qualcuno ha detto UTF-8 ?! – jathanism