Sto cercando un modo per rilevare i set di caratteri all'interno dei documenti. Ho letto l'attuazione di rilevamento set di caratteri Mozilla qui:Algoritmo di rilevamento codifica caratteri
ho anche trovato un'implementazione Java di questa chiamata jCharDet:
Entrambi si basano su ricerca effettuata utilizzando un set di dati statici. Quello che mi chiedo è se qualcuno ha usato con successo qualsiasi altra implementazione e se sì cosa? Hai rotolato il tuo approccio e, in caso affermativo, qual è stato l'algoritmo che hai usato per rilevare il set di caratteri?
Qualsiasi aiuto sarebbe apprezzato. Io non sto cercando una lista di approcci esistenti tramite Google, né sono in cerca di un link per l'articolo Joel Spolsky - tanto per chiarire:)
UPDATE: ho fatto un po 'di ricerca in questo e finito per trovare un quadro chiamato cpdetector che utilizza un approccio plug al rilevamento dei caratteri, vedere:
Questo fornisce BOM, chardet (approccio di Mozilla) e plugin di rilevamento ASCII. È anche molto facile da scrivere. C'è anche un altro quadro, che fornisce il rilevamento carattere molto meglio che l'approccio di Mozilla/jchardet ecc ...
E 'abbastanza facile da scrivere il proprio plug-in per cpdetector che utilizza questo contesto per fornire un carattere più accurata algoritmo di rilevamento della codifica. Funziona meglio dell'approccio di Mozilla.
È un problema difficile. Grazie per gli ottimi collegamenti dalla tua ricerca. – erickson
C'è un caso famoso di questo: http://blogs.msdn.com/oldnewthing/archive/2007/04/17/2158334.aspx – McDowell
Sì, passato il problema del blocco note, correggerò il mio post con la mia ricerca una volta che ho finito e completato, alcune cose interessanti ... – Jon