Sto elaborando un gran numero di file CSV in python. I file vengono ricevuti da organizzazioni esterne e sono codificati con una gamma di codifiche. Mi piacerebbe trovare un metodo automatico per rimuovere il seguente:Rimozione di caratteri "gremlin" non stampabili da file di testo
- caratteri non-ASCII
- caratteri di controllo
- Null (ASCII 0) Personaggi
Ho un prodotto chiamato 'find e sostituiscilo! ' quello userebbe le espressioni regolari quindi un modo di risolvere il suddetto con un'espressione regolare sarebbe molto utile.
Grazie
'I file vengono ricevuti da organizzazioni esterne e sono codificati con un intervallo di codifiche' - e quelli sono ... Chiedere loro di non farlo? Cosa c'entra il tuo prodotto correlato con questo? Cosa stai cercando di usare i dati per ... Hai davvero bisogno di Python? –
Buone domande. File CSV. Le codifiche includono "sconosciuto" (secondo Trova e sostituisci!), "Utf-8", "iso-88591-1" e altri. Non posso chiedere a loro - troppe email, troppo a lungo. Ho già scritto il python che riformatta i file CSV. E la sceneggiatura funziona nella maggior parte dei casi eccetto dove gremlins (che in qualche modo fa l'equivalente di \ r) rovina CSV.reader. Rimuovere i non-asciis comunque codificati mi avrebbe risolto. Saluti! –
Grazie per tutti questi commenti. Nella fretta di finire il lavoro ho usato qualcosa chiamato BBEdit che rimuoverà 'gremlins' come caratteri/r codificati con una codifica che python non riconosce (senza ulteriore lavoro). Ora che so come identificare questi gremlins usando BBEdit, controllerò se una delle soluzioni seguenti fa la stessa cosa e spunta la prima risposta che fa. –