Un'applicazione sul computer deve leggere in un file di testo. Ne ho diversi e uno non funziona; il programma non riesce a leggerlo e mi dice che da qualche parte c'è un personaggio cattivo. La mia prima ipotesi è che ci sia un personaggio non-ascii da qualche parte, ma non ho idea di come trovarlo. Perl o qualsiasi regex generico sarebbe bello. Qualche idea?documento di ricerca per non-ascii
risposta
È possibile utilizzare [^\x20-\x7E]
per abbinare un carattere non ASCII.
ad es. grep -P '[^\x20-\x7E]' suspicious_file
Ho avuto un problema nell'utilizzarlo, in quanto avrebbe identificato anche tutti i caratteri di fine riga nel mio file. Combinare la tua risposta con Ruakh ha funzionato come un fascino: [^ \ t \ n \ r \ x20- \ x7E] – JMM
Nel mio caso, la [risposta dall'altra domanda] (http://stackoverflow.com/a/ 882437/873282) era meglio: '[\ xE0- \ xFF]' – koppor
perl -wne 'printf "byte %02X in line $.\n", ord $& while s/[^\t\n\x20-\x7E]//;'
troveranno ogni personaggio che non è un ASCII glyphic carattere, scheda, spazio, o di nuova riga.
Se segnala 0D
s (ritorni a capo) in file O.K., quindi cambiare \t\n
in \t\n\r
.
Se segnala solo i file 0D
in cattivi, è probabile che sia possibile correggerli eseguendo dos2unix
su di essi.
Solo un addendum, si dovrebbe eseguire l'input come argomento finale non elencato. –
Così, grazie! Ho dovuto cambiarlo leggermente per una console DOS: 'perl -wne" printf qq (byte% 02X nella riga $. \ N), ord $ e while s/[^ \ t \ n \ x20- \ x7E]//;"
Se si utilizza tabulazioni nel codice sorgente così, provate questo modello:
[^\x08-\x7E]
funziona anche in Notepad ++
- 1. Ricerca documento su parole parziali
- 2. Ricerca MongoDB su documento annidato
- 3. Ricerca di caratteri greci in un documento PDF
- 4. Documento XPath la ricerca con di Mark Logic Java API di ricerca vs API XQuery/XSLT
- 5. Come ordinare un documento popolato nella richiesta di ricerca?
- 6. Ricerca per campo in Lucene
- 7. Ricerca stringa con caratteri speciali nel documento MongoDB
- 8. MongoDB Ricerca per nome proprietà per qualsiasi documento con quella proprietà
- 9. XSLT 2.0 Ricerca esterna tramite chiave() e documento()
- 10. Come memorizzare il punto di geolocalizzazione lat-lon in un documento per la ricerca GAE?
- 11. In una ricerca Lucene/Lucene.net, come faccio a contare il numero di visite per documento?
- 12. Ricerca per rilevanza con MongoDB
- 13. Ricerca dell'ordine nodo nel documento XML in SQL Server
- 14. Supporto Schemaless per query di ricerca elastica
- 15. IDF (Frequenza documento inversa) calibrabile per classificazione documento
- 16. Gensim ottenere argomento per un documento (documento visto)
- 17. Impostazione tipo MIME per documento di Excel
- 18. $ (documento) contro $ ("documento")
- 19. TF * IDF per query di ricerca
- 20. Ricerca di layout per ID
- 21. Stringa di ricerca per numeri
- 22. : errore di ricerca per indicizzazione
- 23. Ricerca di PyPI per argomento
- 24. Come posso trovare il documento più vicino utilizzando l'API di ricerca di Google App Engine?
- 25. algoritmo Niblack per binarizzazione documento
- 26. Come aumentare la quota di ricerca personalizzata di Google per la ricerca di immagini oltre 10000?
- 27. Scala 2.8 Attore documento di progettazione? Documento di design Akka?
- 28. C'è un modo per dare peso a determinati campi di un documento nella ricerca full text del motore di app?
- 29. Utilizzo di Xerces-j per convalidare un documento XML
- 30. neo4j vs mongodb per ricerca spaziale
Cosa hai provato finora? – nmagerko
Credo che tu possa trovare una risposta [qui] (http://stackoverflow.com/questions/881931/how-can-i-find-extended-ascii-characters-in-a-file-using-perl)? – Neilos
Ho accettato il caffè matematico perché era funzionante in modo superlativo in Notepad ++ –