Ho un vettore di caratteri che è il file di alcuni scraping PDF tramite pdftotext
(strumento della riga di comando).Dove si nasconde questo spazio bianco?
Tutto è (beatamente) ben allineato. Tuttavia, il vettore è pieno di un tipo di spazio bianco che elude le mie espressioni regolari:
> test
[1] "Address:" "Clinic Information:" "Store " "351 South Washburn" "Aurora Quick Care"
[6] "Info" "St. Oshkosh, WI 54904" "Phone: 920‐232‐0718" "Pewaukee"
> grepl("[0-9]+ [A-Za-z ]+",test)
[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
> dput(test)
c("Address:", "Clinic Information:", "Store ", "351 South Washburn",
"Aurora Quick Care", "Info", "St. Oshkosh, WI 54904", "Phone: 920‐232‐0718",
"Pewaukee")
> test.pasted <- c("Address:", "Clinic Information:", "Store ", "351 South Washburn",
+ "Aurora Quick Care", "Info", "St. Oshkosh, WI 54904", "Phone: 920‐232‐0718",
+ "Pewaukee")
> grepl("[0-9]+ [A-Za-z ]+",test.pasted)
[1] FALSE FALSE FALSE TRUE FALSE FALSE FALSE FALSE FALSE
> Encoding(test)
[1] "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown"
> Encoding(test.pasted)
[1] "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "UTF-8" "unknown"
Chiaramente c'è qualche personaggio che non è sempre assegnato nella dput
, come nella domanda di seguito:
How to properly dput internationalized text?
Non riesco a copiare/incollare l'intero vettore .... Come faccio a cercare e distruggere questo spazio bianco non di spazio bianco?
Modifica
Chiaramente non ero nemmeno vicino a chiarire perché le risposte sono in tutto il luogo. Ecco un banco di prova ancora più semplice:
> grepl("Clinic Information:", test[2])
[1] FALSE
> grepl("Clinic Information:", "Clinic Information:") # Where the second phrase is copy/pasted from the screen
[1] TRUE
C'è un unico spazio tra il termine "clinica" e "Informazioni" stampata sullo schermo e nella dput
uscita, ma tutto ciò che è nella stringa non è uno spazio di serie . Il mio obiettivo è quello di eliminare questo, in modo da poter annullare in modo corretto quell'elemento.
Quello spazio non è nel vettore stesso, è solo nel modo in cui viene visualizzato. –
Dai un'occhiata a 'lapply (test [4], utf8ToInt)' e vedi se ci sono grossi numeri lì dentro. –
@AlanCurry '> lapply (test [4], utf8ToInt) [1] 51 53 49 160 83 111 117 116 104 160 87 97 115 104 98 117 114 110' –