Iam sta tentando di estrarre il testo da un file immagine usando Tesseract OCR in Python ma sto affrontando un errore che posso capire come gestirlo. tutto il mio ambiente è buono come ho provato alcune immagini di esempio con l'ocr in python!UnicodeDecodeError con Tesseract OCR in Python
Ecco il codice
from PIL import Image
import pytesseract
strs = pytesseract.image_to_string(Image.open('binarized_image.png'))
print (strs)
follow è l'errore che ricevo da console Eclipse
strs = pytesseract.image_to_string(Image.open('binarized_body.png'))
File "C:\Python35x64\lib\site-packages\pytesseract\pytesseract.py", line 167, in image_to_string
return f.read().strip()
File "C:\Python35x64\lib\encodings\cp1252.py", line 23, in decode
return codecs.charmap_decode(input,self.errors,decoding_table)[0]
UnicodeDecodeError: 'charmap' codec can't decode byte 0x9d in position 20: character maps to <undefined>
Iam utilizzando python 3.5 x64 su Windows 10
Questo mi ricorda qualcosa che ho incontrato in passato; Non so se è esattamente lo stesso problema però. Il fatto che tu sia su Windows mi ha spiazzato - Python in CMD su Windows sembra avere una strana pagina di codice predefinita. Hai provato a hackerare in ['sys.setdefaultencoding'] (http://stackoverflow.com/questions/2276200/changing-default-encoding-of-python) per vedere se questo ti aiuta a diagnosticare il problema? (Probabilmente eviterei di tenere quell'interruzione nel codice di produzione se puoi aiutarlo comunque.) –