In generale non è possibile distinguere in modo affidabile tra "sfondo" e testo "reale". Il testo viene disegnato da qualche parte sulla pagina in un certo ordine, e ciò che è in primo piano, sfondo, testo normale, ..., è una questione di percezione umana e potrebbe non riflettersi affatto nella struttura del flusso di contenuti PDF.
Puoi provare alcune congetture istruite, ad es. supponendo che il testo "reale" sia in colori forti mentre il testo in background è in colori chiari, o il testo "reale" è disposto in linee orizzontali, mentre il testo sullo sfondo è spesso più diagonale, ecc. Ma tutto questo è congettura, nulla su cui contare sicuro.
D'altra parte, in caso di PDF con tag si potrebbe avere una possibilità, la filigrana potrebbe essere taggata come dati artefatto.
PS Ho appena visto che hai condiviso di nuovo il tuo file. Nel caso del tuo documento l'euristica che ho menzionato funzionerebbe, il testo di fondo è grigiastro e stampato diagonalmente.
Pertanto, durante la scansione è necessario tenere traccia del colore di riempimento e/o delle matrici di trasformazione. Non appena lo scanner trova del testo, sai se è in background o in primo piano in base al colore corrente e/o al valore della matrice.
Attenzione, tuttavia, non è così semplice con tutti i documenti.
Purtroppo non riesco a scaricare il PDF, premo il pulsante sulla pagina del servizio di condivisione file ma la pagina si limita ad aggiornare. Detto questo, però, in generale non hai alcuna possibilità di differenziare tra "sfondo" e testo "reale". Nel caso di PDF * taggati * potresti avere una possibilità, il parco acquatico potrebbe essere etichettato come dati degli artefatti. – mkl
@mkl: si prega di trasformare il tuo commento in una vera risposta per ottenere il mio upvote. :-) –
@mkl Spiacente condividerò di nuovo il file. – Swaroop