2011-02-05 20 views

risposta

14

Puoi usare la gemma del pdf reader (l'esempio/example.rb è semplice e ha funzionato per me): https://github.com/yob/pdf-reader

Oppure l'utilità della riga di comando pdftotext.

+0

C'è come un buon genere un'esercitazione di cose su di esso? Sono nuovo di rubino, ma copiare codice di esempio mi fa male per me – theReverseFlick

+1

Non direi che adattare il loro esempio è una brutta cosa. Ecco un tutorial che potrebbe interessarti e spiega un po 'i concetti: http://pullmonkey.com/2010/01/18/ruby-pdf-reader-gem-tutorial/ – seeingidog

3

Il Yomu gem sarà anche in grado di estrarre il testo da un PDF (così come altri tipi MIME) per te.

require 'yomu' 
Yomu.new(file_path).text 
+0

Richiede Java. – Nakilon

+0

Ho provato alcune gemme e ho trovato questo più preciso. –

0

Si può anche dare un'occhiata a DocRipper, una gemma io sostengo, che fornisce un'interfaccia di Ruby per l'estrazione di testo da un certo numero di formati di documenti tra cui PDF, DOC, DOCX e schizzo.

DocRipper utilizza pdftotext sotto il cofano ed evita le dipendenze Java.

require 'doc_ripper' 

DocRipper::rip('/path/to/file.pdf') => "Pdf text" 

È possibile leggere i file remoti utilizzando la libreria standard di Ruby:

require 'open-uri' 
require 'doc_ripper' 

tmp_file = open("some_uri") 
DocRipper::rip(tmp_file.path) 
+0

Ciao. Potresti comunicarci la sintassi per l'utilizzo di docripper con il collegamento al percorso del file anziché il percorso del file locale? – Sagar

+0

@Sagar Ti stai riferendo a un percorso di file remoto? – Paul

+0

si !!! Sto usando amazon s3 storage quindi avrò solo i link ai file. – Sagar