2009-07-30 14 views

risposta

6

Sfortunatamente, Sfinge non è in grado di indicizzare questi tipi di file direttamente. Avrai bisogno di importare il contenuto testuale in un database, o in an XML format that Sphinx can understand.

+0

Consiglieresti un metodo rispetto ad un altro? –

+0

Dipende dal linguaggio sul lato server che si sta utilizzando. Se si tratta di Ruby/Rails, so che tutte le librerie non supportano XML out of the box, a meno che non si stia costruendo un sistema da zero (invece di usare ActiveRecord). Quindi userei il database. Altrimenti, dipende completamente da te. Se non stai usando Ruby, dai un'occhiata a quali librerie sono disponibili per la tua lingua preferita, guarda cosa possono/non possono fare. – pat

9

Il metodo che utilizzo per questo è pdf2text e antiword. Io uso entrambi di questi per scaricare il contenuto dei pdf e dei documenti di parole nel database. Da lì è facile gattonare con Sfinge.

+0

Sto usando lo stesso metodo come te e il suo lavoro per me. – Johny

Problemi correlati