Sto provando a creare un motore di ricerca solo per imparare e ottenere più esperienza in Java.Motore di ricerca in Java?
La mia intenzione è di memorizzare circa 100 file su un server, una combinazione di html, xml, doc, txt, e per ogni file di avere metadati.
SO quando cerco una parola chiave, dovrebbe visualizzare un file con la meta descrizione come Google.
La mia domanda è, oltre all'html, è possibile aggiungere metadati a qualsiasi altro formato di file, in modo che venga mostrata la meta descrizione.
Sareste in grado di puntare verso un motore di ricerca Java ME, che può cercare all'interno di formati di file (txt, html) e visualizzare il risultato.
Sto lavorando al mio codice per questo, ma vorrei dare un'occhiata al codice di altri popoli per qualche aiuto?
risposta
Lucene è la canonica motore di ricerca Java.
Per aggiungere documenti da una varietà di fonti, dare un'occhiata a Apache Tika e per un sistema completo con servizio/interfacce web, solr.
Lucene consente di associare metadati arbitrari ai relativi documenti. Tika eliminerà automaticamente i metadati da una varietà di formati.
1) La mia domanda è diversa da html è possibile aggiungere metadati a qualsiasi altro formato di file, in modo che venga mostrata la meta descrizione.
In generale si utilizza un database e si memorizzano i metadati insieme al documento. Faresti quindi una ricerca per parola chiave usando una query di database (possibilmente usando SQL like o ilike).
I file possono essere memorizzati sul disco rigido solo con percorsi nel DB o inseriti nel database come CLOB o BLOB, a seconda se si dispone di documenti di testo o binari.
2) Sareste in grado di indicare verso un motore di ricerca Java, che può cercare all'interno di formati di file (txt, html) e visualizza il risultato.
Prova Apache Lucene.
Il veramente buono è Lucene. Ci sono molti plugin (che permetterebbe ad esempio si legge da .doc), supportare più lingue e molti algoritmi (come Levenshtein distanza)
Guarda apache nutch
Apache Nutch is an open source web-search software project.
Nutch si basa sulla cima di Lucene/solr per l'indicizzazione, tika per l'analisi dei documenti e aggiunge il proprio crawler web.
- Google ignora completamente meta descrizioni al giorno d'oggi, perché è stato uno abusato, o no pieno di valori significativi
- Lucene e/o Solr potrebbe fare ciò che si vuole, dare un'occhiata.
- 100 file è una quantità molto piccola, non avrai alcun problema a gestire questa quantità di dati nel modo che preferisci, se è per l'esercizio.
Apache Tika per estrarre i metadati .
Apache Tika L'Apache Tika toolkit è un ASFv2 con licenza open source strumento per estrarre informazioni da documenti digitali. Tika consente ai motori di ricerca , ai sistemi di gestione dei contenuti e ad altre applicazioni che funzionano con vari tipi di documenti digitali per rilevare facilmente e estrarre i metadati e il contenuto da tutti i principali formati di file.
Dovrete usare diverse librerie. Prima di tutto, come molte persone menzionate prima, è possibile utilizzare Lucene per effettuare la ricerca effettiva. Tuttavia, Lucene gestisce solo il testo normale, quindi è necessario estrarlo dai file che indicizzate. Per questo, è possibile utilizzare Apache Tika.
Per iniziare, è consigliabile acquistare il libro Lucene in Action 2nd edition. La maggior parte degli esempi in là sono ancora aggiornati. Se vuoi essere un cheapskate puoi anche solo guardare il codice sorgente fornito su quella pagina.
- 1. Motore di ricerca Laravel
- 2. Creazione di un motore di ricerca Web
- 3. Codifica database multilingue nel motore di ricerca
- 4. motore di ricerca leggero per asp.net
- 5. motore di ricerca adatto ai programmatori?
- 6. Motore di ricerca - Lucene o Solr
- 7. Come valutare un motore di ricerca?
- 8. Motore di report Java leggero
- 9. Ricerca di un motore di template che può essere utilizzato in Java e JavaScript
- 10. Come creare un motore di ricerca in C#
- 11. Motore java 3d gratuito
- 12. In che modo un sito Web evidenzia i termini di ricerca utilizzati nel motore di ricerca?
- 13. Ricerca intervallo in Java
- 14. Come rilevare il motore di ricerca predefinito di Chrome
- 15. Utilizzando il motore SAXON Xpath in Java
- 16. Solr come motore di ricerca principale, Redis come motore di completamento automatico
- 17. Passa la variabile al motore di ricerca personalizzato di Google
- 18. Come funziona il motore di ricerca di Android Market?
- 19. Motore di template intelligente come java?
- 20. Come indicizzare l'applicazione Silverlight nel motore di ricerca?
- 21. Come costruire un motore di ricerca? (Aggiornamento 2013)
- 22. come creare un motore di ricerca per il sito web?
- 23. . Motore di ricerca open source basato su rete?
- 24. django pagliaio: quale motore di ricerca sarebbe stato meglio
- 25. asp.net mvc esclude un'azione dalla scansione del motore di ricerca
- 26. Libreria JavaScript per la ricerca di stili del motore di ricerca?
- 27. Esiste un motore di ricerca che supporta la ricerca di espressioni regolari?
- 28. Motore di regole open source Scritto in Java
- 29. Ricerca di un parser CSS in java
- 30. Ricerca avanzata di Eclipse Java