2013-05-24 10 views
20

Qualcuno ha mai visto le caratteristiche di Apache Lucene? Ho sentito che è persino comparabile a Google Search Appliance (GSA). Stavo cercando un confronto preciso tra i due, se possibile?Apache Lucene contro Google Search Appliance

Questi confronti disponibili online sono piuttosto vaghi.

+1

Sarebbe meglio confrontare GSA con Elastic Search (https://www.elastic.co) o Solr (http://lucene.apache.org/solr/). Entrambi sono più adatti allo sviluppo di un motore di ricerca ed entrambi sono basati su Lucene. – YYamil

risposta

39

Probabilmente è difficile trovare un confronto tra Apache Lucene e Google Search Appliance perché sono cose così diverse. Mentre Lucene è un componente software per l'indicizzazione di documenti con "boosting" di pertinenza di base integrato, il GSA è un prodotto di ricerca aziendale (appliance/hardware fisico) con molte funzionalità predefinite per ottimizzare e ottimizzare i risultati di ricerca in base a di l'algoritmo di ricerca di Google.

Quindi sono fondamentalmente due grandi strumenti con diversi scenari di implementazione. Ma ovviamente si sovrappongono soprattutto se usati per fornire ricerche sul tuo sito web medio.

Fuori della parte superiore della mia testa un paio di argomenti che si potrebbe desiderare di iniziare con un confronto:

distribuzione/Architettura

  • Lucene è un componente software che può essere profondamente integrato nella vostra proprio software che fornisce un indice (di solito basato su file, talvolta in memoria) per indicizzare e recuperare rapidamente i contenuti.
  • Il progetto lucene fornisce un elenco piuttosto ampio di analizzatori per fare l'indicizzazione di lingue diverse (lingue occidentali, arabe, asiatiche ecc.) Ma ha margini di miglioramento con gli analizzatori
  • Lucene per .Net è un porto piuttosto essere integrato su Microsoft .Net Plattforms.
  • Software e hardware GSA raggruppati e venduti come appliance con un'interfaccia HTTP (s) che fornisce i risultati di ricerca in HTML (tramite i propri XSLT) o XML (per una migliore integrazione nel sito Web)
  • GSA viene fornito con pacchetti di lingue (installati e scaricabili). Dovresti scegliere uno dei pacchetti. Se avete bisogno di supporto per più lingue potrebbe essere necessario aggiungere un altro GSA alle infrastrutture (se tutte le lingue richieste non sono in un unico bundle)
  • GSA sta eseguendo eccellente e richiede pochissima manutenzione
  • GSA di lasciare che si scala con quasi nessuno sforzo ingegneristico. GSA distribuiti a livello globale, ma collegati possono essere impostate tramite l'interfaccia web
  • GSA può essere fatta HA acquistando un modulo hot-backup conveniente

indicizzazione

  • Lucene fornisce cingoli (e un'API crawler) per indicizzare il contenuto. Non interessa se il crawler esegue effettivamente la scansione del sito Web come Google o se esegue la scansione di un database in base a istruzioni SQL o fornisce un flusso di testo letto da file flat. Ma di solito devi implementare il crawler se l'offerta non soddisfa le tue esigenze
  • GSA utilizza la tecnologia di crawler utilizzata da Google, rispettando le istruzioni di Robots (in tag TXT o Meta), fornisce un'API di feed per le fonti che non possono essere strisciato (esnessun collegamento tra loro) e supporta la creazione di query SQL per tutti sindaco DB per retrievel dei dati da un database (sia esso URL da scansionare o i dati stessi)

Retrieval/rilevanza sintonizzazione

  • Lucene non mira e non ha un buon supporto per l'ottimizzazione della rilevanza (tranne l'aumento delle voci nell'indice). Tocca a l'applicazione utilizzando i risultati di indice per fare la messa a punto
  • Lucene è l'indice utilizzato dai SOLR che fornisce messa a punto e le architetture più simile ad un GSA (compreso risultato retrievel su HTTP (s))
  • GSA ti permette di pregiudizi set di risultati basati su metadati, data e pattern URL. Nell'ultima versione puoi persino impostare le tue entità e distorcere i risultati basati su di esse
  • GSA supporta aspetti sfaccettati per i meta-dati e altri elementi di fantasia sulla loro interfaccia come immagini di anteprima per documenti, autosuggest ecc.

cose commerciali

  • Lucene è un open source (senza costi) del prodotto, ma richiede l'hardware da acquistare
  • GSA parte da circa $ 20k per 500k documenti/URL
  • Google fornisce diversi livelli di supporto
  • licenze GSA devono essere rinnovati su base 2 o 3 anni (si ottiene un nuovo hardware)
  • GSA non richiede alcun hardware aggiuntivo (apparecchio è incluso)

... c'è molto altro da aggiungere, ma spero che tu capisca il punto.


Aggiornamento Febbraio 2016:

Google ha informato i partner che la GSA sarà interrotto intorno al 2019. Il miglior sito per collegare in questo momento sembra essere http://fortune.com/2016/02/04/google-ends-search-appliance/.

+0

Non sono d'accordo con questo commento "Lucene non punta e non ha un buon supporto per l'ottimizzazione della rilevanza (eccetto l'aumento delle voci nell'indice). Spetta all'applicazione utilizzare i risultati dell'indice per eseguire la messa a punto »considerando che ci sono interi libri sulla messa a punto della rilevanza basata su Lucene http://manning.com/turnbull (sì, questo è il mio libro) –

+1

D'accordo, non ero abbastanza specifico riguardo all'area di "sintonizzazione". Lucene fornisce un meccanismo di punteggio e punteggi possono essere potenziati a livello di documento e di campo e al tempo di query. Ma AFAIK è ancora all'altezza dell'applicazione che usa lucene per applicare le regole di business (SORL, ElasticSearch ecc. Forniscono tali meccanismi). Ti dispiacerebbe spiegarti dove specificatamente non sei d'accordo? Vorrei aggiornare la mia risposta di conseguenza. Grazie. –

Problemi correlati