Ho sviluppato un indice e un'applicazione di ricerca con la libreria Lucene. ma questa libreria ha qualche limitazione nel ranking personalizzato nel mio contesto, a parte le sue prestazioni, ho bisogno di scalabilità e accesso a tutti i tipi di frequenze di parole e così via. Esiste qualche potente libreria di testo completo open source disponibile? CaratteristicheQual è il miglior progetto open source per la ricerca full-text (.NET preferito)?
12
A
risposta
5
http://www.sphinxconnector.net/
chiave Sphinx sono:
- alta indicizzazione e la ricerca delle prestazioni;
- strumenti avanzati di indicizzazione e interrogazione (tokenizzatore di testo flessibile e ricco di funzionalità, linguaggio di interrogazione, diverse modalità di classificazione, ecc.);
- set di risultati avanzato post-elaborazione (SELECT con espressioni, DOVE, ORDER BY, GROUP BY ecc su risultati di ricerca testo);
- scalabilità comprovata fino a miliardi di documenti, terabyte di dati e migliaia di query al secondo;
- integrazione semplice con origini dati SQL e XML e interfacce di ricerca SphinxAPI, SphinxQL o SphinxSE;
- scalabilità semplice con ricerche distribuite.
Per espandere un po ', Sphinx:
- ha velocità di indicizzazione (fino a 10-15 MB/sec per core su un benchmark interno);
- ha un'alta velocità di ricerca (fino a 150-250 query/sec per core contro 1.000.000 di documenti, 1,2 GB di dati su un benchmark interno);
- ha elevata scalabilità (più grandi noti indici di cluster oltre 3 miliardi di documenti, e più trafficate uno picchi oltre 50.000.000 di domande/giorno);
- fornisce una buona classificazione di pertinenza tramite la combinazione della classifica di prossimità frase e della classificazione statistica (BM25);
- fornisce funzionalità di ricerca distribuita;
- fornisce generazione di estratti di documenti (snippet);
- fornisce la ricerca dall'interno dell'applicazione con le interfacce SphinxAPI o SphinxQL e da MySQL con il motore di archiviazione SphinxSE inseribile;
- supporta la prossimità booleana, frase, parola e altri tipi di query;
- supporta più campi di testo completo per documento (fino a 32 per impostazione predefinita);
- supporta più attributi aggiuntivi per documento (es.gruppi, timestamp, ecc.);
- supporta le stopword;
- supporta dizionari di forme morfologiche di parole;
- supporta le tokenizzazione delle eccezioni;
- supporta sia codifiche a byte singolo che UTF-8;
- supporta la derivazione (stemmer per inglese, russo e ceco sono incorporati e stemmer per francese, spagnolo, portoghese, italiano, rumeno, tedesco, olandese, svedese, norvegese, danese, finlandese, ungherese, sono disponibili per la terza libreria libstemmer party);
- supporta MySQL in modo nativo (sono supportati tutti i tipi di tabelle, inclusi MyISAM, InnoDB, NDB, Archive, ecc.);
- supporta PostgreSQL in modo nativo;
- supporta i database compatibili ODBC (MS SQL, Oracle, ecc.) In modo nativo;
- ... ha oltre 50 altre funzioni non elencate qui, fare riferimento all'API e al manuale di configurazione!
Problemi correlati
- 1. Qual è il tuo strumento di debug open source preferito?
- 2. Il miglior progetto open source per l'elaborazione del segnale audio?
- 3. Qual è il miglior lettore FLV open source (incorporato)?
- 4. Qual è la migliore e più attiva tecnologia di ricerca open source .Net?
- 5. Ben documentato progetto open source in .NET
- 6. Qual è l'interprete lolcode "migliore" Open Source?
- 7. Qual è il miglior strumento per crawler web Open Source scritto in Java?
- 8. Qual è la migliore piattaforma wiki open source?
- 9. Come organizzare il progetto per la versione open source
- 10. Qual è il miglior strumento di modellazione UML open source, compatibile con linux?
- 11. Qual è il miglior pacchetto open source di clustering di documenti?
- 12. Qual è il miglior sistema di ticket di guida open source?
- 13. Progetto open source Java per contribuire
- 14. Buon progetto open source django per l'apprendimento
- 15. Qual è la differenza tra le licenze open source
- 16. Piattaforma open source per la collaborazione accademica
- 17. qual è il miglior framework open source per la produzione di file video .mov o .flv a livello di codice?
- 18. Come si porta un progetto open source?
- 19. Qual è il miglior schema SQL per questo progetto?
- 20. Progetto open source di Google Closure Future
- 21. Consigli per la documentazione con un progetto open source?
- 22. CMS open source (.Net vs Java)
- 23. Qual è il DBMS open source più compatibile con Oracle?
- 24. Come scegliere un progetto open source per aderire?
- 25. ExtJS è open source?
- 26. Come finanziare un progetto open source?
- 27. Xcode iPhone progetto open source da distribuire
- 28. Include grafici elevati nel progetto open source
- 29. .NET o PHP, aziendale o Open-Source?
- 30. FC++ è utilizzato da qualsiasi progetto open source?
Ho trovato che le prestazioni con Lucene.net sono incredibili, quindi è una sorpresa sentire qualcuno dire che hanno problemi con le prestazioni! (A proposito, Lucene ha una buona API per il punteggio personalizzato ecc.) –
Non ho alcun problema con le prestazioni di lucene, ma la classifica personalizzata è così difficile. – Ehsan