Sì, è possibile trovare il documento duplicato con una query di aggregazione:
curl -XPOST http://localhost:9200/your_index/_search -d '
{
"size": 0,
"aggs": {
"duplicateCount": {
"terms": {
"field": "recordid",
"min_doc_count": 2,
"size": 10
},
"aggs": {
"duplicateDocuments": {
"top_hits": {
"size": 10
}
}
}
}
}
}'
quindi eliminare documenti duplicati, preferibilmente utilizzando una query di massa. Dai un'occhiata a es-deduplicator per la rimozione automatica dei duplicati (dichiarazione di non responsabilità: sono autore di quello script).
NOTA: le query aggregate potrebbero essere molto costose e potrebbero causare arresti anomali dei nodi (nel caso in cui l'indice sia troppo grande e il numero di nodi di dati troppo piccolo).
non è possibile utilizzare [dimensioni] quando si utilizza il metodo delete_by_query – Trent
@Trent buona chiamata. Aggiornato con la raccomandazione corrente per fare grandi eliminazioni. – Andy