Ho 5000, a volte più, stringhe di indirizzo in una matrice. Mi piacerebbe confrontarli tutti con levenshtein per trovare corrispondenze simili. Come posso fare questo senza eseguire il ciclo di tutti i 5000 e confrontarli direttamente con ogni altro 4999?Confronta 5000 stringhe con PHP Levenshtein
Modifica: Sono anche interessato a metodi alternativi se qualcuno ha suggerimenti. L'obiettivo generale è quello di trovare voci simili (ed eliminare i duplicati) in base agli indirizzi stradali inviati dagli utenti.
Per quanto riguarda l'aggiornamento, potrebbe essere necessario applicare un po 'di ingresso di pulizia per rendere la vita più facile. (ad es. Se converti 'Ave' in 'Avenue' 'Rd' in 'Road', ecc. prima dell'archiviazione usando soundex diventerebbe un'opzione più realistica.) –
Come definisci indirizzi simili? Avete un valore massimo per la distanza di Lehvenstein che è limite per la somiglianza, ecc.? –
Simile sarebbe "12 Bird Road, Apt 6" e "12 Bird Rd. # 6" – phirschybar