Ho un database di 50 000 + aziende che viene costantemente aggiornato (200+ al mese).Nomi simili in una lista enorme
Il è un problema enorme con il contenuto ripetuto perché i nomi non sono sempre rigorosi/corretta:
"Super 1 Store"
"Super One Store"
"Super 1 Negozi"
Modifica: un altro esempio .. che probabilmente ha bisogno di approccio diverso:
"di Amy Pizza" < ---> "Pizza bio da Amy e Società"
Abbiamo bisogno di uno strumento per scansionare i dati per nomi simili. Ho un po 'di esperienza con Levenshtein Distance e LCS ma funzionano bene per confrontare se 2 stringhe sono simili ...
Qui devo scansionare 50.000 nomi possono essere ciascuno con ognuno e calcolare lì ... valutazione di somiglianza generale. ..
Ho bisogno di consigli su come attaccare questo problema i risultati attesi è di avere una lista con 10-20 gruppi di nomi molto simili, e potrebbe essere ulteriormente aggiustare la sensibilità per ottenere maggiori risultati.
interessante! hai provato la 'similar_text()' [funzione] (http://php.net/manual/en/function.similar-text.php)? – Lan
La risposta facile viene prima normalizzata dopo la mappa/riduci, ma suppongo che tu stia cercando qualcosa di più complesso. – mcuadros
Non l'ho mai usato ma, che ne dici di SOUNDEX? –