URL normalization (o canonicalizzazione URL) è il processo tramite il quale gli URL vengono modificati e standardizzati in modo coerente. L'obiettivo del processo di normalizzazione è trasformare un URL in un URL normalizzato o canonico in modo che sia possibile determinare se due URL sintatticamente diversi sono equivalenti.Come normalizzare un URL in Java?
Le strategie includono l'aggiunta di barre finali, https => http, ecc. La pagina di Wikipedia elenca molte.
Hai un metodo preferito per farlo in Java? Forse una biblioteca (Nutch?), Ma sono aperto. Meno e meno dipendenze è meglio.
Farò un handcode per ora e tieni d'occhio questa domanda.
MODIFICA: Voglio normalizzarmi in modo aggressivo per contare gli URL come gli stessi se si riferiscono allo stesso contenuto. Ad esempio, ignoro i parametri utm_source, utm_medium, utm_campaign. Ad esempio, ignoro il sottodominio se il titolo è lo stesso.
Buono! Tuttavia, non è abbastanza lontano per me. La prima cosa che ho fatto è stata quella di inserire i seguenti parametri: utm_source, utm_medium, utm_campaign.Sono in molti URL in natura, ma rimuoverli lascia semanticamente gli URL allo stesso modo per analizzare i contenuti a cui si riferiscono. – dfrankow
@dfrankow Questo non è necessariamente vero. Non c'è niente per impedire a un sito di pubblicare contenuti diversi in base a tali parametri. –
Certo, ma in pratica, quelli sono utilizzati da un pacchetto di marketing (Google Analytics) per tenere traccia delle campagne, quindi non sono suscettibili di variazioni. – dfrankow